duplicates()-Methode
Erkennt, ob doppelte Werte oder vollständige doppelte Zeilen in einem Datenrahmen existieren.
Syntax
datenrahmen_name.duplicates(on = ["schluesselspalte", "...n"], add_groups = True|False)
Parameter
Name | Beschreibung |
---|---|
on = ["schluesselspalte", "...n"] |
Die Schlüsselspalte oder -spalten, die Sie auf Duplikate testen möchten: Wenn Sie mehr als eine Spalte testen, müssen als Duplikate identifizierte Zeilen in jeder angegebenen Spalte identische Werte aufweisen. Wenn Sie alle Spalten eines Datenrahmens testen, müssen als Duplikate identifizierte Zeilen vollkommen identisch sein. Schlüsselspalten sind ganz links im Ausgabedatenrahmen positioniert. |
add_groups = True | False Optional |
Die Spalte Gruppe weist jeder eindeutigen Gruppe von Duplikaten eine schrittweise erhöhte Zahl zu. Tipp Die Möglichkeit, Duplikatgruppen nach ihrer Zahl zu referenzieren, kann für die Analyse von Daten im Ausgabedatenrahmen hilfreich sein. Wenn der Parameter weggelassen wird, ist die Spalte Gruppe nicht enthalten. |
Gibt zurück
HCL-Datenrahmen zurück.
Beispiele
Auf Duplikate in einer Spalte testen
Das folgende Beispiel erledigt im Datenrahmen invoices die folgenden Aufgaben:
- auf doppelte Werte in der Spalte Invoice_Number testen
- Zeilen mit doppelten Rechnungsnummern in einen neuen Datenrahmen inv_num_duplicates ausgeben
inv_num_duplicates = invoices.duplicates(on = ["Invoice_Number"])
Das zweite Beispiel erledigt dieselbe Aufgabe und weist auch jeder eindeutigen Gruppe von Duplikaten eine schrittweise erhöhte Zahl zu.
inv_num_duplicates_group_id = invoices.duplicates(on = ["Invoice_Number"], add_groups = True)
Auf Duplikate zweier oder mehrerer kombinierter Spalten testen
Das folgende Beispiel erledigt im Datenrahmen invoices die folgenden Aufgaben:
- auf doppelte Wertkombinationen in den Spalten Invoice_Number und Vendor_Number testen
- Zeilen mit derselben Rechnungsnummer und derselben Lieferantennummer in den Datenrahmen invoice_vendor_duplicates ausgeben
Der Unterschied zwischen diesem und dem vorherigen Test besteht darin, dass eine identische Rechnungsnummer von zwei unterschiedlichen Lieferanten nicht als falsch-positives Ergebnis gemeldet wird.
invoice_vendor_duplicates = invoices.duplicates(on = ["Invoice_Number", "Vendor_Number"])
Auf doppelte Zeilen testen
Das folgende Beispiel erledigt im Datenrahmen inventory die folgenden Aufgaben:
- auf doppelte Werte in jeder Spalte testen
- vollkommen identische Zeilen in den Datenrahmen inventory_duplicates ausgeben
inventory_duplicates = inventory.duplicates(on = ["ProdNum", "ProdClass", "Location", "ProdDesc", "ProdStatus", "UnitCost", "CostDate", "SalePrice", "PriceDate"])