duplicates()-Methode

Erkennt, ob doppelte Werte oder vollständige doppelte Zeilen in einem Datenrahmen existieren.

Syntax

datenrahmen_name.duplicates(on = ["schluesselspalte", "...n"], add_groups = True|False)

Parameter

Name Beschreibung
on = ["schluesselspalte", "...n"]

Die Schlüsselspalte oder -spalten, die Sie auf Duplikate testen möchten:

Wenn Sie mehr als eine Spalte testen, müssen als Duplikate identifizierte Zeilen in jeder angegebenen Spalte identische Werte aufweisen.

Wenn Sie alle Spalten eines Datenrahmens testen, müssen als Duplikate identifizierte Zeilen vollkommen identisch sein.

Schlüsselspalten sind ganz links im Ausgabedatenrahmen positioniert.

add_groups = True | False

Optional

  • True Spalte Gruppe in den Ausgabedatenrahmen aufnehmen
  • False Spalte Gruppe nicht in den Ausgabedatenrahmen aufnehmen

Die Spalte Gruppe weist jeder eindeutigen Gruppe von Duplikaten eine schrittweise erhöhte Zahl zu.

Tipp

Die Möglichkeit, Duplikatgruppen nach ihrer Zahl zu referenzieren, kann für die Analyse von Daten im Ausgabedatenrahmen hilfreich sein.

Wenn der Parameter weggelassen wird, ist die Spalte Gruppe nicht enthalten.

Gibt zurück

HCL-Datenrahmen zurück.

Beispiele

Auf Duplikate in einer Spalte testen

Das folgende Beispiel erledigt im Datenrahmen invoices die folgenden Aufgaben:

  • auf doppelte Werte in der Spalte Invoice_Number testen
  • Zeilen mit doppelten Rechnungsnummern in einen neuen Datenrahmen inv_num_duplicates ausgeben
inv_num_duplicates = invoices.duplicates(on = ["Invoice_Number"])

Das zweite Beispiel erledigt dieselbe Aufgabe und weist auch jeder eindeutigen Gruppe von Duplikaten eine schrittweise erhöhte Zahl zu.

inv_num_duplicates_group_id = invoices.duplicates(on = ["Invoice_Number"], add_groups = True)

Auf Duplikate zweier oder mehrerer kombinierter Spalten testen

Das folgende Beispiel erledigt im Datenrahmen invoices die folgenden Aufgaben:

  • auf doppelte Wertkombinationen in den Spalten Invoice_Number und Vendor_Number testen
  • Zeilen mit derselben Rechnungsnummer und derselben Lieferantennummer in den Datenrahmen invoice_vendor_duplicates ausgeben

Der Unterschied zwischen diesem und dem vorherigen Test besteht darin, dass eine identische Rechnungsnummer von zwei unterschiedlichen Lieferanten nicht als falsch-positives Ergebnis gemeldet wird.

invoice_vendor_duplicates = invoices.duplicates(on = ["Invoice_Number", "Vendor_Number"])

Auf doppelte Zeilen testen

Das folgende Beispiel erledigt im Datenrahmen inventory die folgenden Aufgaben:

  • auf doppelte Werte in jeder Spalte testen
  • vollkommen identische Zeilen in den Datenrahmen inventory_duplicates ausgeben
inventory_duplicates = inventory.duplicates(on = ["ProdNum", "ProdClass", "Location", "ProdDesc", "ProdStatus", "UnitCost", "CostDate", "SalePrice", "PriceDate"])