Méthode duplicates()

Détecte si des valeurs dupliquées ou des lignes entièrement dupliquées existent dans un cadre de données.

Syntaxe

nom_cadre_données.duplicates(on = ["colonne_clé", "...n"], add_groups = True|False)

Paramètres

Nom Description
on = ["colonne_clé", "...n"]

La ou les colonnes clés à tester pour y rechercher des doublons.

Si vous testez plusieurs colonnes, les lignes identifiées en doublons exigent des valeurs identiques dans chaque colonne spécifiée.

Si vous effectuez le test sur toutes les colonnes d'un cadre de données, les lignes identifiées en doublons doivent être totalement identiques.

Les colonnes clés sont placées le plus à gauche dans le cadre de données de sortie.

add_groups = True | False

facultatif

  • True inclut la colonne Group dans le cadre de données de sortie
  • False n'inclut pas la colonne Group dans le cadre de données de sortie

La colonne Group attribue un numéro incrémenté séquentiellement à chaque groupe unique de doublons.

Astuce

La possibilité de référencer des groupes de doublons par numéro peut s'avérer utile lorsque vous analysez des données dans le cadre de données de sortie.

Si vous ignorez le paramètre, la colonne Group n'est pas incluse.

Renvoie

Un cadre de données HCL.

Exemples

Test de recherche de valeurs en doublons dans une colonne

Dans le cadre de données invoices, l'exemple suivant :

  • recherche par des tests des valeurs en doublons dans la colonne Invoice_Number
  • sort les lignes contenant des numéros de facture en doublon dans le cadre de données inv_num_duplicates
inv_num_duplicates = invoices.duplicates(on = ["Invoice_Number"])

Le deuxième exemple en fait de même et il attribue aussi un numéro incrémenté séquentiellement à chaque groupe unique de doublons.

inv_num_duplicates_group_id = invoices.duplicates(on = ["Invoice_Number"], add_groups = True)

Test de recherche de valeurs en doublons dans au moins deux colonnes associées

Dans le cadre de données invoices, l'exemple suivant :

  • recherche par des tests des combinaisons de valeurs en doublons dans les colonnes Invoice_Number et Vendor_Number
  • sort les lignes contenant le même numéro de facture et le même numéro fournisseur dans le cadre de données invoice_vendor_duplicates

La différence entre ce test et le précédent, c'est qu'un numéro de facture identique provenant de deux fournisseurs différents n'est pas signalé comme faux positif.

invoice_vendor_duplicates = invoices.duplicates(on = ["Invoice_Number", "Vendor_Number"])

Test de recherche de lignes en doublons

Dans le cadre de données inventory, l'exemple suivant :

  • teste et recherche des valeurs en doublons dans chaque colonne
  • sort les lignes identiques dans le cadre de données inventory_duplicates
inventory_duplicates = inventory.duplicates(on = ["ProdNum", "ProdClass", "Location", "ProdDesc", "ProdStatus", "UnitCost", "CostDate", "SalePrice", "PriceDate"])