Méthode duplicates()
Détecte si des valeurs dupliquées ou des lignes entièrement dupliquées existent dans un cadre de données.
Syntaxe
nom_cadre_données.duplicates(on = ["colonne_clé", "...n"], add_groups = True|False)
Paramètres
Nom | Description |
---|---|
on = ["colonne_clé", "...n"] |
La ou les colonnes clés à tester pour y rechercher des doublons. Si vous testez plusieurs colonnes, les lignes identifiées en doublons exigent des valeurs identiques dans chaque colonne spécifiée. Si vous effectuez le test sur toutes les colonnes d'un cadre de données, les lignes identifiées en doublons doivent être totalement identiques. Les colonnes clés sont placées le plus à gauche dans le cadre de données de sortie. |
add_groups = True | False facultatif |
La colonne Group attribue un numéro incrémenté séquentiellement à chaque groupe unique de doublons. Astuce La possibilité de référencer des groupes de doublons par numéro peut s'avérer utile lorsque vous analysez des données dans le cadre de données de sortie. Si vous ignorez le paramètre, la colonne Group n'est pas incluse. |
Renvoie
Un cadre de données HCL.
Exemples
Test de recherche de valeurs en doublons dans une colonne
Dans le cadre de données invoices, l'exemple suivant :
- recherche par des tests des valeurs en doublons dans la colonne Invoice_Number
- sort les lignes contenant des numéros de facture en doublon dans le cadre de données inv_num_duplicates
inv_num_duplicates = invoices.duplicates(on = ["Invoice_Number"])
Le deuxième exemple en fait de même et il attribue aussi un numéro incrémenté séquentiellement à chaque groupe unique de doublons.
inv_num_duplicates_group_id = invoices.duplicates(on = ["Invoice_Number"], add_groups = True)
Test de recherche de valeurs en doublons dans au moins deux colonnes associées
Dans le cadre de données invoices, l'exemple suivant :
- recherche par des tests des combinaisons de valeurs en doublons dans les colonnes Invoice_Number et Vendor_Number
- sort les lignes contenant le même numéro de facture et le même numéro fournisseur dans le cadre de données invoice_vendor_duplicates
La différence entre ce test et le précédent, c'est qu'un numéro de facture identique provenant de deux fournisseurs différents n'est pas signalé comme faux positif.
invoice_vendor_duplicates = invoices.duplicates(on = ["Invoice_Number", "Vendor_Number"])
Test de recherche de lignes en doublons
Dans le cadre de données inventory, l'exemple suivant :
- teste et recherche des valeurs en doublons dans chaque colonne
- sort les lignes identiques dans le cadre de données inventory_duplicates
inventory_duplicates = inventory.duplicates(on = ["ProdNum", "ProdClass", "Location", "ProdDesc", "ProdStatus", "UnitCost", "CostDate", "SalePrice", "PriceDate"])