Método duplicates()
Detecta si existen valores duplicados o filas completas duplicadas en un marco de datos.
Sintaxis
nombre_marco_de_datos.duplicates(on = ["columna_clave", "...n"], add_groups = True|False)
Parámetros
Nombre | Descripción |
---|---|
on = ["columna_clave", "...n"] |
La o las columnas clave que se deben probar en busca de duplicados. Si prueba por más de una columna, las filas identificadas como duplicados requieren valores idénticos en cada columna especificada. Si comprueba todas las columnas de un marco de datos, las filas identificadas como duplicados deben ser absolutamente idénticas. Las columnas clave se colocan a la izquierda en el marco de datos de salida. |
add_groups = True | False opcional |
La columna Grupo le asigna un número creciente y en secuencia a cada grupo exclusivo de duplicados. Consejo La capacidad de hacer referencia a grupos de duplicados con un número puede resultar útil al analizar los datos de un marco de datos de salida. Si omite el parámetro, no se incluye la columna Grupo. |
Devuelve
Marco de datos de HCL.
Ejemplos
Probar la presencia de valores duplicados en una columna
En el marco de datos invoices, el siguiente ejemplo:
- prueba si existen valores duplicados en la columna Invoice_Number
- envía las filas que contienen números de factura duplicados al marco de datos inv_num_duplicates
inv_num_duplicates = invoices.duplicates(on = ["Invoice_Number"])
El segundo ejemplo hace lo mismo y, además, le asigna un número creciente y en secuencia a cada grupo exclusivo de duplicados.
inv_num_duplicates_group_id = invoices.duplicates(on = ["Invoice_Number"], add_groups = True)
Probar si existen valores duplicados en dos o más columnas en combinación
En el marco de datos invoices, el siguiente ejemplo:
- prueba si existen combinaciones de valores duplicados en las columnas Invoice_Number y Vendor_Number
- envía las filas que contienen el mismo número de factura y el mismo número de proveedor al marco de datos invoice_vendor_duplicates
La diferencia entre esta prueba y la prueba anterior es que los números de factura idénticos de dos proveedores diferentes no se reportan como un falso positivo.
invoice_vendor_duplicates = invoices.duplicates(on = ["Invoice_Number", "Vendor_Number"])
Probar si existen filas duplicadas
En el marco de datos inventory, el siguiente ejemplo:
- prueba si existen valores duplicados en cada columna
- envía todas las filas totalmente idénticas al marco de datos inventory_duplicates
inventory_duplicates = inventory.duplicates(on = ["ProdNum", "ProdClass", "Location", "ProdDesc", "ProdStatus", "UnitCost", "CostDate", "SalePrice", "PriceDate"])