Método duplicates()

Detecta si existen valores duplicados o filas completas duplicadas en un marco de datos.

Sintaxis

nombre_marco_de_datos.duplicates(on = ["columna_clave", "...n"], add_groups = True|False)

Parámetros

Nombre Descripción
on = ["columna_clave", "...n"]

La o las columnas clave que se deben probar en busca de duplicados.

Si prueba por más de una columna, las filas identificadas como duplicados requieren valores idénticos en cada columna especificada.

Si comprueba todas las columnas de un marco de datos, las filas identificadas como duplicados deben ser absolutamente idénticas.

Las columnas clave se colocan a la izquierda en el marco de datos de salida.

add_groups = True | False

opcional

  • True incluya la columna Grupo en el marco de datos de salida
  • False no incluya la columna Grupo en el marco de datos de salida

La columna Grupo le asigna un número creciente y en secuencia a cada grupo exclusivo de duplicados.

Consejo

La capacidad de hacer referencia a grupos de duplicados con un número puede resultar útil al analizar los datos de un marco de datos de salida.

Si omite el parámetro, no se incluye la columna Grupo.

Devuelve

Marco de datos de HCL.

Ejemplos

Probar la presencia de valores duplicados en una columna

En el marco de datos invoices, el siguiente ejemplo:

  • prueba si existen valores duplicados en la columna Invoice_Number
  • envía las filas que contienen números de factura duplicados al marco de datos inv_num_duplicates
inv_num_duplicates = invoices.duplicates(on = ["Invoice_Number"])

El segundo ejemplo hace lo mismo y, además, le asigna un número creciente y en secuencia a cada grupo exclusivo de duplicados.

inv_num_duplicates_group_id = invoices.duplicates(on = ["Invoice_Number"], add_groups = True)

Probar si existen valores duplicados en dos o más columnas en combinación

En el marco de datos invoices, el siguiente ejemplo:

  • prueba si existen combinaciones de valores duplicados en las columnas Invoice_Number y Vendor_Number
  • envía las filas que contienen el mismo número de factura y el mismo número de proveedor al marco de datos invoice_vendor_duplicates

La diferencia entre esta prueba y la prueba anterior es que los números de factura idénticos de dos proveedores diferentes no se reportan como un falso positivo.

invoice_vendor_duplicates = invoices.duplicates(on = ["Invoice_Number", "Vendor_Number"])

Probar si existen filas duplicadas

En el marco de datos inventory, el siguiente ejemplo:

  • prueba si existen valores duplicados en cada columna
  • envía todas las filas totalmente idénticas al marco de datos inventory_duplicates
inventory_duplicates = inventory.duplicates(on = ["ProdNum", "ProdClass", "Location", "ProdDesc", "ProdStatus", "UnitCost", "CostDate", "SalePrice", "PriceDate"])