Detección de duplicados

Concept Information

Comando DUPLICATES

Los valores duplicados en uno o más campos, o los registros duplicados, pueden deberse a errores en la entrada de datos o a actividades fraudulentas, como la división de las transacciones de tarjetas de crédito para evitar investigaciones.

Requisito de valores exclusivos

Los campos que jamás deberían contener duplicados son aquellos en los cuales los valores identifican registros de manera exclusiva. Por ejemplo, una tabla de empleados jamás debería tener números de empleado duplicados porque cada número debería identificar de manera exclusiva a un empleado.

Duplicados válidos

Los valores duplicados también pueden ser válidos. Por ejemplo, una tabla de transacciones podría tener números de cliente duplicados debido a la existencia de varias transacciones de los mismos clientes.

Diferentes tipos de comprobación de duplicados

Puede utilizar Analytics para comprobar si hay duplicados de las siguientes maneras:

Alcance de la prueba Utilice esta prueba cuando:
Un campo

Todos los valores de un campo determinado deban ser únicos, como los números de empleado o los números de cheque.

Dos o más campos en combinación

La exclusividad no sea un requisito de ningún campo aislado, pero sea un requisito de ciertos campos cuando están en combinación.

Ejemplo

En un archivo de nómina que cubra todo un año, el campo de número de empleado y el campo de fecha de pago contendrán varios duplicados. Los empleados reciben su paga cada dos semanas y muchos de ellos la reciben en la misma fecha.

Sin embargo, un empleado individual debería aparecer tan solo una vez para una fecha determinada. Si existe un duplicado en los campos número de empleado y fecha de pago combinados, es posible que a un empleado se le haya pagado dos veces por el mismo período de pago.

Todos los campos de un registro

Para comprobar la existencia de registros duplicados completos, en los cuales todos los campos del registro están duplicados. Los registros totalmente duplicados podrían deberse a errores en la entrada de datos o a otras irregularidades en las transacciones.

Ordenamiento y duplicados

En general, solo debe comprobar si hay duplicados utilizando uno o más campos clave ordenados. Los valores duplicados en un campo clave solo se pueden encontrar si son adyacentes.

Si busca duplicados en un campo clave sin ordenar, los valores duplicados que no son adyacentes no se reportan como duplicados. Si existen uno o más clústeres del mismo valor duplicado, se los reporta como duplicados, pero en grupos separados.

Según cuáles sean las metas de su análisis, tal vez sea conveniente comprobar si existen duplicados utilizando un campo sin ordenar. Por ejemplo, es posible que desee detectar únicamente los valores duplicados adyacentes en la tabla de origen e ignorar los valores duplicados que no son adyacentes.

Incluir el campo Número de grupo en la tabla de salida

Si lo desea, puede incluir el campo Número de grupo en la tabla de salida de duplicados. El campo le asigna un número creciente y en secuencia a cada grupo exclusivo de duplicados. La capacidad de hacer referencia a grupos de duplicados con números puede resultar útil al analizar los datos de la tabla de salida.

Filtrar la tabla de salida de duplicados por número de grupo

Usted utiliza varios campos clave en combinación para comprobar si existen registros duplicados en una tabla de cuentas por pagar:

  • número de proveedor
  • número de factura
  • fecha de la factura
  • importe de la factura

Desea filtrar la tabla de salida de duplicados que obtiene para que solo algunos grupos de duplicados sean procesados en una etapa posterior.

Crear un filtro utilizando una combinación de campos clave requeriría mucho trabajo. Por ejemplo:

SET FILTER TO ((Núm_proveedor = "11475") AND (Núm_factura = "8752512") AND (Fecha_factura = `20191021`) AND (Importe_factura = 7125.80)) OR ((Núm_proveedor = "12130") AND (Núm_factura= "589134") AND (Fecha_factura = `20191117`) AND (Importe_factura = 10531.71)) OR ((Núm_proveedor = "13440") AND (Núm_factura = "5518912") AND (Fecha_factura = `20191015`) AND (Importe_factura = 11068.20))

Por el contrario, usted logra el mismo resultado si crea un filtro sobre la base de un número de grupo:

SET FILTER TO MATCH(GROUP_NUM; 3 ; 8; 11)

Pasos

Puede realizar pruebas en uno o más campos en la tabla activa para detectar si hay valores duplicados o registros duplicados completos.

Quitar duplicados

Puede utilizar la operación de resumen para quitar registros o valores duplicados de un conjunto de datos y guardar los registros o valores únicos restantes en una nueva tabla de Analytics.