Acerca de duplicados inexactos
Los duplicados inexactos son valores de caracteres casi idénticos que pueden hacer referencia a la misma entidad en el mundo real. Por ejemplo, los cuatro valores siguientes pueden ser la misma compañía:
- Intercity Couriers
- Inter-city Couriers
- Intercity Couriers Inc.
- Intrecity Couriers
Entre las causas comunes de duplicados inexactos está los errores de entrada de datos tales como errores tipográficos y errores ortográficos, métodos diferentes de formato de datos, y convenciones diferentes de entrada de datos. La creación intencional de valores casi idénticos puede indicar fraude. Los duplicados inexactos obstaculizan el análisis de datos, el cual se basa en referencia de datos de entidades del mundo real de una forma uniforme.
Puede probar campos de caracteres individuales en una tabla para identificar cualquier duplicado inexacto en un campo, y producir resultados de salida que agrupan duplicados inexactos basándose en un grado de diferencia que usted especifique. Los grupos de duplicados inexactos le proporcionan un punto de inicio. Probablemente, deberá realizar análisis adicionales, como una prueba de duplicados de campos asociados con el campo de prueba de duplicados inexactos, para determinar si alguno de los miembros de un grupo, de hecho, hace referencia a la misma entidad en el mundo real.
El campo de prueba de duplicados inexactos puede contener letras, números y caracteres especiales, lo cual le permite comprobar valores como nombres de personas y compañías, direcciones, y números de seguro social y números de productos, si los números están en formato de datos de caracteres.
La función de duplicados inexactos no admite uniones imprecisas, o una comparación imprecisa de valores en dos campos separados o dos tablas separadas.
Resultados de salida de duplicados inexactos
El siguiente ejemplo muestra los resultados de la salida que se obtienen al buscar duplicados inexactos en el campo Apellido de una tabla.
Los resultados de salida se distribuyen en grupos. El Número de registro original del primer duplicado inexacto de cada grupo se utiliza para identificar al grupo. Por ejemplo, “Janson” es el apellido del número de registro 3 en la tabla original y, como “Janson” es el primer valor del grupo, basándose en la secuencia de registros de la tabla original, el grupo se identifica como Grupo 3. Si desea obtener más información, consulte Cómo agrupar duplicados inexactos.
Comparación basada en caracteres
Al comparar dos valores, la función de duplicados inexactos realiza una comparación basada en caracteres, no una comparación basada en palabras. La función trata los espacios en blanco entre palabras como caracteres, y no diferencia entre palabras individuales. Independientemente del número de palabras individuales en un valor, la función trata los valores como una cadena de caracteres individual ininterrumpida.
La implicación de este enfoque es que algunos valores que parecen ser duplicados inexactos podrían no ser incluidos en los resultados de salida, basándose en la naturaleza de los datos y la configuración de diferencia que especifique en el cuadro de diálogo Duplicados inexactos. Veamos los siguientes ejemplos:
- “JW Smith” y “John William Smith”
- “Diamond Tire” y “Diamond Tire & Auto”
El primer ejemplo podría ser dos versiones del mismo nombre, uno que usa iniciales y el otro que usa el primer y el segundo nombre explícitos. El segundo ejemplo podría ser una versión corta y una versión larga del nombre de una compañía. Sin embargo, ninguno de estos pares se devolverá como duplicado inexacto a menos que la configuración de diferencia se establezca bastante flexible, lo cual tendría el efecto adverso de devolver también grandes números de falsos positivos. La función de duplicados inexactos procesa cada par en los ejemplos simplemente como dos cadenas de caracteres. En cada caso, debido a que las dos cadenas difieren significativamente en longitud, las dos cadenas son significativamente diferentes entre sí cuando se considera en el nivele de caracteres.
Si desea obtener más información, consulte Cómo funciona la configuración de diferencia.
Información adicional acerca de duplicados inexactos
Detectar duplicados inexactos en un campo no requiere que el campo esté ordenado, y ordenar un campo antes de una prueba no ayuda en la operación de duplicados inexactos de ningún manera. Sin embargo, puede elegir ordenar un campo de prueba por adelantado debido a que puede hacer más fácil examinar los resultados de salida, y el cuadro de diálogo Duplicados inexactos no incluye la opción Preordenar.
Al detectar duplicados inexactos, usted tiene la opción de incluir duplicados exactos en los resultados de salida. Si está interesado en buscar sólo duplicados exactos, utilice en cambio la función de duplicados.