Descripción general de los duplicados inexactos
Puede usar la función de duplicados inexactos de Analytics para comprobar un campo de caracteres en busca de valores casi idénticos que puedan hacer referencia a la misma entidad en el mundo real.
Detectar duplicados inexactos es un proceso más complicado que identificar duplicados exactos. Comprender la configuración que controla el grado de diferencia entre duplicados inexactos, y cómo se agrupan los duplicados inexactos en los resultados de salida, ayudará a optimizar su uso de la función.
Además de la función principal de duplicados inexactos, es posible que necesite utilizar una o las dos funciones de ayuda de duplicados inexactos, o concatenar campos de prueba, para alcanzar sus metas.
Consejo
La función de duplicados inexactos requiere el uso intensivo del procesador, debido a que cada valor en un campo de prueba se debe comparar con cada valor subsiguiente en el campo. Si su análisis lo permite, utilice métodos tales como filtrar o extraer subconjuntos de registros para limitar el tamaño del conjunto de datos que prueba. El uso de conjuntos de datos más pequeños mejora la velocidad de ejecución y también ayuda a controlar el tamaño de los resultados.
Comparación entre duplicados inexactos y unión de inexactos
La función duplicados inexactos analiza valores de un único campo en una única tabla de Analytics. Para utilizar la correspondencia inexacta para combinar campos de dos tablas de Analytics en una nueva tabla única, consulte Unión de inexactos.
Secuencia de tareas en análisis de duplicados inexactos
Según la naturaleza de los datos que esté probando y de la meta de su análisis de duplicados inexactos, es posible que necesite realizar diversas tareas para obtener resultados útiles. La siguiente tabla proporciona una secuencia para estas tareas.
Nota
Con excepción de la función de duplicados inexactos en sí, las tareas son opcionales, pero realizar una o más de ellas puede mejorar la calidad de los resultados.
|
Tarea |
Opcional |
Función de Analytics |
Detalles |
---|---|---|---|---|
1 |
Limite el tamaño del conjunto de datos de prueba |
Sí |
Filtros Extraer subconjuntos de datos |
Mejore el rendimiento al procesar sólo registros que sean significativos para su análisis |
2 |
Borre elementos genéricos como “Corporación” o “Inc.” de los valores del campo |
Sí |
Función OMIT( ) |
Reduzca el tamaño y aumente la precisión de los resultados concentrándose sólo en la parte de un valor de caracteres donde pueda ocurrir una diferencia significativa |
3 |
Concatene campos para aumentar la unicidad de los valores de prueba |
Sí |
una expresión de Analytics que utiliza el operador de suma (+) |
Reduzca el tamaño y aumente la precisión de los resultados probando valores más exclusivos, que se producen al concatenar dos o más campos de caracteres |
4 |
Identifique todos los duplicados inexactos en un campo y obtenga una salida de resultados no exhaustivos |
No |
Función de duplicados inexactos |
La función principal de duplicados inexactos |
5 |
Identifique una lista exhaustiva de duplicados inexactos para un valor de caracteres individual a partir de los resultados no exhaustivos |
Sí |
Función ISFUZZYDUP( ) |
Produzca una lista cómoda y exhaustiva de duplicados inexactos para un valor de caracteres de relevancia particular para su meta de auditoría |