Unión de inexactos

Una unión de inexactos de Analytics utiliza la correspondencia inexacta de los valores del campo clave para combinar dos tablas de Analytics en una tercera tabla. En la mayoría de los aspectos, una unión de inexactos es como una unión de Analytics común (consulte Unir tablas). La principal diferencia es que, además de unir los registros basándose en los valores de los campos clave con una correspondencia exacta, una unión de inexactos puede unir registros que tienen una correspondencia aproximada.

La unión de inexactos es útil cuando las claves primaria y secundaria contienen el mismo tipo de datos, pero con leves diferencias de forma. O si los datos de los campos clave tienen pequeñas irregularidades, como errores de tipeo, que podrían impedir una correspondencia exacta.

Ejemplo

Escenario

Desea identificar a los proveedores que también son empleados como una de las formas de analizar datos para posibles pagos inadecuados.

Enfoque

Usted une la tabla maestra Vendor (Proveedores) con la tabla Employees (Empleados) utilizando el campo de domicilio como la clave común (Vendor_Street y Emp_Address). Sin embargo, la forma de los datos de domicilio en los campos clave tienen leves diferencias; por eso, utiliza una unión de inexactos en lugar de una unión común.

Una mirada a algunos de los datos

Sin un trabajo significativo de limpieza y unificación de los datos, sería imposible unir los valores de clave primaria y secundaria que se muestran a continuación utilizando una unión común de Analytics, aun cuando los domicilios son bastante similares.

Valores de clave primaria Valores de clave secundaria
605 3rd Avenue 605 Third Avenue
400 High St SE 400 High Street S.E.
2203 Rowan Street 2203 Rowen St

Aunque se realizara una limpieza y unificación de los datos, los valores clave con diferencias mínimas de ortografía, como "Rowan" y "Rowen", probablemente no coincidirían.

Los valores clave podrían unirse con una unión de inexactos, según la configuración que se utilice.

Resultados de la salida

En el ejemplo de la tabla unida a continuación, las correspondencias exactas de los campos clave se destacan en violeta y las correspondencias inexactas de los campos clave, en verde.

Comparación entre unión de inexactos y duplicados inexactos

Una unión de inexactos analiza los valores de los campos clave de dos tablas. Si desea comprobar un campo único en una tabla única de Analytics para detectar valores casi idénticos, consulte Descripción general de los duplicados inexactos.

Tamaño de la tabla de salida y rendimiento del comando

Tamaño de la tabla de salida

La unión de inexactos es similar a la unión de muchos a muchos de Analytics. En principio, todos los valores clave primarios podrían tener una correspondencia con todos los valores clave secundarios. El tamaño de la tabla de salida puede ser muchas veces mayor que el tamaño de cualquiera de las tablas de entrada primaria o secundaria.

Desempeño del comando

Los algoritmos de correspondencia inexacta se aseguran de que solo se unan los valores clave que tienen un grado específico de imprecisión o los valores con una correspondencia exacta. Sin embargo, se deben probar todas las posibles correspondencias primarias. Esto significa que el proceso de unión de inexactos puede llevar mucho tiempo. La cantidad de pruebas individuales que se deben realizar es igual a la cantidad de registros de la tabla primaria por la cantidad de registros de la tabla secundaria.

Mejores prácticas

Al preparar las tablas de entrada primaria y secundaria, y especificar el nivel de inexactitud, tenga en cuenta el tamaño de la tabla de salida y el desempeño del comando.

  • Adapte los datos Asegúrese de que se incluyan únicamente los registros pertinentes en las tablas primaria y secundaria. Si algunos registros no tienen probabilidades de tener una correspondencia, quítelos con un filtro antes de realizar la unión de inexactos.
  • Pruebas de ensayo Si tiene conjuntos de datos de gran volumen, realice pruebas de ensayo con una pequeña parte de los datos para determinar de forma más eficiente los ajustes de los algoritmos de la unión de inexactos. Comience con un ajuste de inexactos más conservador y, si es necesario, hágalo progresivamente más laxo.

Algoritmos de correspondencia de inexactos

Al realizar una unión de inexactos, debe escoger entre dos algoritmos de correspondencia de inexactos diferentes:

  • Coeficiente de Dice
  • Distancia de Levenshtein

Los algoritmos actúan de manera independiente entre sí y pueden generar resultados algo distintos. Un enfoque consiste en realizar una unión de inexactos dos veces, una vez con cada algoritmo, y después comparar los resultados. En general, en cada conjunto de resultado existe una cantidad de correspondencias inexactas que se superponen, pero algunos resultados pueden ser exclusivos de cada conjunto de resultados.

Grado de inexactitud

Usted especifica el grado de inexactitud de cada algoritmo, lo cual puede modificar drásticamente el tamaño y la conformación del conjunto de resultados. El "grado de inexactitud" se relaciona con el nivel de coincidencia entre dos valores.

Según el algoritmo que seleccione, utilizará los siguientes ajustes para controlar el grado de inexactitud:

Algoritmo Ajuste

Coeficiente de Dice

  • N-grama
  • Porcentaje

Distancia de Levenshtein

  • Distancia

Haga pruebas con diferentes grados de inexactitud. Comience de manera conservadora y genere conjuntos de resultados más pequeños. A continuación, haga los ajustes progresivamente más laxos hasta que comience a obtener demasiados valores unidos que obviamente no son correspondencias (falsos positivos).

Coeficiente de Dice

El algoritmo del coeficiente de Dice mide el grado de similitud entre un valor clave primario y uno secundario, utilizando una escala de 0,0000 a 1,0000. Cuanto mayor sea el coeficiente de Dice de los dos valores, mayor será su similitud.

Distancia de Levenshtein

El algoritmo de la distancia de Levenshtein mide el grado de diferencia entre el valor clave primario y el secundario, en una escala de números enteros que comienza en 0. La escala representa el número de ediciones de caracteres individuales requerido para hacer que un valor sea idéntico a otra. Mientras mayor sea la distancia de Levenshtein entre dos valores, mayor será la diferencia entre ellos.

Obtener mejores resultados

El uso de las funciones de Analytics para realizar la limpieza y la unificación de los datos de los campos clave primario y secundario puede mejorar la eficacia de la unión de inexactos. Por ejemplo, si unifica los valores como "Street", "St." y "St", o los quita por completo, puede usar ajustes inexactos más estrictos y continuar obteniendo las mismas correspondencias inexactas, pero reduciendo la cantidad de correspondencias que son falsos positivos.

Quitar los elementos genéricos

Puede usar las funciones OMIT( ) y EXCLUDE( ) para quitar los elementos genéricos, como "Corporación" o "Inc.", o caracteres como comas, puntos y signos et (&) de los valores del campo.

La eliminación de los elementos genéricos y la puntuación centra la comparación de los valores de los campos clave de la unión de inexactos únicamente en la parte de los valores en los que puede haber una diferencia significativa.

Pasos

Puede usar la correspondencia inexacta de los valores del campo clave para combinar dos tablas de Analytics en una tercera tabla.

Ayuda de Analytics 14.1