Cómo funciona la configuración de diferencia

Los duplicados inexactos se seleccionan sobre la base del nivel de diferencia que usted especifica y luego se agrupan en los resultados de la salida. El grado de diferencia es una combinación de dos configuraciones en el cuadro de diálogo Duplicados inexactos:

  • Umbral de diferencia controla cuánto pueden diferir dos duplicados inexactos
  • Porcentaje de diferencia controla qué proporción de un valor individual puede ser diferente

Las dos configuraciones actúan cómo dos umbrales separados. Los valores en el campo que está comprobando deben ubicarse dentro de los límites de ambos umbrales para ser incluidos en un grupo de duplicados inexactos en los resultados. Al ajustar las dos configuraciones, puede maximizar la precisión y utilidad de los resultados.

Puede desactivar Porcentaje de diferencia, en cuyo caso los valores sólo necesitan estar dentro de los límites del Umbral de diferencia. No puede desactivar Umbral de diferencia.

Umbral de diferencia en detalle

El Umbral de diferencia es la distancia de Levenshtein máxima permitida entre los dos valores para que sean identificados como duplicados inexactos.

¿Qué es la distancia de Levenshtein?

La distancia de Levenshtein es el número mínimo de ediciones de caracteres individuales que se necesitan para hacer que una cadena sea idéntica a otra. El número de ediciones necesarias se calcula con un algoritmo informático.

Ejemplo de distancia de Levenshtein

La distancia de Levenshtein entre “Smith” y “Smythe” es 2:

  • edición 1 la ‘i’ se debe reemplazar por ‘y’
  • edición 2 se debe insertar la ‘e’

Mientras mayor sea la distancia de Levenshtein, mayor será la diferencia entre dos valores. Una distancia de 0 (cero) significa que dos valores son idénticos.

La tabla que figura a continuación ofrece ejemplos de varias distancias de Levenshtein. Para obtener más información acerca de la distancia de Levenshtein, consulte LEVDIST( ).

Nota

El algoritmo de Levenshtein trata los espacios en blanco entre las palabras como caracteres.

Valor 1

Valor 2

Distancia de Levenshtein

Se incluye en resultados si el Umbral de diferencia se establece en 3

Smith

Smith

0

(si Incluir duplicados exactos está marcado)

Smith

Smithe

1

Smith

Smythe

2

Hanssen

Jansn

3

Smith

Brown

5

No

Intercity Couriers

Intercity Couriers Inc.

5

No

Diamond Tire

Diamond Tire & Auto

7

No

JW Smith

John William Smith

10

No

Cambio del umbral de diferencia

Aumentar el Umbral de diferencia aumenta la distancia de Levenshtein máxima permitida, lo cual aumenta el tamaño de los resultados al incluir valores que son más diferentes entre sí. Puede especificar un Umbral de diferencia entre 1 y 10.

El límite superior se impone porque aumentar la distancia de Levenshtein máxima más allá de cierto punto crea un conjunto de resultados muy grande que contiene, principalmente, falsos positivos.

El límite inferior se impone porque introducir 0 (cero) incluiría solo duplicados exactos. Si está interesado en buscar sólo duplicados exactos, utilice en cambio la función de duplicados.

Porcentaje de diferencia en detalle

El Porcentaje de diferencia es el porcentaje máximo permitido del más corto de dos valores comparados que pueden ser diferente para los dos valores a ser identificados como duplicados inexactos.

¿Cómo se calcula el porcentaje de diferencia?

Utilizando la distancia de Levenshtein entre cada par de valores que compara en el campo de prueba, Analytics realiza el siguiente cálculo interno:

distancia de Levenshtein / número de caracteres en el valor más corto × 100 = porcentaje de diferencia

Ejemplo de porcentaje de diferencia

La distancia de Levenshtein entre “Smith” y “Smythe” es 2, y el más corto de los dos valores tiene 5 caracteres, lo que produce un porcentaje de diferencia de 40 (2/5 x 100).

Si el porcentaje de diferencia es menor que o igual al Porcentaje de diferencia especificado, los dos valores son elegibles para ser incluidos en los resultados, suponiendo que también están dentro de la distancia de Levenshtein máxima permitida entre sí (el Umbral de diferencia).

La tabla que se incluye a continuación proporciona ejemplos de diversos porcentajes de diferencia.

Valor 1 (longitud)

Valor 2 (longitud)

Distancia de Levenshtein y porcentaje de diferencia

Se incluye en los resultados si el Porcentaje de diferencia se establece en 50

Smith (5)

Smith (5)

0; 0 % (0/5)

(si Incluir duplicados exactos está marcado)

Smith (5)

Smithe (6)

1; 20 % (1/5)

Smith (5)

Smythe (6)

2; 40 % (2/5)

Hanssen (7)

Jansn (5)

3; 60 % (3/5)

No

Smith (5)

Brown (5)

5; 100 % (5/5)

No

Intercity Couriers (18)

Intercity Couriers Inc. (23)

5; 27,77 % (5/18)

Diamond Tire (12)

Diamond Tire & Auto (19)

7; 58,33 % (7/12)

No

JW Smith (8)

John William Smith (18)

10; 125 % (10/8)

No

Cambio del porcentaje de diferencia

Aumentar el Porcentaje de diferencia aumenta el tamaño de los resultados al incluir valores que contienen una porcentaje de diferencia mayor. Puede especificar un Porcentaje de diferencia entre 1 y 99.

El límite superior se impone porque permitir porcentajes de diferencia de 100 o más podría incluir pares de valores que son completamente diferentes entre sí en el mismo grupo de duplicados inexactos en los resultados. Por ejemplo, “ABC” y “XYZ” tienen una distancia de Levenshtein de 3, y una longitud de valor más corta de 3, lo que produce un porcentaje de diferencia de 100.

El límite inferior se impone porque introducir 0 (cero) incluiría solo duplicados exactos. Si está interesado en buscar sólo duplicados exactos, utilice en cambio la función de duplicados.

Desactivar el porcentaje de diferencia

Usted tiene la opción de desactivar Porcentaje de diferencia. Si desactiva Porcentaje de diferencia los resultados no tienen en cuenta el porcentaje de un valor que sea diferente. Puede capturar algunos duplicados inexactos válidos adicionales, tales como “JW Smith” y “John William Smith”. Sin embargo, los grupos de duplicados inexactos también podrían incluir valores que son completamente diferentes entre sí, como “Smith” y “Brown”. Los resultados también serán más grandes que al utilizar Porcentaje de diferencia con cualquier valor de configuración.

Cómo el umbral de diferencia y el porcentaje de diferencia trabajan juntos

La siguiente tabla muestra de qué manera el Umbral de diferencia y el Porcentaje de diferencia trabajan juntos. Los valores comparados que aparecen en la Umbral de diferencia en detalle y la Porcentaje de diferencia en detalle ahora deben estar dentro de los límites de ambos umbrales para ser incluidos en los resultados.

“Hanssen/Jansn” e “Intercity Couriers/Intercity Couriers Inc.” se incluyen si Umbral de diferencia y Porcentaje de diferencia se consideran individualmente. Sin embargo, no se incluyen cuando ambos ajustes se consideran juntos porque no se ubican dentro de los límites de ambos umbrales.

Valor 1 (longitud)

Valor 2 (longitud)

Distancia de Levenshtein y porcentaje de diferencia

Se incluyen en los resultados si el Umbral de diferencia se establece en 3 y el Porcentaje de diferencia se establece en 50

Smith (5)

Smith (5)

0; 0 % (0/5)

(si Incluir duplicados exactos está marcado)

Smith (5)

Smithe (6)

1; 20 % (1/5)

Smith (5)

Smythe (6)

2; 40 % (2/5)

Hanssen (7)

Jansn (5)

3; 60 % (3/5)

No

Smith (5)

Brown (5)

5; 100 % (5/5)

No

Intercity Couriers (18)

Intercity Couriers Inc. (23)

5; 27,77 % (5/18)

No

Diamond Tire (12)

Diamond Tire & Auto (19)

7; 58,33 % (7/12)

No

JW Smith (8)

John William Smith (18)

10; 125 % (10/8)

No