Application des paramètres de différence

Les résultats d'une opération de doublons approximatifs comportent un ou plusieurs groupes de doublons approximatifs. Les groupes sont basés sur le degré de différence spécifié lors de l'exécution de l'opération. Le degré de différence correspond à une combinaison de deux paramètres dans la boîte de dialogue Doublons approximatifs :

  • Le Seuil de différence détermine la différence possible entre deux doublons approximatifs
  • Le Pourcentage de différence détermine quelle part d'une valeur individuelle peut être différente

Les deux paramètres de seuil s'appliquent séparément. Les valeurs du champ testé doivent être comprises dans les limites des deux seuils pour être incluses dans un groupe de doublons approximatifs dans les résultats. Ajustez les deux paramètres pour optimiser la précision et l'utilité des résultats.

Vous pouvez désactiver le Pourcentage de différence, auquel cas les valeurs doivent être comprises dans les limites du Seuil de différence uniquement. Vous ne pouvez pas désactiver le Seuil de différence.

Le seuil de différence en détail

Le Seuil de différence correspond à la distance Levenshtein maximale autorisée entre deux valeurs pour être identifiées comme des doublons approximatifs.

Qu'est-ce que la distance Levenshtein ?

La distance Levenshtein est une valeur numérique obtenue à l'aide d'un algorithme qui calcule le nombre minimum de modifications d'un seul caractère nécessaires pour qu'une valeur soit identique à une autre.

Exemple de distance Levenshtein

La distance Levenshtein entre « Smith » et « Smythe » est 2 :

  • modification 1 la lettre « y » doit se substituer à la lettre « i »
  • modification 2 la lettre « e » doit être insérée

Plus la distance Levenshtein est grande et plus la différence entre les deux valeurs est importante. Une distance de 0 (zéro) indique que les deux valeurs sont identiques.

Le tableau ci-dessous donne des exemples de différentes distances Levenshtein. Pour plus d'informations sur la distance Levenshtein, consultez la section Fonction LEVDIST( ).

Remarque

L'algorithme Levenshtein gère les blancs ou les espaces entre les mots comme des caractères.

Valeur 1

Valeur 2

Distance Levenshtein

Incluse dans les résultats si le seuil de différence est défini sur 3

Smith

Smith

0

Oui

(si la case Inclure les doublons exacts est cochée)

Smith

Smithe

1

Oui

Smith

Smythe

2

Oui

Hanssen

Jansn

3

Oui

Smith

Brown

5

Non

Intercity Couriers

Intercity Couriers Inc.

5

Non

Diamond Tire

Diamond Tire & Auto

7

Non

JW Smith

John William Smith

10

Non

Modification du Seuil de différence

Augmentez le Seuil de différence pour augmenter la distance Levenshtein maximale autorisée, augmentant ainsi la taille des résultats via l'inclusion de valeurs qui sont plus différentes les unes des autres. Vous pouvez spécifier un Seuil de différence compris entre 1 et 10.

La limite supérieure est imposée car l'augmentation de la distance Levenshtein maximale au-delà d'un certain stade crée un ensemble de résultats très important contenant principalement des faux positifs.

La limite inférieure est également imposée car la saisie de 0 (zéro) n'inclurait que des doublons exacts. Si vous souhaitez rechercher des doublons exacts uniquement, utilisez la fonction de doublons.

Le Pourcentage de différence en détail

Le Pourcentage de différence est le pourcentage maximum autorisé de différence de la plus courte des deux valeurs à identifier comme des doublons approximatifs.

Comment est calculé le pourcentage de différence ?

Grâce à la distance Levenshtein entre chaque paire de valeurs comparées dans le champ de test, Analytics procède au calcul interne suivant :

Distance Levenshtein / nombre de caractères de la plus courte valeur × 100 = pourcentage de différence

Exemple de pourcentage de différence

La distance Levenshtein entre Smith et Smythe est de 2, et la plus courte des deux valeurs contient 5 caractères, soit un pourcentage de différence de 40 (2/5 x 100).

Si le pourcentage de différence est inférieur ou égal au Pourcentage de différence spécifié, les deux valeurs peuvent être incluses aux résultats, en supposant qu'elles se trouvent aussi dans la distance Levenshtein maximale autorisée de chacune (Seuil de différence).

Le tableau ci-dessous donne des exemples des divers pourcentages de différence.

Valeur 1 (longueur)

Valeur 2 (longueur)

Distance Levenshtein et pourcentage de différence

Incluse dans les résultats si le pourcentage de différence est défini sur 50

Smith (5)

Smith (5)

0, 0 % (0/5)

Oui

(si la case Inclure les doublons exacts est cochée)

Smith (5)

Smithe (6)

1, 20 % (1/5)

Oui

Smith (5)

Smythe (6)

2, 40 % (2/5)

Oui

Hanssen (7)

Jansn (5)

3, 60 % (3/5)

Non

Smith (5)

Brown (5)

5, 100 % (5/5)

Non

Intercity Couriers (18)

Intercity Couriers Inc. (23)

5, 27,77 % (5/18)

Oui

Diamond Tire (12)

Diamond Tire & Auto (19)

7 ; 58,33 % (7/12)

Non

JW Smith (8)

John William Smith (18)

10, 125 % (10/8)

Non

Modification du pourcentage de différence

Augmentez le Pourcentage de différence pour augmenter la taille des résultats en incluant des valeurs correspondant à un pourcentage de différence supérieur. Vous pouvez spécifier un Pourcentage de différence compris entre 1 et 99.

La limite supérieure est imposée car un pourcentage de différence de 100 ou plus inclut des paires de valeurs complètement différentes les unes des autres dans le même groupe de doublons approximatifs des résultats. Par exemple, ABC et XYZ présentent une distance Levenshtein de 3, et une valeur plus courte de 3 caractères, produisant ainsi un pourcentage de différence de 100.

La limite inférieure est également imposée car la saisie de 0 (zéro) n'inclurait que des doublons exacts. Si vous souhaitez rechercher des doublons exacts uniquement, utilisez la fonction de doublons.

Désactivation du pourcentage de différence

Vous pouvez éventuellement désactiver le Seuil de différence. Si vous désactivez le Pourcentage de différence, les résultats ne prennent pas en compte de pourcentage de différence d'une valeur. Vous pouvez capturer d'autres doublons approximatifs valides tels que JW Smith et John William Smith. Toutefois, des groupes de doublons approximatifs peuvent également inclure des valeurs totalement différentes les unes des autres, Smith et Brown par exemple. Les résultats sont également plus importants que lorsque vous utilisez une quelconque valeur de Pourcentage de différence.

Association du seuil et du pourcentage de différence

Le tableau ci-dessous illustre comment le Seuil de différence et le Pourcentage de différence sont associés. Les valeurs comparées qui sont indiquées dans le Le seuil de différence en détail et dans le Le Pourcentage de différence en détail doivent désormais être comprises dans les limites des deux seuils pour être incluses dans les résultats.

Les valeurs Hanssen/Jansn et Intercity Couriers/Intercity Couriers Inc. sont incluses si le Seuil de différence et le Pourcentage de différence sont traités séparément. Toutefois, elles ne sont pas incluses lorsque les deux paramètres sont pris en compte ensemble car elles se trouvent alors en dehors des limites des deux seuils.

Valeur 1 (longueur)

Valeur 2 (longueur)

Distance Levenshtein et pourcentage de différence

Incluse dans les résultats si le seuil de différence est défini sur 3 et que le pourcentage de différence est défini sur 50

Smith (5)

Smith (5)

0, 0 % (0/5)

Oui

(si la case Inclure les doublons exacts est cochée)

Smith (5)

Smithe (6)

1, 20 % (1/5)

Oui

Smith (5)

Smythe (6)

2, 40 % (2/5)

Oui

Hanssen (7)

Jansn (5)

3, 60 % (3/5)

Non

Smith (5)

Brown (5)

5, 100 % (5/5)

Non

Intercity Couriers (18)

Intercity Couriers Inc. (23)

5, 27,77 % (5/18)

Non

Diamond Tire (12)

Diamond Tire & Auto (19)

7 ; 58,33 % (7/12)

Non

JW Smith (8)

John William Smith (18)

10, 125 % (10/8)

Non