Fonctions d'aide des doublons approximatifs
Deux fonctions d'Analytics optimisent la fonction de doublons approximatifs :
- SORTWORDS( )
- OMIT( )
Vous pouvez utiliser les deux fonctions séparément ou en combinaison.
Une troisième fonction, ISFUZZYDUP( ), vous donne la possibilité d'identifier des doublons approximatifs pour une valeur spécifique plutôt que pour un champ entier.
Fonction SORTWORDS
Lorsque vous utilisez la fonction de doublons approximatifs, utilisez la fonction SORTWORDS( ) pour créer une expression ou un champ calculé qui trie les éléments individuels des valeurs des champs tests dans un ordre séquentiel.
Trier les éléments, tels que les composantes d'une adresse, réduit l'importance de la position physique des éléments dans les comparaisons de doublons approximatifs. L'amélioration de l'efficacité qui en résulte vous permet d'utiliser un Seuil de différence beaucoup plus bas et de produire un ensemble de résultats plus petit et plus ciblé contenant moins de faux positifs.
Pour des informations détaillées, consultez la section Fonction SORTWORDS( ). Pour plus d'informations sur le Seuil de différence, consultez la section Application des paramètres de différence.
Pour une vidéo de présentation de SORTWORDS( ), consultez Correspondance approximative avec SORTWORDS() (en anglais uniquement).
Exemple
Les deux valeurs suivantes nécessiteraient un Seuil de différence d'au moins 22 à inclure dans les résultats de sortie des doublons approximatifs :
- 125 SW 39TH ST, Suite 100
- Suite 100, 125 SW 39TH ST
Le Seuil de différence maximum autorisé est de 10, de sorte que la fonction de doublons approximatifs n'identifierait jamais les deux valeurs comme des doublons approximatifs de l'une l'autre, bien que, manifestement, il s'agisse de la même adresse.
En revanche, si vous utilisez SORTWORDS( ) pour créer une expression ou un champ calculé qui trie les éléments d'adresse individuels, un Seuil de différence de seulement 2 renverrait les deux adresses comme des doublons approximatifs de l'une l'autre :
- 100 125 39TH ST, SW Suite
- 100 125 39TH ST SW Suite
Fonction OMIT
Lorsque vous utilisez la fonction de doublons approximatifs, utilisez la fonction OMIT( ) pour créer une expression ou un champ calculé qui supprime les éléments génériques des valeurs des champs tests.
La suppression d'éléments tels que les traits d'union, les virgules et les signes numériques, ainsi que de mots ou d'abréviations tels que "Inc.", "Street" ou "St.", permet de concentrer les comparaisons de doublons approximatifs sur la partie des valeurs de test où une différence significative peut apparaître. L'amélioration de l'efficacité qui en résulte vous permet d'utiliser un Seuil de différence beaucoup plus bas et de produire un ensemble de résultats plus petit et plus ciblé contenant moins de faux positifs.
Pour des informations détaillées, consultez la section Fonction OMIT( ). Pour plus d'informations sur le Seuil de différence, consultez la section Application des paramètres de différence.
Exemple
Les deux valeurs suivantes nécessitent un Seuil de différence d'au moins 8 à inclure dans les résultats de sortie des doublons approximatifs :
- Intercity Couriers Corporation
- Inter-city Couriers
Un Seuil de différence de 8 peut également générer un ensemble de résultats important et non ciblé dont la plupart sont des faux positifs. Cependant, un Seuil de différence inférieur permettrait aux deux valeurs d'échapper à la détection en tant que doublons approximatifs de l'une l'autre.
En revanche, si vous utilisez OMIT( ) pour créer une expression ou un champ calculé qui supprime des éléments génériques tels que "Corporation" et "Corp", un Seuil de différence de seulement 1 renverrait les deux noms comme des doublons approximatifs de l'un l'autre :
- Intercity Couriers
- Inter-city Couriers
Fonction ISFUZZYDUP
Après avoir utilisé la fonctionnalité de doublons approximatifs et après avoir passé en revue les résultats, vous pouvez utiliser la fonction ISFUZZYDUP( ) pour générer une seule liste exhaustive des doublons approximatifs pour une valeur de type caractère dans les résultats. Vous pouvez effectuer cette étape supplémentaire pour les valeurs qui semblent particulièrement pertinentes pour votre objectif d'analyse.
Exhaustif signifie que toutes les valeurs du degré de différence spécifié sont renvoyées, quelle que soit leur position dans le champ du test par rapport à la valeur du test.
De par sa conception, la fonction de doublons approximatifs organise les résultats de sortie en groupes non exhaustifs. Les résultats, au total, sont exhaustifs, mais les groupes individuels peuvent l'être ou non. Cette approche permet d'éviter que les résultats de sortie ne deviennent très importants et ingérables.
Les groupes non exhaustifs peuvent suffire pour votre travail d'analyse. Si ce n'est pas le cas, vous pouvez utiliser la fonction ISFUZZYDUP( ) afin de générer des résultats exhaustifs pour chaque valeur spécifique.
Pour des informations détaillées, consultez la section Fonction ISFUZZYDUP( ). Pour plus d'informations sur les groupes non exhaustifs, consultez la section Regroupement des doublons approximatifs.