Présentation des doublons approximatifs

Vous pouvez utiliser la fonction de doublons approximatifs d'Analytics pour rechercher dans un champ de type caractère des valeurs quasiment identiques qui peuvent faire référence à la même entité réelle.

La recherche de doublons approximatifs est un processus plus avancé que l'identification des doublons exacts. La connaissance des paramètres qui commandent le degré de différence entre les doublons et du regroupement des doublons approximatifs dans les résultats de sortie permet d'optimiser l'utilisation de la fonction.

Outre la fonction principale de doublons approximatifs, vous devrez peut-être utiliser une ou les deux fonctions d'aide des doublons approximatifs, ou concaténer des champs de test afin d'atteindre vos objectifs.

Astuce

La fonction de doublons approximatifs utilise le processeur de manière intensive car chaque valeur du champ de test doit être comparée à chaque valeur suivante du champ. Si votre analyse le permet, utilisez des méthodes comme le filtrage ou l'extraction de sous-ensembles d'enregistrements pour limiter la taille des données à tester. Des jeux de données de taille inférieure accélèrent l'exécution et permettent également de contrôler la taille des résultats.

Doublons approximatifs et jointures approximatives

La fonctionnalité de doublons approximatifs analyse les valeurs d'un seul champ dans une seule table Analytics. Pour utiliser les correspondances approximatives afin de combiner des champs de deux tables Analytics dans une nouvelle troisième table, reportez-vous à la rubrique Jointure approximative.

Séquence des tâches d'analyse des doublons approximatifs

Selon la nature des données testées et l'objectif de votre analyse de doublons approximatifs, vous devrez peut-être effectuer plusieurs tâches pour générer des résultats utiles. Le tableau suivant indique une séquence pour ces tâches.

Remarque

À l'exception de la fonction de doublons approximatifs, les tâches sont facultatives mais l'exécution de l'une ou de plusieurs d'entre elles peut améliorer la qualité des résultats.

 

Tâche

Optionnel

Fonction Analytics

Détails

1

Limiter la taille de l'ensemble de données à tester

Oui

Filtres

Extraction de sous-ensembles de données

Améliorer les performances en ne traitant que les enregistrements pertinents pour votre analyse

2

Supprimer des éléments génériques tels que Corporation ou Inc. des valeurs du champ

Oui

Fonction OMIT( )

Réduire la taille et améliorer la précision des résultats en ciblant uniquement la portion des valeurs de type caractère où une différence significative est possible

3

Concaténer des champs pour augmenter l'unicité des valeurs du test

Oui

Une expression Analytics utilisant l'opérateur d'addition (+)

Réduire la taille et augmenter la précision des résultats en testant des valeurs d'unicité supérieure, qui sont générées en concaténant deux champs de type caractère ou plus

4

Identifier tous les doublons approximatifs d'un champ et générer des résultats non exhaustifs

Non

Fonction Doublons approximatifs

Fonction principale de doublons approximatifs

5

Identifier une liste exhaustive de doublons approximatifs pour une valeur de type caractère des résultats non exhaustifs

Oui

Fonction ISFUZZYDUP( )

Générer une liste de doublons approximatifs pratique et exhaustive pour une valeur de type caractère particulièrement utile pour votre travail d'audit

Aide d'Analytics 14.1