Recherche de doublons
Information de concept
Les doublons dans un ou plusieurs champs, ou les enregistrements dupliqués, peuvent être le résultat d'erreurs d'entrée de données ou d'activité frauduleuse comme la ventilation des transactions par carte de crédit pour éviter tout examen approfondi.
Conditions requises pour les valeurs uniques
Les champs qui ne doivent jamais contenir de doublons sont ceux dans lesquels les valeurs identifient les enregistrements de façon unique. Par exemple, une table d'employés ne doit jamais contenir de numéros d'employés en doublons, car chaque numéro doit identifier un employé unique.
Doublons valides
Les valeurs en doublons peuvent aussi être valides. Par exemple, une table de transactions peut contenir des numéros clients en doublons suite à plusieurs transactions effectuées par les mêmes clients.
Différents types de tests de doublons
Vous pouvez utiliser Analytics pour tester la recherche de doublons des façons suivantes :
| Champ d'application des tests | Utilisez ce test dans les cas suivants : |
|---|---|
| Sur un seul champ |
Toutes les valeurs d'un champ particulier doivent être uniques, comme les numéros d'employés ou les numéros de chèque. |
| Avec au moins deux champs associés |
L'unicité n'est pas une condition requise dans des champs pris isolément, mais il s'agit d'une condition requise dans certains champs associés. ExempleDans un fichier de paie concernant une année, le champ de numéro d'employé et le champ de date de paie vont contenir plusieurs doublons. Les employés reçoivent leur paie toutes les deux semaines ; plusieurs employés sont payés à la même date. Toutefois, chaque employé doit uniquement apparaître une fois à une date donnée. En cas de doublon entre les champs combinés Numéro de l'employé et Date de règlement, il se peut qu'un employé ait été payé deux fois pour la même période de paie. |
| Tous les champs d'un enregistrement |
Recherchez la présence de doublons dans des enregistrements entièrement dupliqués, dans lesquels chaque champ d'un enregistrement est dupliqué. Des enregistrements entièrement dupliqués peuvent apparaître suite à une erreur d'entrée de données ou suite à d'autres irrégularités de transaction. |
Tri et doublons
En règle générale, vous ne devez rechercher les doublons qu'à l'aide d'un ou plusieurs champs clés triés. Les valeurs dupliquées dans un champ clé ne sont trouvées que si elles sont immédiatement adjacentes.
Si vous recherchez les doublons à l'aide d'un champ clé non trié, les valeurs dupliquées non adjacentes ne sont pas identifiées comme doublons. S'il existe au moins deux clusters de la même valeur en doublon, ils sont signalés comme doublons, mais dans des groupes distincts.
En fonction de l'objectif de votre analyse, il peut être utile de rechercher les doublons sur un champ clé non trié. Par exemple, vous pouvez ne rechercher que les valeurs en double qui sont immédiatement adjacentes dans la table source et ignorer les valeurs en double qui ne sont pas adjacentes.
Inclure le champ Numéro de groupe dans la table de sortie
Vous avez la possibilité d'inclure le champ Numéro de groupe dans la la table de sortie des doublons. Le champ attribue un numéro incrémenté séquentiellement à chaque groupe unique de doublons. La possibilité de référencer des groupes de doublons par numéro peut s'avérer utile lorsque vous analysez des données dans la table de sortie.
Le filtre duplique la table de sortie par numéro de groupe.
Vous utilisez plusieurs champs clés combinés pour lancer un test de recherche des enregistrements en double sur une table des comptes fournisseurs.
- numéro fournisseur
- numéro de facture
- date de facture
- montant de la facture
Vous souhaitez filtrer la table de sortie des doublons apparaissant afin que seuls certains groupes de doublons fassent l'objet d'un traitement supplémentaire.
Créer un filtre en utilisant la combinaison de champs clés serait laborieux. Par exemple :
SET FILTER TO ((No_Fournisseur = "11475") AND (No_Facture = "8752512") AND (Date_Facture = `20191021`) AND (Montant_Facture = 7125.80)) OR ((No_Fournisseur = "12130") AND (No_Facture = "589134") AND (Date_Facture = `20191117`) AND (Montant_Facture = 10531.71)) OR ((No_Fournisseur = "13440") AND (No_Facture = "5518912") AND (Date_Facture = `20191015`) AND (Montant_Facture = 11068.20))
Au lieu de cela, vous obtenez le même résultat en créant un filtre basé sur le numéro de groupe :
SET FILTER TO MATCH(GROUP_NUM; 3 ; 8; 11)
Étapes
Vous pouvez tester un ou plusieurs champs de la table active afin de déterminer s'il existe des doublons au niveau des valeurs ou d'enregistrements entiers.
Vous pouvez tester la recherche de doublons dans les champs de type caractère, numérique et DateHeure. Si des chiffres et des lettres apparaissent ensemble dans un champ de type caractère, tous les caractères alphanumériques sont testés.
Remarque
Pour que les résultats soient valides, les champs testés doivent être dans l'ordre séquentiel avant le test. Vous pouvez trier les champs à l'avance ou bien utiliser l'option Prétrier pendant le test de recherche de doublons.
Sélectionner les champs
- Ouvrez la table à tester pour y rechercher des doublons.
- Sélectionnez .
- Pour détecter les doublons dans un ou plusieurs champs :
- Dans l'onglet Principal, sélectionnez les champs à tester dans la liste Doublons sur, ou cliquez sur Doublons sur pour sélectionner les champs ou créer une expression.
L'ordre dans lequel vous sélectionnez les champs est celui dans lequel les colonnes apparaissent dans les résultats. Si vous ajoutez des résultats à une table Analytics existante, le choix et l'ordre des colonnes doivent être identiques à ceux de la table existante.
- Si vous avez sélectionné Doublons sur, vous pouvez également spécifier un ordre de tri décroissant pour les résultats de sortie d'un ou plusieurs champs sélectionnés en cliquant sur la flèche de tri
(l'ordre croissant est utilisé par défaut). - Utilisez l'option Lister les champs une ou plusieurs fois pour inclure tous les champs supplémentaires dans les résultats de sortie, ou cliquez sur Lister les champs pour sélectionner les champs, pour Tout inclure ou pour créer une expression.
Les champs supplémentaires peuvent fournir un contexte utile pour les résultats. Les champs sélectionnés pour la recherche de doublons s'affichent automatiquement au début de tous les enregistrements de résultats et ne doivent pas forcément être spécifiquement sélectionnés sous l'option Lister les champs.
- Facultatif. Sélectionnez Ajouter des groupes si vous souhaitez inclure le champ Numéro de groupe dans la table de sortie.
Le champ Numéro de groupe attribue un numéro incrémenté séquentiellement à chaque groupe unique de doublons.
- Dans l'onglet Principal, sélectionnez les champs à tester dans la liste Doublons sur, ou cliquez sur Doublons sur pour sélectionner les champs ou créer une expression.
- Pour détecter des enregistrements en doublons en entier :
- Dans l'onglet Principal, cliquez sur Doublons sur.
- Cliquez sur Tout inclure pour ajouter tous les champs aux Champs sélectionnés.
- Vous pouvez également spécifier un ordre de tri décroissant pour les résultats de sortie d'un ou plusieurs champs en cliquant sur la flèche de tri
(l'ordre croissant est utilisé par défaut). - Cliquez sur OK.
Il n'est pas nécessaire de sélectionner les champs dans la liste Lister les champs car tous les champs de la table s'affichent automatiquement dans les enregistrements de résultats.
- Facultatif. Sélectionnez Ajouter des groupes si vous souhaitez inclure le champ Numéro de groupe dans la table de sortie.
Le champ Numéro de groupe attribue un numéro incrémenté séquentiellement à chaque groupe unique de doublons.
Exclure des enregistrements du traitement (facultatif)
Si vous souhaitez exclure du traitement certains enregistrements de la vue en cours, saisissez une condition dans la zone de texte Si, ou cliquez sur Si pour créer une instruction IF à l'aide du Générateur d'expression.
Remarque
La condition Si est évaluée uniquement par rapport aux enregistrements restant dans une table après application des options relevant du champ d'application (Premiers, Suivants, Tant que).
L'instruction IF prend en compte tous les enregistrements de la vue et exclue ceux qui ne correspondent pas à la condition spécifiée.
Désélectionner Prétrier (facultatif)
Si les champs testés ont déjà été triés lors d'une opération préalable, vous pouvez également désélectionner l'option Prétrier pour gagner du temps lors d'une recherche de doublons dans des tables volumineuses.
Remarque
Si vous désélectionnez l'option Prétrier, les champs sélectionnés pour la recherche de doublons doivent correspondre aux champs triés au préalable pour que les résultats soient valides.
Le message Avertissement : Fichier hors séquence s'affiche dans les résultats si les champs sélectionnés et les champs triés ne correspondent pas. Si vous envoyez les résultats dans une table Analytics, ce message d'avertissement s'affiche dans la trace des commandes.
Si les données des champs ne sont pas triées, vous devez laisser la case Prétrier sélectionnée afin de garantir la détection de tous les doublons.
Configurer la sortie
- Cliquez sur l'onglet Sortie.
- Sélectionnez l'option de sortie appropriée dans le panneau Vers :
- Écran : sélectionnez cette option pour afficher les résultats dans la zone d'affichage d'Analytics.
Astuce
Vous pouvez cliquer sur n'importe quelle valeur de résultat liée dans la zone d'affichage pour explorer jusqu'à l'enregistrement ou aux enregistrements associés dans la table source.
Si la table de sortie contient un grand nombre d'enregistrements, il est plus rapide et pratique d'enregistrer les résultats dans un fichier, plutôt que de les afficher à l'écran.
- Imprimante : sélectionnez cette option pour envoyer les résultats vers l'imprimante par défaut.
- Graphe : sélectionnez cette option pour créer un graphe des résultats et l'afficher dans la zone d'affichage d'Analytics.
- Fichier sélectionnez cette option pour enregistrer ou ajouter les résultats dans un fichier texte. Le fichier est enregistré en-dehors d'Analytics.
Remarque
Les options de sortie qui ne s'appliquent pas à une opération analytique donnée sont désactivées.
- Écran : sélectionnez cette option pour afficher les résultats dans la zone d'affichage d'Analytics.
- Si vous avez sélectionné Fichier comme type de sortie, précisez les informations suivantes dans le panneau Comme :
- Type de fichier : sélectionnez Table Analytics pour enregistrer les résultats dans une nouvelle table Analytics ou ajouter les résultats à une table Analytics existante. Sélectionnez Fichier texte ASCII ou Fichier texte Unicode (selon l'édition d'Analytics que vous utilisez) pour enregistrer ou ajouter les résultats dans un fichier texte.
- Nom : saisissez un nom de fichier dans la zone de texte Nom. Ou cliquez sur Nom et saisissez le nom du fichier, ou sélectionnez un fichier existant dans la boîte de dialogue Enregistrer ou Enregistrer sous pour l'écraser ou y ajouter des données. Si Analytics prérenseigne le nom de fichier, vous pouvez l'accepter ou le modifier.
Vous pouvez également indiquer un chemin de fichier absolu ou relatif, ou naviguer vers un répertoire différent, pour enregistrer ou ajouter le fichier dans un emplacement différent de celui du projet. Par exemple : C:\Résultats\Sortie.fil ou Résultats\Sortie.fil.
- Local : cette option est uniquement activée lorsque vous êtes connecté à une table de serveur et que vous enregistrez ou ajoutez des résultats dans une table Analytics. Sélectionnez Local pour enregistrer le fichier dans le même emplacement que le projet, ou pour indiquer un chemin ou naviguer vers un autre répertoire local. Laissez l'option Local désactivée pour enregistrer le fichier dans le répertoire Préfixe sur un serveur.
Note
Pour obtenir les résultats générés par l'analyse ou le traitement des tables d'AX Serveur, sélectionnez Local. Vous ne pouvez pas décocher le paramètre Local pour importer des tables de résultats vers AX Serveur.
- Selon le type de résultat, vous pouvez indiquer si vous le souhaitez un En-tête et/ou un Pied de page dans la (les) zone(s) de texte.
Les en-têtes et les pieds de page sont centrés par défaut. Saisissez un crochet oblique gauche (<) devant le texte de l'en-tête ou du pied de page pour l'aligner à gauche. Cliquez sur En-tête ou sur Pied de page pour saisir un en-tête ou un pied de page de plusieurs lignes. Sinon, vous pouvez saisir un point virgule (;) qui permet d'insérer un retour chariot dans la zone de texte de l'en-tête ou du pied de page. Pour aligner à gauche plusieurs lignes vous devez ajouter un crochet oblique gauche au début de chaque ligne.
Spécifier le champ d'application de l'opération
- Cliquez sur l'onglet Plus.
-
Sélectionnez l'option appropriée dans le panneau Étendue :
- Tous
- Premiers
- Suivants
- Instruction WHILE
En savoir plus
Tous Cette option est sélectionnée par défaut. Si elle reste sélectionnée, tous les enregistrements de la vue sont traités. Premiers Sélectionnez cette option et saisissez un nombre dans la zone de texte pour démarrer le traitement au premier enregistrement de la vue et inclure uniquement le nombre d'enregistrements indiqué. Suivants Sélectionnez cette option et saisissez un nombre dans la zone de texte pour démarrer le traitement à l'enregistrement actuellement sélectionné de la vue et inclure uniquement le nombre d'enregistrements indiqué. Vous devez sélectionner le nombre d'enregistrements réel dans la colonne la plus à gauche et non pas les données dans la ligne. Instruction WHILE Sélectionnez cette option pour utiliser une instruction WHILE et ainsi limiter le traitement des enregistrements de la vue à un critère spécifique ou à un ensemble de critères. Vous pouvez saisir une condition dans la zone de texte tant que ou cliquer sur Tant que pour créer une instruction WHILE en utilisant le Générateur d'expression.
Une instruction WHILE permet de traiter les enregistrements de la vue uniquement tant que la condition indiquée est vraie. Dès que la condition est fausse, le traitement s'arrête et aucun autre enregistrement n'est pris en compte. Vous pouvez utiliser l'option Tant que en conjonction avec les options Tous, Premiers ou Suivants. Le traitement des enregistrements s'arrête dès qu'une limite est atteinte.
Remarque
Le nombre d'enregistrements indiqué dans les options Premiers ou Suivants fait référence à l'ordre physique ou d'indexation des enregistrements dans une table, quels que soient les filtres ou les tris express appliqués à la vue. Toutefois, les résultats des opérations analytiques tiennent compte de tous les filtres appliqués.
Si un tri express est appliqué à une vue, l'option Suivant se comporte comme l'option Premier.
Finaliser les paramètres
- Si vous avez sélectionné Fichier comme type de sortie et que vous souhaitez ajouter les résultats de sortie à la fin d'un fichier existant, effectuez l'une des opérations suivantes :
sélectionnez Ajouter au fichier existant si vous ajoutez à un fichier texte ou à une table Analytics si vous êtes sûr que les résultats de sortie et la table existante sont identiques du point de vue de la structure.
Ne sélectionnez pas Ajouter au fichier existant si vous les ajoutez à une table Analytics et que vous voulez qu'Analytics compare les longueurs d'enregistrement des résultats de sortie et de la table existante. Si les longueurs d'enregistrements ne sont pas identiques, c'est que la structure de données n'est pas identique et l'opération d'ajout ne sera pas menée à bien correctement.
Remarque
Nous vous conseillons de ne pas sélectionner Ajouter au fichier existant si vous avez un doute quant aux résultats de sortie et si la table disponible a une structure de données identique. Pour plus d’informations sur l'ajout des résultats et la structure des données, consultez la section Concaténation de résultats de sortie dans une table existante.
-
Si vous avez sélectionné le type de sortie Fichier (Table Analytics), sélectionnez Utiliser la table de sortie si vous souhaitez que la table de sortie s'ouvre automatiquement à la fin de l'opération.
- Cliquez sur OK.
Remarque
Seuls les doublons de valeur ou d'enregistrement s'affichent, et non l'occurrence initiale de ces valeurs ou enregistrements, si vous effectuez les deux tâches suivantes :
- envoyez les résultats à l'écran ou dans un fichier texte
- incluez uniquement les champs testés dans les résultats de sortie et que vous ne sélectionnez aucun champ supplémentaire
Si vous envoyez les résultats à l'écran, vous pouvez cliquer sur n'importe quelle valeur pour afficher l'occurrence initiale d'une valeur ou d'un enregistrement, ainsi que ses doublons.
- Si un message vous invitant à remplacer le fichier apparaît, sélectionnez l'option appropriée.
Si vous pensiez voir apparaître l'option Ajouter et qu'elle n'apparaît pas, cliquez sur Non pour annuler l'opération et consultez la section Concaténation de résultats de sortie dans une table existante.
Supprimer des doublons
Vous pouvez utiliser l'opération de totalisation pour supprimer les doublons de valeurs ou d'enregistrements d'un jeu de données et enregistrer les valeurs ou enregistrements uniques restants dans une nouvelle table Analytics.
Sélectionner les champs
- Ouvrez la table dans laquelle vous souhaitez supprimer des doublons.
- Sélectionnez .
- Dans l'onglet Principal, effectuez l'une des opérations suivantes :
- Sélectionnez le(s) champ(s) pouvant contenir des doublons dans la liste Totaliser sur.
- Cliquez sur Totaliser sur pour sélectionner le(s) champ(s) ou créer une expression.
L'ordre dans lequel vous sélectionnez les champs est celui dans lequel les colonnes apparaissent dans les résultats.
Remarque
Sélectionnez les champs appropriés pour obtenir le degré requis d'unicité.
Par exemple, si vous souhaitez supprimer des doublons d'enregistrement d'employé et que vous sélectionnez uniquement le champ Nom, vous risquez de supprimer tous les enregistrements des employés ayant le même nom, mais pas le même prénom. Sélectionnez les champs Nom et Prénom à la fois pour augmenter le degré d'unicité.
Pour supprimer uniquement des doublons d'enregistrement parfaitement identiques, cliquez sur Totaliser sur et sur Tout inclure.
- Ne sélectionnez aucun des Champs de sous-total.
- Facultatif. Effectuez l'une des actions suivantes :
- Dans la liste Autres champs, sélectionnez les autres champs à inclure dans les résultats de sortie.
- Cliquez sur Autres champs pour sélectionner les champs ou créer une expression.
Remarque
Sélectionnez uniquement les champs contenant la même valeur pour tous les enregistrements dans chaque groupe totalisé. Pour plus d'informations, consultez la rubrique Option Autres champs.
Désélectionner Prétrier (facultatif)
Si le champ contenant possiblement des doublons est déjà trié, vous pouvez également désélectionner l'option Prétrier. Si les données du champ ne sont pas triées, vous devez laisser l'option Prétrier sélectionnée afin de garantir la validité des résultats.
Exclure des enregistrements du traitement (facultatif)
Si vous souhaitez exclure du traitement certains enregistrements de la vue en cours, saisissez une condition dans la zone de texte Si, ou cliquez sur Si pour créer une instruction IF à l'aide du Générateur d'expression.
Remarque
La condition Si est évaluée uniquement par rapport aux enregistrements restant dans une table après application des options relevant du champ d'application (Premiers, Suivants, Tant que).
L'instruction IF prend en compte tous les enregistrements de la vue et exclue ceux qui ne correspondent pas à la condition spécifiée.
Configurer la sortie
- Cliquez sur l'onglet Sortie.
- Dans le panneau Vers, sélectionnez Fichier.
- Précisez les informations suivantes dans le panneau Comme :
Type de fichier : Table Analytics est la seule option. Enregistre les résultats dans une nouvelle table Analytics ou ajoute les résultats dans une table Analytics existante.
Nom : saisissez un nom de table dans la zone de texte Nom. Ou cliquez sur Nom et saisissez le nom de la table, ou sélectionnez une table existante dans la boîte de dialogue Enregistrer ou Enregistrer sous pour l'écraser ou y ajouter des données. Si Analytics prérenseigne le nom de la table, vous pouvez l'accepter ou le modifier.
Vous pouvez également indiquer un chemin de fichier absolu ou relatif, ou naviguer vers un répertoire différent, pour enregistrer ou ajouter la table dans un emplacement différent de celui du projet. Par exemple : C:\Résultats\Sans_doublons.fil ou Résultats\Sans_doublons.fil.
Local : cette option est activée uniquement lorsque vous êtes connecté à une table de serveur. Sélectionnez Local pour enregistrer la table de sortie dans le même emplacement que le projet, ou pour indiquer un chemin ou naviguer vers un autre répertoire local. Laissez l'option Local désactivée pour enregistrer la table de sortie dans le répertoire Préfixe sur le serveur Analytics.
Remarque
Pour les résultats générés par une analyse ou le traitement des tables du serveur Analytics Exchange, sélectionnez Local. Vous ne pouvez pas utiliser le paramètre Local pour importer des tables de résultats vers AX Serveur.
Spécifier le champ d'application de l'opération
- Cliquez sur l'onglet Plus.
-
Sélectionnez l'option appropriée dans le panneau Étendue :
- Tous
- Premiers
- Suivants
- Instruction WHILE
En savoir plus
Tous Cette option est sélectionnée par défaut. Si elle reste sélectionnée, tous les enregistrements de la vue sont traités. Premiers Sélectionnez cette option et saisissez un nombre dans la zone de texte pour démarrer le traitement au premier enregistrement de la vue et inclure uniquement le nombre d'enregistrements indiqué. Suivants Sélectionnez cette option et saisissez un nombre dans la zone de texte pour démarrer le traitement à l'enregistrement actuellement sélectionné de la vue et inclure uniquement le nombre d'enregistrements indiqué. Vous devez sélectionner le nombre d'enregistrements réel dans la colonne la plus à gauche et non pas les données dans la ligne. Instruction WHILE Sélectionnez cette option pour utiliser une instruction WHILE et ainsi limiter le traitement des enregistrements de la vue à un critère spécifique ou à un ensemble de critères. Vous pouvez saisir une condition dans la zone de texte tant que ou cliquer sur Tant que pour créer une instruction WHILE en utilisant le Générateur d'expression.
Une instruction WHILE permet de traiter les enregistrements de la vue uniquement tant que la condition indiquée est vraie. Dès que la condition est fausse, le traitement s'arrête et aucun autre enregistrement n'est pris en compte. Vous pouvez utiliser l'option Tant que en conjonction avec les options Tous, Premiers ou Suivants. Le traitement des enregistrements s'arrête dès qu'une limite est atteinte.
Remarque
Le nombre d'enregistrements indiqué dans les options Premiers ou Suivants fait référence à l'ordre physique ou d'indexation des enregistrements dans une table, quels que soient les filtres ou les tris express appliqués à la vue. Toutefois, les résultats des opérations analytiques tiennent compte de tous les filtres appliqués.
Si un tri express est appliqué à une vue, l'option Suivant se comporte comme l'option Premier.
Finaliser les paramètres
-
Sélectionnez Utiliser la table de sortie pour que la table de sortie s'ouvre automatiquement une fois l'opération terminée.
- Si vous voulez ajouter les résultats de sortie à la fin d'une table Analytics existante, effectuez l'une des opérations suivantes :
Sélectionnez Ajouter au fichier existant si vous êtes sûr que les résultats de sortie et la table existante sont identique du point de vue de la structure.
Ne sélectionnez pas Ajouter au fichier existant si vous voulez qu'Analytics compare les longueurs d'enregistrement des résultats de sortie et de la table existante. Si les longueurs d'enregistrements ne sont pas identiques, c'est que la structure de données n'est pas identique et l'opération d'ajout ne sera pas menée à bien correctement.
Remarque
Nous vous conseillons de ne pas sélectionner Ajouter au fichier existant si vous avez un doute quant aux résultats de sortie et si la table disponible a une structure de données identique. Pour plus d’informations sur l'ajout des résultats et la structure des données, consultez la section Concaténation de résultats de sortie dans une table existante.
- Cliquez sur OK.
- Si un message vous invitant à remplacer le fichier apparaît, sélectionnez l'option appropriée.
Si vous pensiez voir apparaître l'option Ajouter et qu'elle n'apparaît pas, cliquez sur Non pour annuler l'opération et consultez la section Concaténation de résultats de sortie dans une table existante.