Identification des valeurs aberrantes

Dans Analytics, la fonctionnalité Valeur aberrante permet d'identifier les enregistrements sortant de l'ordinaire et susceptibles de nécessiter un examen minutieux.

Qu'est-ce qu'une valeur aberrante ?

Les valeurs aberrantes sont des enregistrements dont les montants numériques diffèrent grandement des montants numériques des enregistrements avec lesquels ils sont regroupés.

Exemple de valeur aberrante dans un groupe

Dans un fichier de compte fournisseurs, les factures d'une entreprise particulière varient en général entre 500 $ et 1 000 $. Toutefois, une facture présente un montant de 8 500 $.

Remarque

Un enregistrement peut être une valeur aberrante pour une raison valable. En général, il faut examiner individuellement et plus en détail chacune des valeurs aberrantes identifiées par Analytics pour déterminer si elle est réellement problématique.

Vous n'êtes pas obligé de regrouper les enregistrements

Lorsque vous examinez des données pour y rechercher des valeurs aberrantes, vous n'êtes pas obligé de regrouper les enregistrements. Il se peut que vous soyez intéressé par la recherche de valeurs aberrantes dans l'intégralité d'une table, plutôt que dans certains groupes.

Exemple de valeurs aberrantes dans un ensemble complet d'enregistrements

Dans un fichier de compte fournisseurs, l'ensemble complet des factures varie entre 40 $ et 5 000 $. Toutefois, trois factures présentent un montant supérieur à 20 000 $.

Comment identifier des valeurs aberrantes ?

Pour chaque groupe d'enregistrements ou pour un ensemble complet d'enregistrements, Analytics utilise l'écart type d'un champ numérique spécifié ou un multiple de l'écart type pour définir les limites supérieure et inférieure des valeurs aberrantes.

Tout enregistrement dont la valeur du champ numérique est supérieure à la limite supérieure ou inférieure à la limite inférieure figure dans les valeurs aberrantes et fait partie des résultats de sortie.

L'écart type est un indicateur de dispersion d'un jeu de données, c'est-à-dire qu'il indique dans quelle mesure les valeurs s'étalent. Le calcul des valeurs aberrantes utilise l'écart type de la population.

Identification des valeurs aberrantes pour un ensemble de nombres

Vous souhaitez identifier des valeurs aberrantes dans l'ensemble de nombres suivant :

-3 -3 -1 2 3 5 6 6 8 11

La moyenne des nombres est 3,40. La moyenne sert à calculer l'écart type (SD) de l'ensemble : 4,45.

Moyenne ± 1 écart type

Dans le premier exemple, vous utilisez la moyenne ± 1 écart type pour déterminer les limites inférieure et supérieure des valeurs aberrantes. Quatre valeurs sont identifiées comme étant des valeurs aberrantes.

Moyenne ± 1,5 écart type

Dans le deuxième exemple, vous utilisez la moyenne ± 1,5 écart type pour déterminer les limites inférieure et supérieure des valeurs aberrantes. À présent, seule une valeur est identifiée comme étant une valeur aberrante.

Placement des limites des valeurs aberrantes

Vous pouvez placer les limites des valeurs aberrantes là où cela est le plus approprié selon vous ; vous pouvez aussi tester différentes positions et comparer les résultats.

Pour placer les limites, spécifiez un multiple positif de l'écart type du champ de valeurs aberrantes : 0,5; 1; 1,5; etc. Par exemple, si vous indiquez le multiple 1,5, les limites des valeurs aberrantes seront 1,5 écart type au-dessus ou en dessous de la moyenne ou de la médiane des valeurs dans le champ de valeurs aberrantes.

Pour le même jeu de données, à mesure que vous augmentez le multiple de l'écart type, vous diminuez peut-être le nombre de valeurs aberrantes dans les résultats de sortie.

Répartition des données

Les valeurs d'un jeu de données numériques sont généralement réparties sur une plage croissante (de la plus petite valeur à la plus grande valeur). Dans une loi normale, les valeurs sont réparties de façon égale autour du point central des données, formant une courbe en forme de cloche. Le point central est souvent défini comme la moyenne des valeurs, mais il peut aussi s'agir de la médiane ou du mode.

Instructions

Lorsque vous indiquez des paramètres dans la fonctionnalité de valeurs aberrantes, tenez compte de la nature des données que vous analysez :

Nature des données Instruction de paramétrage
Les valeurs sont regroupées, sur une petite plage Utilisez un multiple d'écart type plus petit. Tentez de commencer par 1. Utilisez des multiples décimaux comme 1,25, pour effectuer des ajustements précis.
Les valeurs sont dispersées, sur une grande plage Utilisez un multiple d'écart type plus grand. Tentez de commencer par 3.
Les données sont faussées, un faible pourcentage des valeurs étant grandes ou petites par rapport au reste des données Utilisez Médiane plutôt que Moyenne comme méthode de calcul du point central des valeurs que vous examinez.

Ajustement basé sur les résultats de la sortie

  • Résultats trop nombreux augmentez le multiple de l'écart type
  • Trop peu de résultats ou aucun résultat diminuez le multiple de l'écart type

Retenez que vous pouvez utiliser des multiples décimaux et des multiples inférieurs à 1. Par exemple : 0,75.

Étapes

  1. Ouvrez la table à tester pour y rechercher des valeurs aberrantes.
  2. Dans le menu principal Analytics, sélectionnez Analyser > Valeurs aberrantes.
  3. Sous Méthode, sélectionnez la méthode de calcul du point central des valeurs dans le champ numérique que vous examinez :
    • Moyenne
    • Médiane
  4. Dans Ecart type multiplié par, indiquez un multiple de l'écart type à utiliser pour les limites des valeurs aberrantes.

    Vous pouvez spécifier un entier positif ou une valeur numérique décimale (0,5; 1; 1,5; 2 . . . )

  5. Effectuez l'une des actions suivantes :
    •  Dans la liste Clés primaires, sélectionnez un ou plusieurs champs clés à utiliser pour regrouper les enregistrements dans la table.

      Astuce

      Vous pouvez utiliser la combinaison Ctrl+clic pour sélectionner plusieurs champs non adjacents, et Maj+clic pour sélectionner plusieurs champs adjacents.

    • Sélectionnez Pas de clé pour identifier les valeurs aberrantes dans toute la table plutôt qu'au sein de groupes spécifiques.
  6. Dans la liste Sur le champ, sélectionnez le champ numérique à examiner pour y rechercher des valeurs aberrantes (le champ de valeurs aberrantes).
  7. Facultatif. Dans la liste Autres champs, sélectionnez un ou plusieurs champs à inclure dans la table de sortie.

    Remarque

    Les champs clés et le champ de valeurs aberrantes sont inclus automatiquement dans la table de sortie et ne doivent pas être sélectionnés.

  8. Si vous souhaitez exclure du traitement certains enregistrements de la vue en cours, saisissez une condition dans la zone de texte Si, ou cliquez sur Si pour créer une instruction IF à l'aide du Générateur d'expression.

    Remarque

    La condition Si est évaluée uniquement par rapport aux enregistrements restant dans une table après application des options relevant du champ d'application (Premier, Suivant, Tant que).

    L'instruction IF prend en compte tous les enregistrements de la vue et exclue ceux qui ne correspondent pas à la condition spécifiée.

  9. Effectuez l'une des actions suivantes :
    1. Dans la zone de texte À, indiquez le nom de la table de sortie.
    2. Sélectionnez Écran pour sortir les résultats dans la zone d'affichage Analytics.
  10. Décochez Prétrier, si cela est approprié.

    Remarque

    Des indications sont données ci-dessous.

  11. Sur l'onglet Plus :
    1. Facultatif. Pour indiquer que seul un sous-ensemble d'enregistrements est traité, sélectionnez une des options dans le panneau Étendue.
    2. Facultatif. Sélectionnez Utiliser la table de sortie pour que la table de sortie s'ouvre automatiquement.
    3. Cliquez sur OK.

Options de la boîte de dialogue Valeurs aberrantes

Les tableaux ci-dessous fournissent des informations détaillées sur les options disponibles dans la boîte de dialogue Valeurs aberrantes.

Onglet Principal

Options - Boîte de dialogue Valeurs aberrantes Description
Moyenne

Médiane

Méthode de calcul du point central des valeurs dans le champ de la valeur aberrante.
  • Moyenne utilisez la moyenne des valeurs dans le champ
  • Médiane utilisez la médiane des valeurs dans le champ

Le point central est utilisé pour calculer l'écart type des valeurs dans le champ de valeurs aberrantes.

Remarque

Si vous sélectionnez Médiane, le champ de valeurs aberrantes doit être trié. Sélectionnez Prétrier si le champ de valeurs aberrantes n'est pas déjà trié.

Astuce

Si les données dans lesquelles vous recherchez des valeurs aberrantes sont sensiblement faussées, Médiane peut produire des résultats plus représentatifs du volume de données.

Écart type multiplié par Dans le champ de valeurs aberrantes, nombre d'écarts types compris entre la moyenne ou la médiane et les limites supérieure et inférieure de valeurs aberrantes. Vous pouvez spécifier un entier positif ou une valeur numérique décimale (0,5 ; 1 ; 1,5 ; 2 . . . )

Par exemple, le fait d'indiquer 2 définit pour chaque groupe de champs clés ou pour le champ dans sa globalité :

  • une limite supérieure de valeurs aberrantes située à 2 écarts types au-dessus de la moyenne ou de la médiane
  • une limite inférieure de valeurs aberrantes située à 2 écarts types en dessous de la moyenne ou de la médiane

Toutes les valeurs du champ de valeurs aberrantes qui sont supérieures à une limite supérieure ou qui sont inférieures à une limite inférieure figurent dans les valeurs aberrantes dans les résultats de sortie.

Remarque

Pour le même jeu de données, à mesure que vous augmentez le nombre d'écarts types, vous diminuez peut-être le nombre de valeurs aberrantes dans les résultats de sortie.

Clés primaires

optionnel

Champ(s) à utiliser pour regrouper les données dans la table.

Pour chaque groupe de champs clés, un écart type est calculé pour les valeurs numériques du groupe dans le champ de valeurs aberrantes. L'écart type du groupe est utilisé comme référence pour identifier les valeurs aberrantes du groupe.

Les champs clés peuvent être de type caractère, numérique ou DateHeure. Plusieurs champs peuvent combiner des types de données différents.

Si vous sélectionnez plusieurs champs, c'est que vous avez créé des groupes imbriqués. L'imbrication suit l'ordre de sélection des champs.

Remarque

Le(s) champ(s) clé(s) doivent être triés. Utilisez Prétrier si au moins un champ n'est pas déjà trié.

Pas de clé

optionnel

Ne regroupez pas les données dans la table.

Un écart type est calculé pour le champ des valeurs aberrantes dans son ensemble. L'écart type du champ est utilisé comme référence pour identifier les valeurs aberrantes du champ.

Sur le champ

(le champ des valeurs aberrantes)

Champ numérique à examiner pour y rechercher des valeurs aberrantes. Vous ne pouvez examiner qu'un seul champ à la fois.

Si vous sélectionnez un champ clé, les valeurs aberrantes sont identifiées au niveau du groupe. Si vous indiquez Pas de clé, les valeurs aberrantes sont identifiées au niveau du champ.

Autres champs

optionnel

Un ou plusieurs champs supplémentaires à inclure dans la sortie.

Remarque

Les champs clés et le champ de valeurs aberrantes sont inclus automatiquement dans la table de sortie et ne doivent pas être sélectionnés.

Si

optionnel

Vous permet de créer une condition pour exclure les enregistrements du traitement.

Vous pouvez saisir une condition dans la zone de texte Si ou cliquer sur Si pour créer une instruction IF en utilisant le Générateur d'expression.

à

optionnel

Indique le nom et l'emplacement de la table de sortie.
  • Pour sauvegarder la table de sortie dans le dossier du projet Analytics, saisissez uniquement le nom de la table.
  • Pour enregistrer la table de sortie dans un emplacement différent du dossier de projet, indiquez un chemin de fichier absolu ou relatif, ou cliquez sur Vers et naviguez vers un dossier différent.

    Par exemple : C:\Results\Output.fil ou Results\Output.fil.

Indépendamment de l'emplacement dans lequel vous enregistrez la table de sortie, cette dernière est ajoutée au projet ouvert si elle ne s'y trouve pas déjà.

Si Analytics prérenseigne le nom de la table, vous pouvez l'accepter ou le modifier.

Écran

optionnel

Affiche les résultats dans la zone d'affichage Analytics au lieu de créer une table de sortie.

Prétrier

optionnel

Effectue une opération de tri avant l'exécution de la commande.

Si vous indiquez Prétrier et: Trie par :
  • Un ou plusieurs champs clés
  • Moyenne
  • champ(s) clé(s)
  • champ(s) clé(s), puis par le champ des valeurs aberrantes (si le champ des valeurs aberrantes est calculé)

    Remarque

    Le tri d'un champ des valeurs aberrantes calculé est une condition technique interne d'Analytics.

  • Un ou plusieurs champs clés
  • Médiane

champ(s) clé(s), puis par le champ des valeurs aberrantes

  • Pas de clé
  • Moyenne

aucun tri

  • Pas de clé
  • Médiane
le champ des valeurs aberrantes

Astuce

Si le(s) champ(s) approprié(s) de la table d'entrée sont déjà triés, vous pouvez gagner du temps de traitement en ne sélectionnant pas Prétrier.

Onglet Plus

Options - Boîte de dialogue Valeurs aberrantes Description
Panneau étendue Indique quels enregistrements sont traités :
  • Tous (par défaut) tous les enregistrements de la table sont traités.
  • Premier sélectionnez cette option et saisissez un nombre dans la zone de texte pour démarrer le traitement au premier enregistrement de la table et inclure uniquement le nombre d'enregistrements indiqué.
  • Suivant : sélectionnez cette option et saisissez un nombre dans la zone de texte pour démarrer le traitement à l'enregistrement actuellement sélectionné de la vue de la table et inclure uniquement le nombre d'enregistrements indiqué.

    Vous devez sélectionner le nombre d'enregistrements réel dans la colonne la plus à gauche et non pas les données dans la ligne.

  • Tant que sélectionnez cette option pour utiliser une instruction WHILE et ainsi limiter le traitement des enregistrements de la table selon des critères.
    • Vous pouvez saisir une condition dans la zone de texte Tant que ou cliquer sur Tant que pour créer une instruction WHILE en utilisant le Générateur d'expression.
    • Une instruction WHILE permet de traiter les enregistrements uniquement tant que la condition indiquée est vraie.
    • Vous pouvez utiliser l'option Tant que en conjonction avec les options Tous, Premier ou Suivant.

Remarque

Le nombre d'enregistrements indiqué dans les options Premier ou Suivant fait référence à l'ordre physique ou d'indexation des enregistrements dans une table, quels que soient les filtres ou les tris express appliqués à la vue. Toutefois, les résultats des opérations analytiques tiennent compte de tous les filtres appliqués.

Si un tri express est appliqué à une vue, l'option Suivant se comporte comme l'option Premier.

Utiliser la table de sortie Indique si la table Analytics qui contient les résultats de sortie s'ouvre automatiquement dès la fin de l'opération.
OK Exécute l'opération.

Si un message vous invitant à remplacer le fichier apparaît, sélectionnez l'option appropriée.

Aide d'Analytics 14.1