Identification des valeurs aberrantes
Dans Analytics, la fonctionnalité Valeur aberrante permet d'identifier les enregistrements sortant de l'ordinaire et susceptibles de nécessiter un examen minutieux.
Qu'est-ce qu'une valeur aberrante ?
Les valeurs aberrantes sont des enregistrements dont les montants numériques diffèrent grandement des montants numériques des enregistrements avec lesquels ils sont regroupés.
Exemple de valeur aberrante dans un groupe
Dans un fichier de compte fournisseurs, les factures d'une entreprise particulière varient en général entre 500 $ et 1 000 $. Toutefois, une facture présente un montant de 8 500 $.
Remarque
Un enregistrement peut être une valeur aberrante pour une raison valable. En général, il faut examiner individuellement et plus en détail chacune des valeurs aberrantes identifiées par Analytics pour déterminer si elle est réellement problématique.
Vous n'êtes pas obligé de regrouper les enregistrements
Lorsque vous examinez des données pour y rechercher des valeurs aberrantes, vous n'êtes pas obligé de regrouper les enregistrements. Il se peut que vous soyez intéressé par la recherche de valeurs aberrantes dans l'intégralité d'une table, plutôt que dans certains groupes.
Exemple de valeurs aberrantes dans un ensemble complet d'enregistrements
Dans un fichier de compte fournisseurs, l'ensemble complet des factures varie entre 40 $ et 5 000 $. Toutefois, trois factures présentent un montant supérieur à 20 000 $.
Comment identifier des valeurs aberrantes ?
Pour chaque groupe d'enregistrements ou pour un ensemble complet d'enregistrements, Analytics utilise l'écart type d'un champ numérique spécifié ou un multiple de l'écart type pour définir les limites supérieure et inférieure des valeurs aberrantes.
Tout enregistrement dont la valeur du champ numérique est supérieure à la limite supérieure ou inférieure à la limite inférieure figure dans les valeurs aberrantes et fait partie des résultats de sortie.
L'écart type est un indicateur de dispersion d'un jeu de données, c'est-à-dire qu'il indique dans quelle mesure les valeurs s'étalent. Le calcul des valeurs aberrantes utilise l'écart type de la population.
Identification des valeurs aberrantes pour un ensemble de nombres
Vous souhaitez identifier des valeurs aberrantes dans l'ensemble de nombres suivant :
-3 -3 -1 2 3 5 6 6 8 11
La moyenne des nombres est 3,40. La moyenne sert à calculer l'écart type (SD) de l'ensemble : 4,45.
Moyenne ± 1 écart type
Dans le premier exemple, vous utilisez la moyenne ± 1 écart type pour déterminer les limites inférieure et supérieure des valeurs aberrantes. Quatre valeurs sont identifiées comme étant des valeurs aberrantes.
Moyenne ± 1,5 écart type
Dans le deuxième exemple, vous utilisez la moyenne ± 1,5 écart type pour déterminer les limites inférieure et supérieure des valeurs aberrantes. À présent, seule une valeur est identifiée comme étant une valeur aberrante.
Placement des limites des valeurs aberrantes
Vous pouvez placer les limites des valeurs aberrantes là où cela est le plus approprié selon vous ; vous pouvez aussi tester différentes positions et comparer les résultats.
Pour placer les limites, spécifiez un multiple positif de l'écart type du champ de valeurs aberrantes : 0,5; 1; 1,5; etc. Par exemple, si vous indiquez le multiple 1,5, les limites des valeurs aberrantes seront 1,5 écart type au-dessus ou en dessous de la moyenne ou de la médiane des valeurs dans le champ de valeurs aberrantes.
Pour le même jeu de données, à mesure que vous augmentez le multiple de l'écart type, vous diminuez peut-être le nombre de valeurs aberrantes dans les résultats de sortie.
Répartition des données
Les valeurs d'un jeu de données numériques sont généralement réparties sur une plage croissante (de la plus petite valeur à la plus grande valeur). Dans une loi normale, les valeurs sont réparties de façon égale autour du point central des données, formant une courbe en forme de cloche. Le point central est souvent défini comme la moyenne des valeurs, mais il peut aussi s'agir de la médiane ou du mode.
Écart type d'une loi normale
Si vous calculez l'écart type correspondant à un ensemble de valeurs respectant la loi normale, 68 % des valeurs se trouvent à un écart type de la moyenne (±), et 99,7 % des valeurs se trouvent à trois écarts types de la moyenne (±). Rares sont les valeurs qui s'écartent de trois écarts types de la moyenne.
La répartition des valeurs dans les jeux de données que vous analysez dans Analytics peut souvent être faussée plutôt que respectant la loi normale. Par exemple, un fichier de transactions peut avoir des milliers de transactions relativement petites et quelques grosses transactions. Toutefois, il est possible d'utiliser une loi normale pour illustrer de manière simple comment les limites des valeurs aberrantes fonctionnent dans Analytics.
Comme le montrent les exemples ci-dessous, l'augmentation du multiple de l'écart type déplace les limites inférieure et supérieure de valeurs aberrantes vers les extrémités de la courbe en cloche. À mesure que les limites se rapprochent des extrémités de la courbe, les valeurs hors limite se font progressivement plus rares.
Limites de valeurs aberrantes à ±2,5 écarts types de la moyenne
Les valeurs qui s'écartent de plus ou moins 2,5 écarts types de la moyenne figurent sous forme de valeurs aberrantes dans les résultats de la sortie.
Limites de valeurs aberrantes à ±3 écarts types de la moyenne
Les valeurs qui s'écartent de plus ou moins 3 écarts types de la moyenne figurent sous forme de valeurs aberrantes dans les résultats de la sortie.
Instructions
Lorsque vous indiquez des paramètres dans la fonctionnalité de valeurs aberrantes, tenez compte de la nature des données que vous analysez :
Nature des données | Instruction de paramétrage |
---|---|
Les valeurs sont regroupées, sur une petite plage | Utilisez un multiple d'écart type plus petit. Tentez de commencer par 1. Utilisez des multiples décimaux comme 1,25, pour effectuer des ajustements précis. |
Les valeurs sont dispersées, sur une grande plage | Utilisez un multiple d'écart type plus grand. Tentez de commencer par 3. |
Les données sont faussées, un faible pourcentage des valeurs étant grandes ou petites par rapport au reste des données | Utilisez Médiane plutôt que Moyenne comme méthode de calcul du point central des valeurs que vous examinez. |
Ajustement basé sur les résultats de la sortie
- Résultats trop nombreux augmentez le multiple de l'écart type
- Trop peu de résultats ou aucun résultat diminuez le multiple de l'écart type
Retenez que vous pouvez utiliser des multiples décimaux et des multiples inférieurs à 1. Par exemple : 0,75.
Étapes
- Ouvrez la table à tester pour y rechercher des valeurs aberrantes.
- Dans le menu principal Analytics, sélectionnez Analyser > Valeurs aberrantes.
- Sous Méthode, sélectionnez la méthode de calcul du point central des valeurs dans le champ numérique que vous examinez :
- Moyenne
- Médiane
- Dans Ecart type multiplié par, indiquez un multiple de l'écart type à utiliser pour les limites des valeurs aberrantes.
Vous pouvez spécifier un entier positif ou une valeur numérique décimale (0,5; 1; 1,5; 2 . . . )
- Effectuez l'une des actions suivantes :
- Dans la liste Clés primaires, sélectionnez un ou plusieurs champs clés à utiliser pour regrouper les enregistrements dans la table.
Astuce
Vous pouvez utiliser la combinaison Ctrl+clic pour sélectionner plusieurs champs non adjacents, et Maj+clic pour sélectionner plusieurs champs adjacents.
- Sélectionnez Pas de clé pour identifier les valeurs aberrantes dans toute la table plutôt qu'au sein de groupes spécifiques.
- Dans la liste Clés primaires, sélectionnez un ou plusieurs champs clés à utiliser pour regrouper les enregistrements dans la table.
- Dans la liste Sur le champ, sélectionnez le champ numérique à examiner pour y rechercher des valeurs aberrantes (le champ de valeurs aberrantes).
- Facultatif. Dans la liste Autres champs, sélectionnez un ou plusieurs champs à inclure dans la table de sortie.
Remarque
Les champs clés et le champ de valeurs aberrantes sont inclus automatiquement dans la table de sortie et ne doivent pas être sélectionnés.
-
Si vous souhaitez exclure du traitement certains enregistrements de la vue en cours, saisissez une condition dans la zone de texte Si, ou cliquez sur Si pour créer une instruction IF à l'aide du Générateur d'expression.
Remarque
La condition Si est évaluée uniquement par rapport aux enregistrements restant dans une table après application des options relevant du champ d'application (Premier, Suivant, Tant que).
L'instruction IF prend en compte tous les enregistrements de la vue et exclue ceux qui ne correspondent pas à la condition spécifiée.
- Effectuez l'une des actions suivantes :
- Dans la zone de texte À, indiquez le nom de la table de sortie.
- Sélectionnez Écran pour sortir les résultats dans la zone d'affichage Analytics.
- Décochez Prétrier, si cela est approprié.
Remarque
Des indications sont données ci-dessous.
- Sur l'onglet Plus :
- Facultatif. Pour indiquer que seul un sous-ensemble d'enregistrements est traité, sélectionnez une des options dans le panneau Étendue.
- Facultatif. Sélectionnez Utiliser la table de sortie pour que la table de sortie s'ouvre automatiquement.
- Cliquez sur OK.
Options de la boîte de dialogue Valeurs aberrantes
Les tableaux ci-dessous fournissent des informations détaillées sur les options disponibles dans la boîte de dialogue Valeurs aberrantes.
Onglet Principal
Options - Boîte de dialogue Valeurs aberrantes | Description | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
Moyenne Médiane |
Méthode de calcul du point central des valeurs dans le champ de la valeur aberrante.
Le point central est utilisé pour calculer l'écart type des valeurs dans le champ de valeurs aberrantes. Remarque Si vous sélectionnez Médiane, le champ de valeurs aberrantes doit être trié. Sélectionnez Prétrier si le champ de valeurs aberrantes n'est pas déjà trié. Astuce Si les données dans lesquelles vous recherchez des valeurs aberrantes sont sensiblement faussées, Médiane peut produire des résultats plus représentatifs du volume de données. |
||||||||||
Écart type multiplié par | Dans le champ de valeurs aberrantes, nombre d'écarts types compris entre la moyenne ou la médiane et les limites supérieure et inférieure de valeurs aberrantes. Vous pouvez spécifier un entier positif ou une valeur numérique décimale (0,5 ; 1 ; 1,5 ; 2 . . . ) Par exemple, le fait d'indiquer 2 définit pour chaque groupe de champs clés ou pour le champ dans sa globalité :
Toutes les valeurs du champ de valeurs aberrantes qui sont supérieures à une limite supérieure ou qui sont inférieures à une limite inférieure figurent dans les valeurs aberrantes dans les résultats de sortie. Remarque Pour le même jeu de données, à mesure que vous augmentez le nombre d'écarts types, vous diminuez peut-être le nombre de valeurs aberrantes dans les résultats de sortie. |
||||||||||
Clés primaires optionnel |
Champ(s) à utiliser pour regrouper les données dans la table. Pour chaque groupe de champs clés, un écart type est calculé pour les valeurs numériques du groupe dans le champ de valeurs aberrantes. L'écart type du groupe est utilisé comme référence pour identifier les valeurs aberrantes du groupe. Les champs clés peuvent être de type caractère, numérique ou DateHeure. Plusieurs champs peuvent combiner des types de données différents. Si vous sélectionnez plusieurs champs, c'est que vous avez créé des groupes imbriqués. L'imbrication suit l'ordre de sélection des champs. Remarque Le(s) champ(s) clé(s) doivent être triés. Utilisez Prétrier si au moins un champ n'est pas déjà trié. |
||||||||||
Pas de clé optionnel |
Ne regroupez pas les données dans la table. Un écart type est calculé pour le champ des valeurs aberrantes dans son ensemble. L'écart type du champ est utilisé comme référence pour identifier les valeurs aberrantes du champ. |
||||||||||
Sur le champ (le champ des valeurs aberrantes) |
Champ numérique à examiner pour y rechercher des valeurs aberrantes. Vous ne pouvez examiner qu'un seul champ à la fois. Si vous sélectionnez un champ clé, les valeurs aberrantes sont identifiées au niveau du groupe. Si vous indiquez Pas de clé, les valeurs aberrantes sont identifiées au niveau du champ. |
||||||||||
Autres champs optionnel |
Un ou plusieurs champs supplémentaires à inclure dans la sortie. Remarque Les champs clés et le champ de valeurs aberrantes sont inclus automatiquement dans la table de sortie et ne doivent pas être sélectionnés. |
||||||||||
Si optionnel |
Vous permet de créer une condition pour exclure les enregistrements du traitement. Vous pouvez saisir une condition dans la zone de texte Si ou cliquer sur Si pour créer une instruction IF en utilisant le Générateur d'expression. |
||||||||||
à optionnel |
Indique le nom et l'emplacement de la table de sortie.
Indépendamment de l'emplacement dans lequel vous enregistrez la table de sortie, cette dernière est ajoutée au projet ouvert si elle ne s'y trouve pas déjà. Si Analytics prérenseigne le nom de la table, vous pouvez l'accepter ou le modifier. |
||||||||||
Écran optionnel |
Affiche les résultats dans la zone d'affichage Analytics au lieu de créer une table de sortie. | ||||||||||
Prétrier optionnel |
Effectue une opération de tri avant l'exécution de la commande.
Astuce Si le(s) champ(s) approprié(s) de la table d'entrée sont déjà triés, vous pouvez gagner du temps de traitement en ne sélectionnant pas Prétrier. |
Onglet Plus
Options - Boîte de dialogue Valeurs aberrantes | Description |
---|---|
Panneau étendue | Indique quels enregistrements sont traités :
Remarque Le nombre d'enregistrements indiqué dans les options Premier ou Suivant fait référence à l'ordre physique ou d'indexation des enregistrements dans une table, quels que soient les filtres ou les tris express appliqués à la vue. Toutefois, les résultats des opérations analytiques tiennent compte de tous les filtres appliqués. Si un tri express est appliqué à une vue, l'option Suivant se comporte comme l'option Premier. |
Utiliser la table de sortie | Indique si la table Analytics qui contient les résultats de sortie s'ouvre automatiquement dès la fin de l'opération. |
OK | Exécute l'opération. Si un message vous invitant à remplacer le fichier apparaît, sélectionnez l'option appropriée. |