Commande OUTLIERS
Identifie les valeurs statistiques aberrantes dans un champ numérique. Des valeurs aberrantes peuvent être identifiées pour le champ dans son ensemble ou pour des groupes distincts basés sur les valeurs identiques contenues dans un ou plusieurs champs clés de type caractère, numérique ou DateHeure.
Syntaxe
OUTLIERS {AVERAGE|MEDIAN} {PKEY champ_clé <...n>|NOKEY} ON champ_numérique <OTHER champ <...n>> NUMSTDEV nombre_écarts_types <IF test> <TO {SCREEN|nom_table}> <PRESORT> <WHILE test> <FIRST plage|NEXT plage> <OPEN>
Remarque
Vous ne pouvez pas exécuter la commande OUTLIERS localement par rapport à une table de serveur.
Vous devez indiquer en entier le nom de la commande OUTLIERS. Vous ne pouvez pas l'abréger.
Paramètres
Nom | Description | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
AVERAGE | MEDIAN |
Méthode de calcul du point central des valeurs dans champ_numérique (le champ de la valeur aberrante.
Le point central est calculé pour l'un ou l'autre des éléments suivants :
Le point central est utilisé par la suite pour calculer l'écart type du champ numérique ou de chaque groupe. Remarque Si vous indiquez MEDIAN, champ_numérique doit être trié. Utilisez PRESORT si champ_numérique n'est pas déjà trié. Astuce Si les données dans lesquelles vous recherchez des valeurs aberrantes sont sensiblement faussées, MEDIAN peut produire des résultats plus représentatifs du volume de données. |
||||||||||
PKEY champ_clé <...n> | NOKEY |
Si vous indiquez PKEY, les valeurs aberrantes sont identifiées au niveau du groupe. Si vous indiquez NOKEY, les valeurs aberrantes sont identifiées au niveau du champ.
|
||||||||||
ON champ_numérique |
Champ numérique à examiner pour y rechercher des valeurs aberrantes. Vous ne pouvez examiner qu'un seul champ à la fois. Les valeurs aberrantes sont les valeurs sortant des limites supérieure et inférieure définies par l'écart type du champ ou groupe ou par un multiple spécifié de l'écart type. |
||||||||||
OTHER champ <...n> optionnel |
Un ou plusieurs champs supplémentaires à inclure dans la sortie. Remarque Les champs clés et le champ de la valeur aberrante sont inclus automatiquement dans la table de sortie et ne doivent pas être spécifiés à l'aide de OTHER. |
||||||||||
NUMSTDEV nombre_écarts_types |
Dans champ_numérique, nombre d'écarts types compris entre la moyenne ou la médiane et les limites supérieure et inférieure de valeurs aberrantes. Vous pouvez spécifier un entier positif ou une valeur numérique décimale (1; 1,5; 2 . . . ) La formule permettant de créer des limites de valeurs aberrantes est la suivante : moyenne/médiane ± (nombre_écarts_types * écart type) Remarque L'écart type est un indicateur de dispersion d'un jeu de données, c'est-à-dire qu'il indique dans quelle mesure les valeurs s'étalent. Le calcul des valeurs aberrantes utilise l'écart type de la population. Exemple de limites de valeurs aberrantesNUMSTDEV 2 définit, pour champ_numérique dans son ensemble, ou pour chaque groupe de champs clés :
Toutes les valeurs qui sont supérieures à la limite supérieure ou qui sont inférieures à la limite inférieure figurent dans les valeurs aberrantes dans les résultats de sortie. Remarque Pour le même jeu de données, à mesure que vous augmentez la valeur dans nombre_écarts_types, vous diminuez peut-être le nombre de valeurs aberrantes renvoyé. |
||||||||||
IF test optionnel |
Expression conditionnelle qui doit être vraie afin de traiter chaque enregistrement. La commande est exécutée uniquement sur les enregistrements remplissant la condition. Remarque La condition IF est évaluée uniquement par rapport aux enregistrements restant dans une table après application des options relevant du champ d'application (WHILE, FIRST, NEXT). |
||||||||||
TO SCREEN | nom_table optionnel |
Emplacement vers lequel envoyer les résultats de la commande :
|
||||||||||
PRESORT optionnel |
Effectue une opération de tri avant l'exécution de la commande.
Astuce Si le(s) champ(s) approprié(s) de la table d'entrée sont déjà triés, vous pouvez gagner du temps de traitement en évitant d'indiquer PRESORT. Remarque Vous ne pouvez pas utiliser PRESORT dans la commande GROUP. |
||||||||||
WHILE test optionnel |
Expression conditionnelle qui doit être vraie afin de traiter chaque enregistrement. La commande est exécutée jusqu'à ce que la condition soit évaluée comme fausse ou lorsque la fin de la table est atteinte. Remarque Si vous utilisez WHILE conjointement avec FIRST ou NEXT, le traitement des enregistrements s'arrête dès qu'une limite est atteinte. |
||||||||||
FIRST plage | NEXT plage optionnel |
Le nombre d'enregistrements à traiter :
Utilisez plage pour indiquer le nombre d'enregistrements à traiter. Si vous ignorez FIRST et NEXT, tous les enregistrements sont traités par défaut. |
||||||||||
OPEN optionnel |
Ouvre la table créée par la commande après l'exécution de la commande. Valide uniquement lorsque la commande crée une table de sortie. |
Exemples
Identifier les montants de transactions sortant de l'ordinaire
Vous souhaitez identifier les montants des transactions sortant de l'ordinaire dans toute la table Ar dans Exemple de projet.acl.
Vous décidez de définir les limites des valeurs aberrantes sur 3 fois l'écart type du champ Montant. Le test renvoie 16 valeurs aberrantes dans la table de 772 enregistrements.
OPEN Comptes_clients OUTLIERS AVERAGE NOKEY ON Montant NUMSTDEV 3 PRESORT TO "Valeurs_aberrantes_Client.fil" OPEN
Vous réitérez le test, mais vous augmentez le multiple de l'écart type en le faisant passer à 3,5. Le test renvoie désormais 6 valeurs aberrantes car les limites des valeurs aberrantes sont bien plus loin du point centrale des valeurs dans le champ Montant.
OPEN Comptes_clients OUTLIERS AVERAGE NOKEY ON Montant NUMSTDEV 3,5 PRESORT TO "Valeurs_aberrantes_Client.fil" OPEN
Identifier les montants des transactions sortant de l'ordinaire pour chaque client
Pour chaque client de la table Ar dans Exemple de projet.acl, vous souhaitez identifier les montants des transactions sortant de l'ordinaire.
Vous décidez de définir les limites des valeurs aberrantes sur 3 fois l'écart type du groupe de transactions de chaque client.
OPEN Comptes_clients OUTLIERS AVERAGE PKEY Num ON Montant NUMSTDEV 3 PRESORT TO "Valeurs_aberrantes_Comptabilité_Client.fil" OPEN
Le test renvoie 7 valeurs aberrantes. L'écart type et la moyenne sont mentionnés pour chaque groupe de transactions de chaque client :
Numéro client (No) | Montant de trans | STDEV | AVERAGE | Numéro de groupe | |
---|---|---|---|---|---|
1 | 065003 | 4 954,64 | 1015,58 | 833,83 | 1 |
2 | 262001 | 3 567,34 | 772,44 | 438,81 | 2 |
3 | 262001 | (2 044,82) | 772,44 | 438,81 | 2 |
4 | 376005 | (931,55) | 411,18 | 484,57 | 3 |
5 | 501657 | 5 549,19 | 1332,80 | 441,14 | 4 |
6 | 811002 | 3 409,82 | 634,20 | 672,10 | 5 |
7 | 925007 | 3 393,87 | 736,48 | 906,16 | 6 |
Identification des valeurs aberrantes pour le client 262001
Le client 262001 présente 101 transactions dans la table Ar ; deux d'entre elles sont signalées comme étant des valeurs aberrantes car elles dépassent les limites des valeurs aberrantes correspondant à ce client-là :
Valeur aberrante | Limite inférieure | Limite supérieure | Valeur aberrante |
---|---|---|---|
(2 044,82) | (1 878,51) | 2 756,13 | 3 567,34 |
Mode de calcul des limites des valeurs aberrantes pour le client 262001
Les limites des valeurs aberrantes correspondent à la moyenne de toutes les transactions du client 262001, plus ou moins le multiple spécifié de l'écart type des transactions :
Moyenne de toutes les transactions du client 262001 | 438,81 |
Multiple spécifié de l'écart type | 3 |
Écart type des transactions | 772,44 |
438,81 ± (3 * 772,44) = 438,81 ± 2317,32 = (1878,51) (limite inférieure) = 2756,13 (limite supérieure) |
Utilisation de MEDIAN pour identifier les montants des transactions sortant de l'ordinaire pour chaque client
Vous utilisez MEDIAN, plutôt que AVERAGE, pour effectuer le même test de recherche de valeurs aberrantes que celui effectué dans l'exemple précédent.
OPEN Comptes_clients OUTLIERS MEDIAN PKEY Num ON Montant NUMSTDEV 3 PRESORT TO "Valeurs_aberrantes_Comptabilité_Client_Médiane.fil" OPEN
Le test renvoie 10 valeurs aberrantes au lieu des 7 renvoyées lors du test précédent. Selon la nature des données, MEDIAN et AVERAGE peuvent renvoyer des résultats quelque peu différents :
Numéro client (No) | Montant de trans | STDEV | MEDIAN | Numéro de groupe | |
---|---|---|---|---|---|
1 | 065003 | 4 954,64 | 1015,58 | 663,68 | 1 |
2 | 262001 | (2 044,82) | 772,44 | 450,67 | 2 |
3 | 262001 | 3 567,34 | 772,44 | 450,67 | 2 |
4 | 376005 | (931,55) | 411,18 | 517,16 | 3 |
5 | 501657 | 4 426,14 | 1332,80 | 146,80 | 4 |
6 | 501657 | 5 549,19 | 1332,80 | 146,80 | 4 |
7 | 811002 | 3 409,82 | 634,20 | 624,53 | 5 |
8 | 925007 | 2 972,78 | 736,48 | 717,88 | 6 |
9 | 925007 | 3 030,71 | 736,48 | 717,88 | 6 |
10 | 925007 | 3 393,87 | 736,48 | 717,88 | 6 |
Mode de calcul des limites des valeurs aberrantes pour chaque client
Les limites des valeurs aberrantes correspondent à la valeur médiane des transactions de chaque client, plus ou moins le multiple spécifié de l'écart type des transactions.
Par exemple, pour le client 262001 : 450,67 ± (3 * 772,44)
Remarques
Remarque
Pour plus d'informations sur le fonctionnement de cette commande, consultez le Aide d'Analytics.
Ajouter des champs de limites de valeurs aberrantes à la table de résultats
Analytics ajoute automatiquement les champs calculés STDEV et AVERAGE ou MEDIAN à la table de résultats de valeurs aberrantes. Par ailleurs, vous trouverez peut-être utile d'ajouter deux champs calculés affichant les limites des valeurs aberrantes utilisées pour identifier les valeurs aberrantes dans la table de résultats.
- Ouvrez la table Résultats des valeurs aberrantes.
- Collez cette expression dans la ligne de commande Analytics, modifiez-la si besoin, et appuyez sur Entrée :
DEFINE FIELD Limite_inférieure COMPUTED AVERAGE - (nombre_écarts_types * STDEV)
- Pour nombre_écarts_types, substituez le multiple de l'écart type réel que vous avez utilisé.
- Si vous avez utilisé la médiane au lieu de la moyenne comme point central, substituez MEDIAN à AVERAGE.
- Collez cette expression dans la ligne de commande Analytics, modifiez-la si besoin, et appuyez sur Entrée :
DEFINE FIELD Limite_supérieure COMPUTED AVERAGE + (nombre_écarts_types * STDEV)
- Pour nombre_écarts_types, substituez le multiple de l'écart type réel que vous avez utilisé.
- Si vous avez utilisé la médiane au lieu de la moyenne comme point central, substituez MEDIAN à AVERAGE.
- Cliquez dans la vue avec le bouton droit de la souris et sélectionnez Ajouter des colonnes.
- Dans la liste Champs disponibles, double-cliquez sur Limite_inférieure et sur Limite_supérieure pour les ajouter à la liste Champs sélectionnés.
- Cliquez sur OK.
- Facultatif. Replacez les champs ajoutés en faisant glisser les en-têtes des colonnes.