Commande OUTLIERS

Identifie les valeurs statistiques aberrantes dans un champ numérique. Des valeurs aberrantes peuvent être identifiées pour le champ dans son ensemble ou pour des groupes distincts basés sur les valeurs identiques contenues dans un ou plusieurs champs clés de type caractère, numérique ou DateHeure.

Syntaxe

OUTLIERS {AVERAGE|MEDIAN} {PKEY champ_clé <...n>|NOKEY} ON champ_numérique <OTHER champ <...n>> NUMSTDEV nombre_écarts_types <IF test> <TO {SCREEN|nom_table}> <PRESORT> <WHILE test> <FIRST plage|NEXT plage> <OPEN>

Remarque

Vous ne pouvez pas exécuter la commande OUTLIERS localement par rapport à une table de serveur.

Vous devez indiquer en entier le nom de la commande OUTLIERS. Vous ne pouvez pas l'abréger.

Paramètres

Nom Description
AVERAGE | MEDIAN

Méthode de calcul du point central des valeurs dans champ_numérique (le champ de la valeur aberrante.

  • AVERAGE calculez la moyenne des valeurs
  • MEDIAN calculez la médiane des valeurs

Le point central est calculé pour l'un ou l'autre des éléments suivants :

  • soit pour le champ numérique dans son ensemble
  • soit pour les valeurs numériques de chaque groupe de champs clés

Le point central est utilisé par la suite pour calculer l'écart type du champ numérique ou de chaque groupe.

Remarque

Si vous indiquez MEDIAN, champ_numérique doit être trié. Utilisez PRESORT si champ_numérique n'est pas déjà trié.

Astuce

Si les données dans lesquelles vous recherchez des valeurs aberrantes sont sensiblement faussées, MEDIAN peut produire des résultats plus représentatifs du volume de données.

PKEY champ_clé <...n> | NOKEY

Si vous indiquez PKEY, les valeurs aberrantes sont identifiées au niveau du groupe. Si vous indiquez NOKEY, les valeurs aberrantes sont identifiées au niveau du champ.

  • PKEY champ_clé champ(s) à utiliser pour regrouper les données dans la table

    Les champs clés peuvent être de type caractère, numérique ou DateHeure. Les champs multiples doivent être séparés par des espaces et il peut s'agir de différents types de données.

    Si vous spécifiez plusieurs champs, c'est que vous avez créé des groupes imbriqués. L'imbrication suit l'ordre dans lequel vous indiquez les champs.

    Pour chaque groupe de champs clés, un écart type est calculé pour les valeurs numériques du groupe dans champ_numérique. L'écart type du groupe est utilisé comme référence pour identifier les valeurs aberrantes du groupe.

    Remarque

    Le(s) champ(s) clé(s) doivent être triés. Utilisez PRESORT si un ou plusieurs champs ne sont pas déjà triés.

  • NOKEY ne regroupe pas les données dans la table

    Un écart type est calculé pour champ_numérique dans sa globalité. L'écart type du champ est utilisé comme référence pour identifier les valeurs aberrantes du champ.

ON champ_numérique

Champ numérique à examiner pour y rechercher des valeurs aberrantes. Vous ne pouvez examiner qu'un seul champ à la fois.

Les valeurs aberrantes sont les valeurs sortant des limites supérieure et inférieure définies par l'écart type du champ ou groupe ou par un multiple spécifié de l'écart type.

OTHER champ <...n>

optionnel

Un ou plusieurs champs supplémentaires à inclure dans la sortie.

Remarque

Les champs clés et le champ de la valeur aberrante sont inclus automatiquement dans la table de sortie et ne doivent pas être spécifiés à l'aide de OTHER.

NUMSTDEV nombre_écarts_types

Dans champ_numérique, nombre d'écarts types compris entre la moyenne ou la médiane et les limites supérieure et inférieure de valeurs aberrantes. Vous pouvez spécifier un entier positif ou une valeur numérique décimale (1; 1,5; 2 . . . )

La formule permettant de créer des limites de valeurs aberrantes est la suivante :

moyenne/médiane ± (nombre_écarts_types * écart type)

Remarque

L'écart type est un indicateur de dispersion d'un jeu de données, c'est-à-dire qu'il indique dans quelle mesure les valeurs s'étalent. Le calcul des valeurs aberrantes utilise l'écart type de la population.

Exemple de limites de valeurs aberrantes

NUMSTDEV 2

définit, pour champ_numérique dans son ensemble, ou pour chaque groupe de champs clés :

  • une limite supérieure de valeurs aberrantes située à 2 écarts types au-dessus de la moyenne ou de la médiane

    moyenne/médiane + (2 * écarts types)

  • une limite inférieure de valeurs aberrantes située à 2 écarts types en dessous de la moyenne ou de la médiane

    moyenne/médiane – (2 * écarts types)

Toutes les valeurs qui sont supérieures à la limite supérieure ou qui sont inférieures à la limite inférieure figurent dans les valeurs aberrantes dans les résultats de sortie.

Remarque

Pour le même jeu de données, à mesure que vous augmentez la valeur dans nombre_écarts_types, vous diminuez peut-être le nombre de valeurs aberrantes renvoyé.

IF test

optionnel

Expression conditionnelle qui doit être vraie afin de traiter chaque enregistrement. La commande est exécutée uniquement sur les enregistrements remplissant la condition.

Remarque

La condition IF est évaluée uniquement par rapport aux enregistrements restant dans une table après application des options relevant du champ d'application (WHILE, FIRST, NEXT).

TO SCREEN | nom_table

optionnel

Emplacement vers lequel envoyer les résultats de la commande :

  • SCREEN affiche les résultats dans la zone d'affichage d'Analytics.
  • nom_table enregistre les résultats dans une table Analytics

    Indiquez nom_table sous forme de chaîne entre guillemets avec une extension de fichier .FIL. Par exemple : TO "Sortie.FIL"

    Par défaut, le fichier de données de table (.FIL) est enregistré dans le dossier contenant le projet Analytics.

    Utilisez un chemin de fichier absolu ou relatif pour enregistrer le fichier de données dans un autre dossier existant :

    • TO "C:\Sortie.FIL"
    • TO "Résultats\Sortie.FIL"

    Remarque

    La longueur des noms des tables est limitée à 64 caractères alphanumériques, sans l'extension .FIL. Le nom peut inclure le caractère de soulignement ( _ ), mais aucun autre caractère spécial ni espace. Le nom ne peut pas commencer par un chiffre.

PRESORT

optionnel

Effectue une opération de tri avant l'exécution de la commande.

Si vous indiquez PRESORT et: Trie par :
PKEY, AVERAGE
  • champ(s) clé(s)
  • champ(s) clé(s) champ_numérique (si champ_numérique est calculé)

    Remarque

    Le tri d'un champ_numérique calculé est une condition technique interne d'Analytics.

PKEY, MEDIAN

champ(s) clé(s) puis par champ_numérique

NOKEY, AVERAGE

aucun tri

NOKEY, MEDIAN champ_numérique

Astuce

Si le(s) champ(s) approprié(s) de la table d'entrée sont déjà triés, vous pouvez gagner du temps de traitement en évitant d'indiquer PRESORT.

Remarque

Vous ne pouvez pas utiliser PRESORT dans la commande GROUP.

WHILE test

optionnel

Expression conditionnelle qui doit être vraie afin de traiter chaque enregistrement. La commande est exécutée jusqu'à ce que la condition soit évaluée comme fausse ou lorsque la fin de la table est atteinte.

Remarque

Si vous utilisez WHILE conjointement avec FIRST ou NEXT, le traitement des enregistrements s'arrête dès qu'une limite est atteinte.

FIRST plage | NEXT plage

optionnel

Le nombre d'enregistrements à traiter :

  • FIRST pour commencer le traitement à partir du premier enregistrement jusqu'à ce que le nombre d'enregistrements spécifié soit atteint
  • NEXT pour commencer le traitement à partir de l'enregistrement actuellement sélectionné jusqu'à ce que le nombre d'enregistrements spécifié soit atteint

Utilisez plage pour indiquer le nombre d'enregistrements à traiter.

Si vous ignorez FIRST et NEXT, tous les enregistrements sont traités par défaut.

OPEN

optionnel

Ouvre la table créée par la commande après l'exécution de la commande. Valide uniquement lorsque la commande crée une table de sortie.

Exemples

Identifier les montants de transactions sortant de l'ordinaire

Vous souhaitez identifier les montants des transactions sortant de l'ordinaire dans toute la table Ar dans Exemple de projet.acl.

Vous décidez de définir les limites des valeurs aberrantes sur 3 fois l'écart type du champ Montant. Le test renvoie 16 valeurs aberrantes dans la table de 772 enregistrements.

OPEN Comptes_clients
OUTLIERS AVERAGE NOKEY ON Montant NUMSTDEV 3 PRESORT TO "Valeurs_aberrantes_Client.fil" OPEN

Vous réitérez le test, mais vous augmentez le multiple de l'écart type en le faisant passer à 3,5. Le test renvoie désormais 6 valeurs aberrantes car les limites des valeurs aberrantes sont bien plus loin du point centrale des valeurs dans le champ Montant.

OPEN Comptes_clients
OUTLIERS AVERAGE NOKEY ON Montant NUMSTDEV 3,5 PRESORT TO "Valeurs_aberrantes_Client.fil" OPEN

Identifier les montants des transactions sortant de l'ordinaire pour chaque client

Pour chaque client de la table Ar dans Exemple de projet.acl, vous souhaitez identifier les montants des transactions sortant de l'ordinaire.

Vous décidez de définir les limites des valeurs aberrantes sur 3 fois l'écart type du groupe de transactions de chaque client.

OPEN Comptes_clients
OUTLIERS AVERAGE PKEY Num ON Montant NUMSTDEV 3 PRESORT TO "Valeurs_aberrantes_Comptabilité_Client.fil" OPEN

Le test renvoie 7 valeurs aberrantes. L'écart type et la moyenne sont mentionnés pour chaque groupe de transactions de chaque client :

  Numéro client (No) Montant de trans STDEV AVERAGE Numéro de groupe
1 065003 4 954,64 1015,58 833,83 1
2 262001 3 567,34 772,44 438,81 2
3 262001 (2 044,82) 772,44 438,81 2
4 376005 (931,55) 411,18 484,57 3
5 501657 5 549,19 1332,80 441,14 4
6 811002 3 409,82 634,20 672,10 5
7 925007 3 393,87 736,48 906,16 6

Identification des valeurs aberrantes pour le client 262001

Le client 262001 présente 101 transactions dans la table Ar ; deux d'entre elles sont signalées comme étant des valeurs aberrantes car elles dépassent les limites des valeurs aberrantes correspondant à ce client-là :

Valeur aberrante Limite inférieure Limite supérieure Valeur aberrante
(2 044,82) (1 878,51) 2 756,13 3 567,34

Mode de calcul des limites des valeurs aberrantes pour le client 262001

Les limites des valeurs aberrantes correspondent à la moyenne de toutes les transactions du client 262001, plus ou moins le multiple spécifié de l'écart type des transactions :

Moyenne de toutes les transactions du client 262001 438,81
Multiple spécifié de l'écart type 3
Écart type des transactions 772,44

438,81 ± (3 * 772,44)

= 438,81 ± 2317,32

= (1878,51) (limite inférieure)

= 2756,13 (limite supérieure)

Utilisation de MEDIAN pour identifier les montants des transactions sortant de l'ordinaire pour chaque client

Vous utilisez MEDIAN, plutôt que AVERAGE, pour effectuer le même test de recherche de valeurs aberrantes que celui effectué dans l'exemple précédent.

OPEN Comptes_clients
OUTLIERS MEDIAN PKEY Num ON Montant NUMSTDEV 3 PRESORT TO "Valeurs_aberrantes_Comptabilité_Client_Médiane.fil" OPEN

Le test renvoie 10 valeurs aberrantes au lieu des 7 renvoyées lors du test précédent. Selon la nature des données, MEDIAN et AVERAGE peuvent renvoyer des résultats quelque peu différents :

  Numéro client (No) Montant de trans STDEV MEDIAN Numéro de groupe
1 065003 4 954,64 1015,58 663,68 1
2 262001 (2 044,82) 772,44 450,67 2
3 262001 3 567,34 772,44 450,67 2
4 376005 (931,55) 411,18 517,16 3
5 501657 4 426,14 1332,80 146,80 4
6 501657 5 549,19 1332,80 146,80 4
7 811002 3 409,82 634,20 624,53 5
8 925007 2 972,78 736,48 717,88 6
9 925007 3 030,71 736,48 717,88 6
10 925007 3 393,87 736,48 717,88 6

Mode de calcul des limites des valeurs aberrantes pour chaque client

Les limites des valeurs aberrantes correspondent à la valeur médiane des transactions de chaque client, plus ou moins le multiple spécifié de l'écart type des transactions.

Par exemple, pour le client 262001 : 450,67 ± (3 * 772,44)

Remarques

Remarque

Pour plus d'informations sur le fonctionnement de cette commande, consultez le Aide d'Analytics.

Ajouter des champs de limites de valeurs aberrantes à la table de résultats

Analytics ajoute automatiquement les champs calculés STDEV et AVERAGE ou MEDIAN à la table de résultats de valeurs aberrantes. Par ailleurs, vous trouverez peut-être utile d'ajouter deux champs calculés affichant les limites des valeurs aberrantes utilisées pour identifier les valeurs aberrantes dans la table de résultats.

  1. Ouvrez la table Résultats des valeurs aberrantes.
  2. Collez cette expression dans la ligne de commande Analytics, modifiez-la si besoin, et appuyez sur Entrée :
    DEFINE FIELD Limite_inférieure COMPUTED AVERAGE - (nombre_écarts_types * STDEV)
    • Pour nombre_écarts_types, substituez le multiple de l'écart type réel que vous avez utilisé.
    • Si vous avez utilisé la médiane au lieu de la moyenne comme point central, substituez MEDIAN à AVERAGE.
  3. Collez cette expression dans la ligne de commande Analytics, modifiez-la si besoin, et appuyez sur Entrée :
    DEFINE FIELD Limite_supérieure COMPUTED AVERAGE + (nombre_écarts_types * STDEV)
    • Pour nombre_écarts_types, substituez le multiple de l'écart type réel que vous avez utilisé.
    • Si vous avez utilisé la médiane au lieu de la moyenne comme point central, substituez MEDIAN à AVERAGE.
  4. Cliquez dans la vue avec le bouton droit de la souris et sélectionnez Ajouter des colonnes.
  5. Dans la liste Champs disponibles, double-cliquez sur Limite_inférieure et sur Limite_supérieure pour les ajouter à la liste Champs sélectionnés.
  6. Cliquez sur OK.
  7. Facultatif. Replacez les champs ajoutés en faisant glisser les en-têtes des colonnes.
Guide de création de scripts ACL 14.1