OUTLIERS-Befehl

Identifiziert statistische Ausreißer in einem numerischen Feld. Ausreißer können für das gesamte Feld identifiziert werden oder für unterschiedliche Gruppen, basierend auf identischen Werten in einem oder mehreren Zeichen-, Datumzeit-Schlüsselfeldern oder numerischen Schlüsselfeldern.

Syntax

OUTLIERS {AVERAGE|MEDIAN} {PKEY Schlüsselfeld <...n>|NOKEY} ON numerisches_Feld <OTHER Feld <...n>> NUMSTDEV Anzahl_Stdabweich <IF Test> <TO {SCREEN|Tabellenname}> <PRESORT> <WHILE Test> <FIRST Bereich|NEXT Bereich> <OPEN>

Hinweis

Sie können den Befehl OUTLIERS nicht lokal für eine Servertabelle ausführen.

Sie müssen den Befehlsname OUTLIERS vollständig ausschreiben. Eine Abkürzung ist nicht möglich.

Parameter

Name Beschreibung
AVERAGE | MEDIAN

Die Methode zur Berechnung des Mittelpunkts der Werte in numerisches_Feld (das Ausreißerfeld).

  • AVERAGE den Durchschnitt (Mittelwert) der Werte verwenden
  • MEDIAN den Median der Werte verwenden

Die Berechnung des Mittelpunkts erfolgt entweder für

  • das gesamte numerische Feld oder
  • die numerischen Werte jeder Schlüsselfeldgruppe

Später wird der Mittelpunkt verwendet, um die Standardabweichung des numerischen Felds oder jeder Gruppe zu berechnen.

Hinweis

Bei der Angabe von MEDIAN muss numerisches_Feld sortiert sein. Verwenden Sie PRESORT, falls numerisches_Feld nicht bereits sortiert ist.

Tipp

Wenn die Daten, die Sie auf Ausreißer untersuchen, stark verzerrt sind, könnte MEDIAN zu Ergebnissen führen, welche die Masse der Daten besser repräsentieren.

PKEY Schlüsselfeld <...n> | NOKEY

Wenn Sie PKEY angeben, werden Ausreißer auf Gruppenebene identifiziert. Wenn Sie NOKEY angeben, werden Ausreißer auf Feldebene identifiziert.

  • PKEY Schlüsselfeld Das zur Gruppierung der Tabellendaten verwendete Feld bzw. die Felder

    Unterstützt werden Schlüsselfelder vom Typ Zeichen, numerisch oder Datumzeit. Mehrere Felder müssen durch Leerzeichen getrennt werden und können unterschiedliche Datentypen aufweisen.

    Wenn Sie mehr als ein Feld festlegen, erstellen Sie verschachtelte Gruppen. Die Reihenfolge, in der Sie die Felder angeben, bestimmt die Verschachtelung.

    Für jede Schlüsselfeldgruppe wird eine Standardabweichung für die numerischen Werte der Gruppe in numerisches_Feld berechnet. Die Standardabweichung der Gruppe ist die Basis für die Identifizierung von Ausreißern innerhalb der Gruppe.

    Hinweis

    Die Schlüsselfelder müssen sortiert sein. Verwenden Sie PRESORT, falls ein oder mehrere Felder nicht bereits sortiert sind.

  • NOKEY die Daten in der Tabelle nicht gruppieren

    Für numerisches_Feld insgesamt wird eine Standardabweichung berechnet. Die Standardabweichung des Felds ist die Basis für die Identifizierung von Ausreißern innerhalb des Felds.

ON Numerisches_Feld

Das auf Ausreißer zu untersuchende numerische Feld. Sie können jeweils nur ein Feld untersuchen.

Ausreißer sind Werte, die außerhalb der oberen und unteren, durch die Standardabweichung des Felds oder der Gruppe bestimmten Begrenzungen liegen oder über einem festgelegten Vielfachen der Standardabweichung.

OTHER Feld <...n>

Optional

Ein oder mehrere weitere Felder zum Einfügen in die Ausgabe.

Hinweis

Schlüsselfelder und das Ausreißerfeld werden automatisch in die Ausgabetabelle aufgenommen und müssen nicht mit OTHER angegeben werden.

NUMSTDEV Anzahl_Stdabweich

Die Anzahl der Standardabweichungen in numerisches_Feld, um welche die obere und obere Begrenzung von dem Mittelwert oder dem Medium entfernt sind. Sie können beliebige positive ganze Zahlen oder Dezimalzahlen angeben (0,5; 1; 1,5; 2; ...)

Die Formel zur Erstellung von Ausreißerbegrenzungen lautet:

Mittelwert/Median ± (Anzahl_Stdabweich * Standardabweichung)

Hinweis

Die Standardabweichung ist eine Maßzahl für die Streuung eines Datasets, also wie stark die Werte voneinander abweichen. Zur Berechnung von Ausreißern wird die Standardabweichung der Grundgesamtheit verwendet.

Beispiel für Ausreißerbegrenzungen

NUMSTDEV 2

Legt für jedes numerische_Feld insgesamt oder für jede Schlüsselfeldgruppe Folgendes fest:

  • eine obere Ausreißerbegrenzung, die zwei Standardabweichungen über dem Mittelwert oder dem Median liegt

    Mittelwert/Median + (2 * Standardabweichung)

  • eine untere Ausreißerbegrenzung, die zwei Standardabweichungen unter dem Mittelwert oder dem Median liegt

    Mittelwert/Median – (2 * Standardabweichung)

Ein Wert, der über der oberen Begrenzung oder unter der unteren Begrenzung liegt, wird als Ausreißer in die Ausgabeergebnisse aufgenommen.

Hinweis

Wenn Sie für dieselbe Wertemenge den Wert in Anzahl_Stdabweich erhöhen, verringern Sie potenziell die Anzahl der zurückgegebenen Ausreißer.

IF Test

Optional

Ein bedingter Ausdruck, der wahr sein muss, damit ein Datensatz verarbeitet wird. Der Befehl wird nur für Datensätze ausgeführt, welche die Bedingung erfüllen.

Hinweis

Der IF-Parameter wird nur für Datensätze ausgewertet, die nach Anwendung von Bereichsparametern (WHILE, FIRST, NEXT) in einer Tabelle übrig sind.

TO SCREEN | Tabellenname

Optional

Der Ort, an den die Ergebnisse des Befehls gesendet werden sollen:

  • SCREEN Zeigt die Ergebnisse im Analytics-Anzeigebereich an.

    Tipp

    Sie können auf jeden verknüpften Ergebniswert im Anzeigebereich klicken, um einen Drill-Down auf die zugeordneten Datensätze innerhalb der Quelltabelle durchzuführen.

  • Tabellenname Speichert die Ergebnisse in einer Analytics-Tabelle.

    Geben Sie Tabellenname als in Anführungszeichen gesetzte Zeichenfolge mit der Dateierweiterung „.FIL“ an. Beispiel: TO "Ausgabe.FIL"

    Standardmäßig wird die Tabellendatendatei (.FIL) im Ordner mit dem Analytics-Projekt gespeichert.

    Verwenden Sie entweder einen absoluten oder relativen Dateipfad, um die Datendatei in einen anderen bestehenden Ordner zu speichern:

    • TO "C:\Ausgabe.FIL"
    • TO "Ergebnisse\Ausgabe.FIL"

    Hinweis

    Tabellennamen sind auf 64 alphanumerische Zeichen beschränkt, was die .FIL-Dateierweiterung nicht einbezieht. Der Name kann den Unterstrich beinhalten ( _ ), aber keine anderen Sonderzeichen oder Leerzeichen. Er kann nicht mit einer Ziffer beginnen.

PRESORT

Optional

Führt eine Sortieroperation vor der Befehlsausführung aus.

Wenn Sie PRESORT angeben und wird sortiert nach
PKEY, AVERAGE
  • Schlüsselfeldern
  • Schlüsselfeldern, dann nach numerisches_Feld (falls numerisches_Feld ein Kalkulationsfeld ist)

    Hinweis

    Das Sortieren von numerisches_Feld, falls dieses ein Kalkulationsfeld ist, stellt eine interne, technische Anforderung von Analytics dar.

PKEY, MEDIAN

Schlüsselfeldern, dann nach numerisches_Feld

NOKEY, AVERAGE

keine Sortierung

NOKEY, MEDIAN numerisches_Feld

Tipp

Wenn die jeweiligen Felder der Eingabetabelle bereits sortiert sind, können Sie Verarbeitungszeit sparen, indem Sie PRESORT nicht festlegen.

Hinweis

PRESORT kann nicht innerhalb des GROUP-Befehls verwendet werden.

WHILE Test

Optional

Ein bedingter Ausdruck, der wahr sein muss, damit ein Datensatz verarbeitet wird. Der Befehl wird ausgeführt, bis die Bedingung falsch ist oder das Tabellenende erreicht wurde.

Hinweis

Wenn Sie WHILE zusammen mit FIRST oder NEXT verwenden, endet die Datensatzverarbeitung, sobald eine Grenze erreicht wird.

FIRST Bereich | NEXT Bereich

Optional

Die Anzahl der zu verarbeitenden Datensätze:

  • FIRST Verarbeitung beim ersten Datensatz beginnen, bis die angegebene Datensatzanzahl erreicht wird
  • NEXT Verarbeitung beim aktuell ausgewählten Datensatz beginnen, bis die angegebene Datensatzanzahl erreicht wird

Verwenden Sie Bereich, um die Anzahl der zu verarbeitenden Datensätze anzugeben.

Wenn Sie FIRST und NEXT nicht angeben, werden standardmäßig alle Datensätze verarbeitet.

OPEN

Optional

Öffnet die durch den Befehl erstellte Tabelle, nachdem der Befehl ausgeführt wird. Nur gültig, wenn der Befehl eine Ausgabetabelle erstellt.

Beispiele

Ungewöhnliche Transaktionsbeträge identifizieren

Sie möchten ungewöhnliche Transaktionsbeträge in der gesamten Tabelle Forderungen in Beispielprojekt.acl identifizieren.

Sie entscheiden sich, die Ausreißerbegrenzungen auf die dreifache Standardabweichung des Felds Betrag festzulegen. Der Test gibt 16 Ausreißer in der Tabelle aus 772 Datensätzen zurück.

OPEN Forderungen
OUTLIERS AVERAGE NOKEY ON Betrag NUMSTDEV 3 PRESORT TO "Ausreißer_Forderungen.fil" OPEN

Sie wiederholen den Test, erhöhen den Faktor der Standardabweichung aber auf 3,5. Der Test gibt nun nur noch sechs Ausreißer zurück, da die Ausreißerbegrenzungen weiter von dem Mittelpunkt der Werte des Felds Betrag entfernt sind.

OPEN Forderungen
OUTLIERS AVERAGE NOKEY ON Betrag NUMSTDEV 3,5 PRESORT TO "Ausreißer_Forderungen.fil" OPEN

Ungewöhnliche Transaktionsbeträge für jeden Kunden identifizieren

Sie möchten ungewöhnliche Transaktionsbeträge für jeden Kunden in der Tabelle Forderungen in Beispielprojekt.acl identifizieren.

Sie entscheiden sich, die Ausreißerbegrenzungen auf die dreifache Standardabweichung der Transaktionsgruppe jedes Kunden festzulegen.

OPEN Forderungen
OUTLIERS AVERAGE PKEY Nr ON Betrag NUMSTDEV 3 PRESORT TO "Ausreißer_Kunde_Forderungen.fil" OPEN

Der Test gibt 7 Ausreißer zurück. Die Standardabweichung und der Durchschnitt werden für die Transaktionsgruppe jedes Kunden gemeldet:

  Kundennummer (Nr) Transaktionsbetrag STDEV AVERAGE Gruppennummer
1 065003 4.954,64 1015,58 833,83 1
2 262001 3.567,34 772,44 438,81 2
3 262001 -2.044,82 772,44 438,81 2
4 376005 -931,55 411,18 484,57 3
5 501657 5.549,19 1332,80 441,14 4
6 811002 3.409,82 634,20 672,10 5
7 925007 3.393,87 736,48 906,16 6

Wie Ausreißer für Kunde 262001 identifiziert werden

Kunde 262001 weist in der Tabelle Forderungen 101 Transaktionen auf. Zwei davon werden als Ausreißer gemeldet, weil sie die Ausreißerbegrenzungen dieses Kunden überschreiten:

Ausreißer Untere Begrenzung Obere Begrenzung Ausreißer
-2.044,82 -1.878,51 2.756,13 3.567,34

Wie Ausreißerbegrenzungen für Kunde 262001 berechnet werden

Die Ausreißerbegrenzungen sind der Durchschnitt aller Transaktionen des Kunden 262001 plus oder minus das angegebene Vielfache der Standardabweichung der Transaktionen:

Durchschnitt aller Transaktionen des Kunden 262001 438,81
Festgelegtes Vielfaches der Standardabweichung 3
Standardabweichung der Transaktionen 772,44

438,81 ± (3 * 772,44)

= 438,81 ± 2.317,32

= -1.878,51 (untere Begrenzung)

= 2.756,13 (obere Begrenzung)

Ungewöhnliche Transaktionsbeträge für jeden Kunden mit MEDIAN identifizieren

Sie verwenden nun MEDIAN statt AVERAGE, um denselben Ausreißertest wie im obigen Beispiel durchzuführen.

OPEN Forderungen
OUTLIERS MEDIAN PKEY Nr ON Betrag NUMSTDEV 3 PRESORT TO "Ausreißer_Kunde_Forderungen_Median.fil" OPEN

Der Test gibt 10 Ausreißer zurück statt der im vorigen Test gemeldeten 7 Ausreißer. Je nach Beschaffenheit der Daten können MEDIAN und AVERAGE etwas verschiedene Ergebnisse ausgeben:

  Kundennummer (Nr) Transaktionsbetrag STDEV MEDIAN Gruppennummer
1 065003 4.954,64 1015,58 663,68 1
2 262001 -2.044,82 772,44 450,67 2
3 262001 3.567,34 772,44 450,67 2
4 376005 -931,55 411,18 517,16 3
5 501657 4.426,14 1332,80 146,80 4
6 501657 5.549,19 1332,80 146,80 4
7 811002 3.409,82 634,20 624,53 5
8 925007 2.972,78 736,48 717,88 6
9 925007 3.030,71 736,48 717,88 6
10 925007 3.393,87 736,48 717,88 6

Wie Ausreißerbegrenzungen für jeden Kunden berechnet werden

Die Ausreißerbegrenzungen sind der Median aller Transaktionen des Kunden plus oder minus das angegebene Vielfache der Standardabweichung der Transaktionen.

Zum Beispiel bei Kunde 262001: 450,67 ± (3 * 772,44)

Bemerkungen

Hinweis

Weitere Informationen über die Funktion dieses Befehls finden Sie in Hilfe für Analytics.

Ausreißerbegrenzungsfelder der Ergebnistabelle hinzufügen

Analytics fügt die Kalkulationsfelder STDEV und AVERAGE oder MEDIAN automatisch der Ausreißerergebnistabelle hinzu. Möglicherweise möchten Sie zwei Kalkulationsfelder hinzufügen, welche die zur Identifizierung der Ausreißer innerhalb der Ergebnistabelle verwendeten Ausreißerbegrenzungen anzeigen.

  1. Öffnen Sie die Ausreißerergebnistabelle.
  2. Fügen Sie diesen Ausdruck in die Analytics-Befehlszeile ein, passen Sie ihn nach Bedarf an, und drücken Sie die Eingabetaste:
    DEFINE FIELD untere_Begrenzung COMPUTED AVERAGE - (Anzahl_Stdabweich * STDEV)
    • Für Anzahl_Stdabweich geben Sie das tatsächlich verwendete Vielfache der Standardabweichung ein.
    • Wenn Sie als Mittelpunkt den Median statt den Durchschnitt verwendet haben, ersetzen Sie AVERAGE durch MEDIAN.
  3. Fügen Sie diesen Ausdruck in die Analytics-Befehlszeile ein, passen Sie ihn nach Bedarf an, und drücken Sie die Eingabetaste:
    DEFINE FIELD obere_Begrenzung COMPUTED AVERAGE - (Anzahl_Stdabweich * STDEV)
    • Für Anzahl_Stdabweich geben Sie das tatsächlich verwendete Vielfache der Standardabweichung ein.
    • Wenn Sie als Mittelpunkt den Median statt den Durchschnitt verwendet haben, ersetzen Sie AVERAGE durch MEDIAN.
  4. Klicken Sie mit der rechten Maustaste auf die Ansicht, und wählen Sie Spalten hinzufügen.
  5. Doppelklicken Sie in der Liste Verfügbare Datenfelder auf untere_Begrenzung und obere_Begrenzung, um sie zur Liste Gewählte Datenfelder hinzuzufügen.
  6. Klicken Sie auf OK.
  7. Optional. Ändern Sie die Position der hinzugefügten Felder, indem Sie die Spaltenköpfe ziehen.