Ausreißer identifizieren
Verwenden Sie die Ausreißerfunktion in Analytics, um Datensätze zu finden, die außerhalb des gewöhnlichen Bereichs liegen und daher möglicherweise Ihre Aufmerksamkeit erfordern.
Was sind Ausreißer?
Ausreißer sind Datensätze mit numerischen Beträgen, die sich wesentlich von den numerischen Beträgen der Datensätze unterscheiden, mit denen sie gruppiert sind.
Beispiel eines Ausreißers in einer Gruppe
In einer Verbindlichkeitendatei liegen die Rechnungen eines bestimmten Unternehmens normalerweise in einer Spanne zwischen 500 € und 1.000 €. Eine Rechnung beläuft sich jedoch auf 8.500 €.
Hinweis
Ein Datensatz kann aus guten Gründen ein Ausreißer sein. In der Regel müssen Sie die durch Analytics identifizierten Ausreißer zusätzlich untersuchen und feststellen, ob tatsächlich Probleme vorliegen.
Datensatzgruppierung ist optional
Wenn Sie eine Überprüfung auf Ausreißer durchführen, müssen Sie die Datensätze nicht gruppieren. Möglicherweise möchten Sie Ausreißer über eine gesamte Tabelle hinweg finden und nicht in spezifischen Gruppen suchen.
Beispiel für Ausreißer in einer gesamten Datensatzmenge
In einer Verbindlichkeitendatei liegen alle Rechnungen normalerweise in einer Spanne zwischen 40 € und 5.000 €. Drei Rechnungen sind jedoch größer als 20.000 €.
Wie werden Ausreißer identifiziert?
Für jede Datensatzgruppe oder für eine gesamte Datensatzmenge verwendet Analytics die Standardabweichung oder ein Vielfaches der Standardabweichung eines bestimmten numerischen Felds, um eine obere und eine untere Ausreißerbegrenzung festzulegen.
Jeder Datensatz mit einem Wert im numerischen Feld, der über der oberen Begrenzung oder unter der unteren Begrenzung liegt, ist ein Ausreißer und wird in die Ausgabeergebnisse aufgenommen.
Die Standardabweichung ist eine Maßzahl für die Streuung eines Datasets, also wie stark die Werte voneinander abweichen. Zur Berechnung von Ausreißern wird die Standardabweichung der Grundgesamtheit verwendet.
Ausreißer für eine Zahlenmenge identifizieren
Sie möchten in der folgenden Zahlenmenge Ausreißer identifizieren:
-3; -3; -1; 2; 3; 5; 6; 6; 8; 11
Der Mittelwert (Durchschnitt) der Zahlen beträgt 3,40. Der Mittelwert wird verwendet, um die Standardabweichung der Menge zu berechnen: 4,45
Mittelwert ± 1 Standardabweichung
Im ersten Beispiel verwenden Sie den Mittelwert ± 1 Standardabweichung, um die obere und untere Ausreißerbegrenzung festzulegen. Vier Werte werden als Ausreißer identifiziert.
Mittelwert ± 1,5 Standardabweichung
Im zweiten Beispiel verwenden Sie den Mittelwert ± 1,5 Standardabweichungen, um die obere und untere Ausreißerbegrenzung festzulegen. Jetzt wird lediglich ein Wert als Ausreißer identifiziert.
Positionierung der Ausreißerbegrenzungen
Sie können die Ausreißerbegrenzungen so positionieren, wie Sie es für angemessen halten, bzw. unterschiedliche Positionen testen und die Ergebnisse vergleichen.
Zur Positionierung der Begrenzungen geben Sie ein beliebiges positives Vielfaches der Standardabweichung in das Ausreißerfeld ein: 0,5; 1; 1,5 usw. Falls Sie beispielsweise ein Vielfaches von 1,5 eingeben, liegen die Ausreißerbegrenzungen 1,5 Standardabweichungen über und unter dem Mittelwert oder dem Median der Werte des Ausreißerfelds.
Wenn Sie für dieselbe Datenmenge das Vielfache der Standardabweichung erhöhen, verringern Sie potenziell die Anzahl der Ausreißer in den Ausgabeergebnissen.
Verteilung der Daten
Die Werte in einer numerischen Datenmenge sind normalerweise über einen Bereich der kleinsten bis zu den größten Werten verteilt. In einer Normalverteilung liegen die Werte gleichmäßig rund um den Mittelpunkt der Daten und bilden eine Glockenkurve. Der Mittelpunkt ist oft als der Durchschnitt oder der Mittelwert der Werte definiert, kann aber auch der Median oder der Modus sein.
Standardabweichung einer Normalverteilung
Wenn Sie die Standardabweichung für eine normalverteilte Wertemenge berechnen, liegen 68% der Werte ausgehend vom Mittelwert innerhalb einer Standardabweichung (±) und 99,7% der Werte innerhalb von drei Standardabweichungen (±). Nur sehr wenige Werte sind mehr als drei Standardabweichungen vom Mittelwert entfernt.
Die Verteilung der Werte in Datenmengen, die Sie mit Analytics analysieren, können oft eher verzerrt als normalverteilt sein. Beispielsweise ist es möglich, dass eine Transaktionsdatei viele Tausend relativ kleine Transaktionen enthält und nur einige wenige große Transaktionen. Wir können trotzdem eine Normalverteilung verwenden, um zu veranschaulichen, wie Ausreißerbegrenzungen in Analytics funktionieren.
Wie die folgenden Beispiele zeigen, nähern sich die oberen und unteren Ausreißerbegrenzungen dem Ende der Verteilungskurve an, wenn man das Vielfache der Standardabweichung vergrößert. Während sich die Begrenzungen auf das Ende zubewegen, befinden sich immer weniger Werte außerhalb der Begrenzungen.
Ausreißerbegrenzungen ± 2,5 Standardabweichungen vom Mittelwert
Werte, die mehr als +2,5 oder weniger als -2,5 Standardabweichungen vom Mittelwert entfernt sind, werden als Ausreißer in die Ausgabeergebnisse aufgenommen.
Ausreißerbegrenzungen ± 3 Standardabweichungen vom Mittelwert
Werte, die mehr als +3 oder weniger als -3 Standardabweichungen vom Mittelwert entfernt sind, werden als Ausreißer in die Ausgabeergebnisse aufgenommen.
Richtlinien
Wenn Sie innerhalb der Ausreißerfunktion Einstellungen festlegen, sollten Sie die Art der Daten berücksichtigen, die Sie analysieren:
Art der Daten | Richtlinie für die Einstellungen |
---|---|
Werte treten gehäuft auf und liegen in einer geringen Spanne | Verwenden Sie ein kleineres Vielfaches der Standardabweichung. Beginnen Sie mit dem Wert 1. Verwenden Sie für das Vielfache einen Dezimalwert, wie beispielsweise 1,25, um präzise Anpassungen vorzunehmen. |
Werte sind gestreut und liegen in einer großen Spanne | Verwenden Sie ein größeres Vielfaches der Standardabweichung. Beginnen Sie mit dem Wert 3. |
Die Daten sind verzerrt. Ein kleiner Prozentsatz der Werte ist groß bzw. klein, wenn man ihn mit dem Rest der Daten vergleicht. | Verwenden Sie als Methode zur Berechnung des Mittelpunkts der zu untersuchenden Werte den Median statt dem Durchschnitt. |
Anpassung auf Basis der Ausgabeergebnisse
- Zu viele Ergebnisse Erhöhen Sie das Vielfache der Standardabweichung.
- Zu wenig oder keine Ergebnisse Verringern Sie das Vielfache der Standardabweichung.
Beachten Sie, dass Sie für das Vielfache Dezimalzahlen und auch Werte unter 1 eingeben können. Zum Beispiel: 0,75
Schritte
- Öffnen Sie die Tabelle, die Sie auf Ausreißer testen möchten.
- Wählen Sie aus dem Analytics-Hauptmenü Analysieren > Ausreißer.
- Unter Methode wählen Sie die Methode zur Berechnung des Mittelpunkts der Werte im numerischen Feld aus, das Sie untersuchen:
- Durchschnitt
- Median
- Unter Anzahl Standardabweichungen geben Sie ein Vielfaches der Standardabweichung zur Berechnung der Ausreißerbegrenzungen an.
Sie können beliebige positive ganze Zahlen oder Dezimalzahlen angeben (0,5; 1; 1,5; 2...)
- Führen Sie einen der folgenden Schritte aus:
- Wählen Sie aus der Liste Primärschlüssel ein oder mehrere Schlüsselfelder zur Gruppierung der Datensätze in der Tabelle aus.
Tipp
Sie können mehrere, nicht angrenzende Felder auswählen, indem Sie die Steuerungstaste gedrückt halten und auf die betreffenden Felder klicken. Halten Sie die Umschalttaste gedrückt, und klicken Sie auf angrenzende Felder, um diese auszuwählen.
- Wählen Sie kein Schlüssel, um Ausreißer über die gesamte Tabelle hinweg zu finden und nicht nur in spezifischen Gruppen.
- Wählen Sie aus der Liste Primärschlüssel ein oder mehrere Schlüsselfelder zur Gruppierung der Datensätze in der Tabelle aus.
- Aus der Liste Für Feld wählen Sie das auf Ausreißer zu untersuchende numerische Feld (das „Ausreißerfeld“) aus.
- Optional. Aus der Liste Andere Datenfelder wählen Sie ein oder mehrere zusätzliche Felder aus, die in die Ausgabetabelle aufgenommen werden sollen.
Hinweis
Schlüsselfelder und das Ausreißerfeld werden automatisch in die Ausgabetabelle aufgenommen und müssen nicht ausgewählt werden.
-
Falls Einträge in der aktuellen Ansicht vorhanden sind, die Sie von der Verarbeitung ausschließen wollen, dann tragen Sie eine Bedingung in das Textfeld Wenn ein oder klicken Sie auf Wenn, um mittels Ausdruck-Generator eine IF-Anweisung zu erstellen.
Hinweis
Die Wenn-Bedingung wird nur für Datensätze ausgewertet, die nach Anwendung von Bereichsoptionen (Erste, Nächste, Solange) in einer Tabelle übrig sind.
Die IF-Anweisung berücksichtigt alle Datensätze in der Ansicht und filtert diejenigen heraus, die der angegebenen Bedingung nicht entsprechen.
- Führen Sie einen der folgenden Schritte aus:
- Geben Sie im Textfeld Nach den Namen der Ausgabetabelle ein.
- Wählen Sie Anzeige aus, um die Ergebnisse im Analytics-Anzeigebereich auszugeben.
- Falls angemessen, heben Sie die Auswahl von Vorsortieren auf.
Hinweis
Im Folgenden wird dies erläutert.
- Auf der Registerkarte Weiter:
- Optional. Um festzulegen, dass lediglich eine Teilmenge der Datensätze verarbeitet wird, wählen Sie eine der Optionen unter Bereich.
- Optional. Wählen Sie die Option Ausgabetabelle verwenden, wenn die Ausgabetabelle automatisch geöffnet werden soll.
- Klicken Sie auf OK.
Optionen im Dialogfeld „Ausreißer“
Die folgenden Tabellen enthalten detaillierte Informationen über die Optionen im Dialogfeld Ausreißer.
Registerkarte „Haupt“
Optionen – Dialogfeld „Ausreißer“ | Beschreibung | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
Durchschnitt Median |
Die zur Berechnung des Mittelpunkts der Werte im Ausreißerfeld verwendete Methode.
Der Mittelpunkt wird verwendet, um die Standardabweichung der Werte im Ausreißerfeld zu berechnen. Hinweis Wenn Sie Median auswählen, muss das Ausreißerfeld sortiert sein. Wählen Sie Vorsortieren, falls das Ausreißerfeld nicht schon sortiert ist. Tipp Wenn die Daten, die Sie auf Ausreißer untersuchen, stark verzerrt sind, könnte Median zu Ergebnissen führen, welche die Masse der Daten besser repräsentieren. |
||||||||||
Anzahl Standardabweichungen | Die Anzahl der Standardabweichungen im Ausreißerfeld, um welche die obere und obere Begrenzung von dem Mittelwert oder dem Median entfernt sind. Sie können beliebige positive ganze Zahlen oder Dezimalzahlen angeben (0,5; 1; 1,5; 2...) Wenn Sie beispielsweise 2 eingeben, legen Sie für jede Schlüsselfeldgruppe oder für das Feld insgesamt Folgendes fest:
Ein Wert des Ausreißerfelds, der über der oberen Begrenzung oder unter der unteren Begrenzung liegt, wird als Ausreißer in die Ausgabeergebnisse aufgenommen. Hinweis Wenn Sie für dieselbe Datenmenge die Anzahl der Standardabweichungen erhöhen, verringern Sie potenziell die Anzahl der Ausreißer in den Ausgabeergebnissen. |
||||||||||
Primärschlüssel Optional |
Das zur Gruppierung der Tabellendaten verwendete Feld bzw. die Felder. Für jede Schlüsselfeldgruppe wird eine Standardabweichung für die numerischen Werte der Gruppe im Ausreißerfeld berechnet. Die Standardabweichung der Gruppe ist die Basis für die Identifizierung von Ausreißern innerhalb der Gruppe. Unterstützt werden Schlüsselfelder vom Typ Zeichen, numerisch oder Datumzeit. Mehrere Felder können eine beliebige Kombination von Datentypen darstellen. Wenn Sie mehr als ein Feld auswählen, erstellen Sie verschachtelte Gruppen. Die Reihenfolge, in der Sie die Felder auswählen, bestimmt die Verschachtelung. Hinweis Die Schlüsselfelder müssen sortiert sein. Verwenden Sie Vorsortieren, falls ein oder mehrere Felder nicht bereits sortiert sind. |
||||||||||
Kein Schlüssel Optional |
Gruppieren Sie die Daten in der Tabelle nicht. Für das Ausreißerfeld insgesamt wird eine Standardabweichung berechnet. Die Standardabweichung des Felds ist die Basis für die Identifizierung von Ausreißern innerhalb des Felds. |
||||||||||
Für Feld (das „Ausreißerfeld“) |
Das auf Ausreißer zu untersuchende numerische Feld. Sie können jeweils nur ein Feld untersuchen. Wenn Sie ein Schlüsselfeld auswählen, werden Ausreißer auf Gruppenebene identifiziert. Wenn Sie Kein Schlüssel angeben, werden Ausreißer auf Feldebene identifiziert. |
||||||||||
Andere Datenfelder Optional |
Ein oder mehrere weitere Felder zum Einfügen in die Ausgabe. Hinweis Schlüsselfelder und das Ausreißerfeld werden automatisch in die Ausgabetabelle aufgenommen und müssen nicht ausgewählt werden. |
||||||||||
Wenn Optional |
Ermöglicht Ihnen, eine Bedingung zu erstellen, um Datensätze von der Verarbeitung auszuschließen. Sie können eine Bedingung in das Textfeld Wenn eintragen oder auf Wenn klicken, um mit dem Ausdruck-Generator eine IF-Anweisung zu erstellen. |
||||||||||
Nach Optional |
Gibt den Namen und den Speicherort der Ausgabetabelle an.
Unabhängig davon, wo Sie die Ausgabetabelle speichern, wird diese zum geöffneten Projekt hinzugefügt, falls sie nicht bereits im Projekt vorhanden ist. Falls Analytics einen Tabellennamen vorgibt, können Sie diesen akzeptieren oder ändern. |
||||||||||
Anzeige Optional |
Zeigt die Ergebnisse im Analytics-Anzeigebereich an, anstatt eine Ausgabetabelle zu erstellen. | ||||||||||
Vorsortieren Optional |
Führt eine Sortieroperation vor der Befehlsausführung aus.
Tipp Wenn die jeweiligen Felder bereits sortiert sind, können Sie Verarbeitungszeit sparen, indem Sie Vorsortieren nicht auswählen. |
Registerkarte „Weiter“
Optionen – Dialogfeld „Ausreißer“ | Beschreibung |
---|---|
Fensterbereich „Bereich“ | Legt fest, welche Datensätze verarbeitet werden:
Hinweis Die Anzahl der Datensätze, die mit den Optionen Erste oder Nächste festgelegt werden, beziehen sich entweder auf die physikalische oder die indizierte Reihenfolge der Einträge in einer Tabelle. Filter oder Schnellsortierung der Ansicht werden vernachlässigt. Bei Ergebnissen analytischer Operationen wird die vorhandene Filterung jedoch berücksichtigt. Wenn eine Schnellsortierung für die Ansicht angewandt wird, verhält sich die Option Nächste wie Erste. |
Ausgabetabelle verwenden | Legt fest, dass die Analytics-Tabelle mit Ausgabeergebnissen automatisch nach dem Abschluss der Operation geöffnet wird. |
OK | Führt die Operation aus. Falls die Aufforderung zum Überschreiben angezeigt wird, wählen Sie die entsprechende Option aus. |