Clustering von Daten

Durch Clustering werden Datensätze einer Tabelle auf Basis ähnlicher Werte in einem oder mehreren Schlüsselfeldern gruppiert. Ähnliche Werte sind Werte, die im Kontext des gesamten Datasets dicht aneinander liegen oder ähnlich sind. Diese ähnlichen Werte bilden Cluster, die nach ihrer Entdeckung Muster innerhalb der Daten zeigen.

Unterschied von Clustering gegenüber anderen Analytics-Gruppierungsbefehlen:

Das Clustering unterscheidet sich von anderen Analytics-Gruppierungsbefehlen wie folgt:

  • Für das Clustering ist keine Gruppierung auf Basis genauer Werte oder vordefinierter Schichten mit festen numerischen Begrenzungen nicht notwendig. Stattdessen werden Daten durch Clustering anhand ähnlicher numerischer Werte gruppiert, also Werte, die sich dicht aneinander befinden.
  • Clustering erfordert keine vorher bestehenden Datenkategorien.
  • Clustering auf Basis mehrerer Felder gibt Ergebnisse aus, die nicht verschachtelt (nicht hierarchisch) sind.

Funktionsweise des Clustering-Algorithmus

In Analytics wird Clustering durch den K-Means-Clustering-Algorithmus realisiert, der ein beliebter Algorithmus für maschinelles Lernen ist. Detaillierte Beschreibungen von K-Means-Clustering finden Sie im Internet.

Es folgt eine Zusammenfassung des Algorithmus.

Anzahl der Cluster wählen (K-Wert)

Um die optimale Anzahl von Clustern für ein Clustering von Daten herauszufinden, sind unter Umständen einige Tests und Experimente notwendig. Eine genaue Antwort gibt es für kein Dataset.

Auswahl der Felder für das Clustering

Clustering ermöglicht Ihnen, organische Datengruppierungen zu entdecken, die Ihnen möglicherweise zuvor nicht bekannt waren. Sie können Cluster auf Basis mehrerer numerischer Werte erstellen. In diesem Sinne ist Clustering eine Untersuchungsmethode und ein Beispiel für ein nicht überwachtes maschinelles Lernen.

Um die ausgegebenen Cluster zu verstehen, müssen Sie jedoch die Beziehung der Felder kennen, die Sie für das Clustering auswählen.

Kann ich Cluster für Zeichen- oder Datumzeit-Felder erstellen?

Im Allgemeinen können Sie für Zeichen- oder Datumzeit-Felder keine Cluster erstellen. Der Clustering-Algorithmus nimmt nur Zahlen entgegen und führt Berechnungen mit Zahlen durch (euklidischer Abstand, Mittelwert).

Bewertung der Ausgabe-Cluster

Der Clustering-Algorithmus gibt stets eine Tabelle mit der angegebenen Anzahl von Clustern aus. Jeder Datensatz in der Ausgabetabelle wird sich in einem Cluster befinden.

Sie müssen nun beurteilen, ob die Cluster eine analytische Bedeutung aufweisen. Dass der Algorithmus Datensätze in einem Cluster gruppiert, bedeutet nicht unbedingt, dass die Gruppierung wesentlich ist.

Dazu können Sie zwei Eigenschaften heranziehen, die Clusterkohärenz und die Clustergröße.

Tipp

Eine Darstellung der Cluster-Ausgabetabelle als Punktdiagramm in einem Berichterstellungstool mit einer unterschiedlichen Farbe pro Cluster ist die einfachste Möglichkeit, um die Ausgabe-Cluster rasch zu beurteilen.

Schritte

Einstellungen für den Clustering-Algorithmus festlegen

  1. Öffnen Sie die Tabelle mit den Daten, für die Sie Cluster erstellen möchten.
  2. Wählen Sie aus dem Analytics-Hauptmenü Maschinelles Lernen > Cluster.
  3. Unter Anzahl der Cluster (K-Wert) geben Sie die Anzahl der Cluster an, die für die Gruppierung der Daten verwendet werden sollen.
  4. In Maximale Anzahl Iterationen geben Sie eine Obergrenze für die Anzahl der Iterationen an, die der Clustering-Algorithmus durchführen soll.
  5. In Anzahl Initialisierungen legen Sie fest, wie oft eine erste Menge zufälliger Schwerpunkte erstellt werden soll.
  6. Optional. Wählen Sie Grundwert und geben Sie eine Zahl ein.

Methode zur Datenvorverarbeitung festlegen

In der Dropdown-Liste Vorverarbeitung wählen Sie die Methode zur Datenvorverarbeitung vor dem Clustering aus.

Standardisieren Schlüsselfeldwerte rund um null (0) zentrieren und Werte zur Berechnung der Cluster auf Einheitsvarianz skalieren
Skala an Varianz der Einheit anpassen Schlüsselfeldwerte zur Berechnung der Cluster auf Einheitsvarianz skalieren, aber Werte nicht rund um null (0) zentrieren
Keine Rohe Schlüsselfeldwerte zur Berechnung der Cluster ohne Skalierung verwenden

Felder auswählen

  1. Wählen Sie aus der Liste Cluster für ein oder mehrere Schlüsselfelder für das Clustering der Datensätze in der Tabelle aus.

    Schlüsselfelder müssen numerisch sein.

  2. Optional. Aus der Liste Andere Datenfelder wählen Sie ein oder mehrere zusätzliche Felder aus, die in die Ausgabetabelle aufgenommen werden sollen.

Tipp

Sie können mehrere, nicht angrenzende Felder auswählen, indem Sie die Steuerungstaste gedrückt halten und auf die betreffenden Felder klicken. Halten Sie die Umschalttaste gedrückt, und klicken Sie auf angrenzende Felder, um diese auszuwählen.

Befehlseingaben abschließen

  1. Falls Einträge in der aktuellen Ansicht vorhanden sind, die Sie von der Verarbeitung ausschließen wollen, dann tragen Sie eine Bedingung in das Textfeld Wenn ein oder klicken Sie auf Wenn, um mittels Ausdruck-Generator eine IF-Anweisung zu erstellen.

    Hinweis

    Die Wenn-Bedingung wird nur für Datensätze ausgewertet, die nach Anwendung von Bereichsoptionen (Erste, Nächste, Solange) in einer Tabelle übrig sind.

    Die IF-Anweisung berücksichtigt alle Datensätze in der Ansicht und filtert diejenigen heraus, die der angegebenen Bedingung nicht entsprechen.

  2. Geben Sie im Textfeld Nach den Namen der Ausgabetabelle ein.
  3. Optional. Auf der Registerkarte Weiter:
    1. Um festzulegen, dass lediglich eine Teilmenge der Datensätze verarbeitet wird, wählen Sie eine der Optionen unter Bereich aus.
    2. Wählen Sie die Option Ausgabetabelle verwenden, wenn die Ausgabetabelle automatisch geöffnet werden soll.
  4. Klicken Sie auf OK.
Hilfe für Analytics 14.1