Sortieren und Indizieren

Sortieren und Indizieren sind zwei unterschiedliche Methoden, um Daten in Tabellen sequenziell zu ordnen. Einige Analytics-Befehle setzen voraus, dass die Eingabe zuerst sortiert oder indiziert wird. Das Ordnen von Daten kann auch bereits für sich allein eine nützliche Analyse darstellen, weil dadurch Muster und Anomalien auffallen.

Operation Beschreibung
Sortieren

Durch Sortieren einer Tabelle werden Daten neu in sequenzieller Reihenfolge sortiert und die Ergebnisse in einer neuen Analytics-Tabelle ausgegeben.

Indizieren

Durch die Indizierung werden keine Änderungen an der zu Grunde liegenden physischen Reihenfolge der Daten vorgenommen. Stattdessen wird eine separate Indexdatei erstellt, die auf Datensätze in einer Tabelle verweist, und Zugriff auf die Datensätze in sequenzieller statt in physischer Reihenfolge ermöglicht. In einer Ansicht vorhandene Daten werden nur entsprechend einem Index neu sortiert, während der Index aktiv ist.

Daten als Voraussetzung für andere Operationen anordnen

Da Dateien durch Computer nacheinander verarbeitet werden, beginnend mit dem ersten Datensatz, ist das sequenzielle Sortieren von Daten eine Voraussetzung für mehrere analytische Tests und sonstige Operationen in Analytics. Operationen mit mehreren Tabellen, z.B. Zusammenführungen oder Beziehungen, können sortierte oder indizierte Schlüsselfelder erfordern.

Andere Analytics-Tests und -Operationen erfordern möglicherweise keine geordneten Daten, werden jedoch erheblich schneller ausgeführt, wenn die Daten zunächst sortiert oder indiziert wurden.

Sollte ich sortieren oder indizieren?

Ob Sie sortieren oder indizieren sollten, hängt von der Arbeit ab, die Sie durchführen möchten. Beispiel:

  • Sortieren Kann die bessere Wahl für Recherchearbeit sein, da hierbei eine neue Tabelle ausgegeben wird, die als Basis für die nachfolgende Analyse dienen kann.
  • Indizieren Kann eine bessere Wahl für die vorläufige oder informative Arbeit darstellen, da Sie hierbei schnell zwischen verschiedenen Darstellungen der Daten in der aktiven Tabelle umschalten können.

Vor- und Nachteile der Sortierung und Indizierung

Die folgende Tabelle vergleicht die Vorteile und Nachteile des Sortierens und des Indizierens und listet Operationen auf, die entweder ein Sortieren oder ein Indizieren als Voraussetzung erfordern.

 

Sortieren

Indizieren

Gibt Ergebnisse in eine neue physisch getrennte Analytics-Tabelle aus

Ja

Nein

Sortiert Daten physisch neu

Ja

Nein

Arbeitsgeschwindigkeit

Langsamer

Schneller

Erforderlicher Speicherplatz für die Verarbeitung

Mehr

Weniger

Resultierende Dateigröße

Größer

Kleiner

Spätere Verarbeitung der sortierten oder indizierten Datei

Schneller

Langsamer

Suchen nach Zeichenfeldern

Langsamer

Schneller

Voraussetzung für

  • Zusammenführen

    (für die Primärtabelle empfohlen, aber nicht zwingend)

  • Mischen
  • Duplikate
  • Lücken
  • Beziehung definieren

    (Indizierung des Schlüsselfelds der untergeordneten Tabelle wird automatisch von Analytics durchgeführt)

  • Zusammenführen

    (die Sekundärtabelle kann nur von der Befehlszeile aus oder über ein Skript indiziert werden)

  • Mischen

    (die Sekundärtabelle kann nur von der Befehlszeile aus oder über ein Skript indiziert werden)

  • Duplikate
  • Lücken
  • Suchen
  • Suchoption "Literalsuche"
  • Suchen
  • Suchoption "Ausdruck suchen"

Die Option „Sortierfolge“ und Sortierfolgen

Mit der Option Sortierfolge (Extras > Optionen > Tabelle) wird die Sortierfolge (Anordnung) für Zeichendaten angegeben. Die von Ihnen angegebene Option definiert, welche Sortierfolge beim Sortieren oder Indizieren von Datensätzen oder beim Testen der sequenziellen Reihenfolge mithilfe eines Zeichenfelds verwendet wird.

Was ist eine Sortierfolge?

Eine Sortierfolge fungiert wie eine Vorlage, anhand derer Analytics das erste Zeichen oder die Zeichen jedes Wertes in einem Zeichenfeld beim Sortieren, Indizieren, Prüfen der sequenziellen Reihenfolge oder beim Durchführen einer Schnellsortierung vergleicht.

Die folgende Tabelle zeigt die Standardeinstellungen des Dialogfelds Sortierfolge in Analytics und die zugehörige Sortierfolge.

Analytics-Edition

Standard-Sortierfolge

Verknüpfte Sortierfolge

Nicht-Unicode

System Grundeinstellung

(ASCII)

  • Zahlen, anschließend Großbuchstaben, anschließend Kleinbuchstaben

    0, 1, 2... A, B, C... a, b, c...

    Beispiel: "Z" wird vor "a" sortiert.

  • Sonderzeichen treten abhängig vom Zeichen an verschiedenen Punkten in der Reichenfolge auf.

  • Zeichen mit diakritischen Symbolen treten am Ende der Reihenfolge auf und verwenden dieselbe interne Reihenfolge (Großbuchstaben vor Kleinbuchstaben).

Unicode

Mehrere Sprachen (UCA)

(Unicode-Kollationsalgorithmus)

  • Zahlen, anschließend gemischt Kleinbuchstaben und Großbuchstaben

    0, 1, 2... a, A, b, B, c, C...

    Beispiel: "a" wird vor "Z" sortiert.

  • Sonderzeichen stehen vor Zahlen.

  • Zeichen mit diakritischen Symbolen sind mit Zeichen ohne diakritische Symbole gemischt.

    Beispiel: e, E, é, É, f, F

Sortierfolge ändern

Sie können die Sortierfolge in eine andere Sprache ändern, falls diese besser mit den zu analysierenden Daten übereinstimmt. In der Unicode-Edition von Analytics können Sie diese Änderung außerdem auf Befehlsebene vornehmen, indem Sie den ISOLOCALE-Parameter in der Befehlszeile oder in einem Skript verwenden.

Eine Sortierfolge verändern

In der Nicht-Unicode-Edition von Analytics haben Sie bei der Auswahl einer anderen Sprache die Möglichkeit, die verknüpfte Sortierfolge zu modifizieren, indem Sie die Reihenfolge der Zeichen im Textfeld Sortierfolge ändern.

Sie haben außerdem die Möglichkeit, eine benutzerdefinierte Sortierfolge zu erstellen, indem Sie entweder Benutzerdefiniert im Feld Sortierfolge auswählen und eine Reihenfolge festlegen, oder SET ORDER <TO> Werte in der Befehlszeile oder einem Skript eingeben und eine Reihenfolge festlegen. Alle von Ihnen angegebenen Zeichen werden vor allen anderen Zeichen und in der von Ihnen festgelegten Reihenfolge sortiert. Zum Beispiel könnten Sie angeben, dass Kleinbuchstaben und Großbuchstaben gemischt werden, indem Sie die Werte aAbBcC... eingeben. Durch die Angabe von SET ORDER wird die Sortierfolge auf die Standardeinstellung zurückgesetzt.

Standardsortierfolge auf Basis der Bytereihenfolge

Die Standardsortierfolge für einzelne Sprachen wird aus der Bytereihenfolge jedes Zeichens in seinem Zeichensatz abgeleitet. Sie können die Byte-Reihenfolge von Zeichen in Zeichensätzen mithilfe der Windows-Zeichentabelle anzeigen.

Hilfe für Analytics 14.1