Sortieren und Indizieren
Sortieren und Indizieren sind zwei unterschiedliche Methoden, um Daten in Tabellen sequenziell zu ordnen. Einige Analytics-Befehle setzen voraus, dass die Eingabe zuerst sortiert oder indiziert wird. Das Ordnen von Daten kann auch bereits für sich allein eine nützliche Analyse darstellen, weil dadurch Muster und Anomalien auffallen.
Operation | Beschreibung |
---|---|
Sortieren |
Durch Sortieren einer Tabelle werden Daten neu in sequenzieller Reihenfolge sortiert und die Ergebnisse in einer neuen Analytics-Tabelle ausgegeben. |
Indizieren |
Durch die Indizierung werden keine Änderungen an der zu Grunde liegenden physischen Reihenfolge der Daten vorgenommen. Stattdessen wird eine separate Indexdatei erstellt, die auf Datensätze in einer Tabelle verweist, und Zugriff auf die Datensätze in sequenzieller statt in physischer Reihenfolge ermöglicht. In einer Ansicht vorhandene Daten werden nur entsprechend einem Index neu sortiert, während der Index aktiv ist. |
Daten als Voraussetzung für andere Operationen anordnen
Da Dateien durch Computer nacheinander verarbeitet werden, beginnend mit dem ersten Datensatz, ist das sequenzielle Sortieren von Daten eine Voraussetzung für mehrere analytische Tests und sonstige Operationen in Analytics. Operationen mit mehreren Tabellen, z.B. Zusammenführungen oder Beziehungen, können sortierte oder indizierte Schlüsselfelder erfordern.
Andere Analytics-Tests und -Operationen erfordern möglicherweise keine geordneten Daten, werden jedoch erheblich schneller ausgeführt, wenn die Daten zunächst sortiert oder indiziert wurden.
Sollte ich sortieren oder indizieren?
Ob Sie sortieren oder indizieren sollten, hängt von der Arbeit ab, die Sie durchführen möchten. Beispiel:
- Sortieren Kann die bessere Wahl für Recherchearbeit sein, da hierbei eine neue Tabelle ausgegeben wird, die als Basis für die nachfolgende Analyse dienen kann.
- Indizieren Kann eine bessere Wahl für die vorläufige oder informative Arbeit darstellen, da Sie hierbei schnell zwischen verschiedenen Darstellungen der Daten in der aktiven Tabelle umschalten können.
Vor- und Nachteile der Sortierung und Indizierung
Die folgende Tabelle vergleicht die Vorteile und Nachteile des Sortierens und des Indizierens und listet Operationen auf, die entweder ein Sortieren oder ein Indizieren als Voraussetzung erfordern.
|
Sortieren |
Indizieren |
---|---|---|
Gibt Ergebnisse in eine neue physisch getrennte Analytics-Tabelle aus |
Ja |
Nein |
Sortiert Daten physisch neu |
Ja |
Nein |
Arbeitsgeschwindigkeit |
Langsamer |
Schneller |
Erforderlicher Speicherplatz für die Verarbeitung |
Mehr |
Weniger |
Resultierende Dateigröße |
Größer |
Kleiner |
Spätere Verarbeitung der sortierten oder indizierten Datei |
Schneller |
Langsamer |
Suchen nach Zeichenfeldern |
Langsamer |
Schneller |
Voraussetzung für |
|
|
Die Option „Sortierfolge“ und Sortierfolgen
Mit der Option Sortierfolge (Extras > Optionen > Tabelle) wird die Sortierfolge (Anordnung) für Zeichendaten angegeben. Die von Ihnen angegebene Option definiert, welche Sortierfolge beim Sortieren oder Indizieren von Datensätzen oder beim Testen der sequenziellen Reihenfolge mithilfe eines Zeichenfelds verwendet wird.
Was ist eine Sortierfolge?
Eine Sortierfolge fungiert wie eine Vorlage, anhand derer Analytics das erste Zeichen oder die Zeichen jedes Wertes in einem Zeichenfeld beim Sortieren, Indizieren, Prüfen der sequenziellen Reihenfolge oder beim Durchführen einer Schnellsortierung vergleicht.
Die folgende Tabelle zeigt die Standardeinstellungen des Dialogfelds Sortierfolge in Analytics und die zugehörige Sortierfolge.
Analytics-Edition |
Standard-Sortierfolge |
Verknüpfte Sortierfolge |
---|---|---|
Nicht-Unicode |
System Grundeinstellung (ASCII) |
|
Unicode |
Mehrere Sprachen (UCA) (Unicode-Kollationsalgorithmus) |
|
Sortierfolge ändern
Sie können die Sortierfolge in eine andere Sprache ändern, falls diese besser mit den zu analysierenden Daten übereinstimmt. In der Unicode-Edition von Analytics können Sie diese Änderung außerdem auf Befehlsebene vornehmen, indem Sie den ISOLOCALE-Parameter in der Befehlszeile oder in einem Skript verwenden.
Eine Sortierfolge verändern
In der Nicht-Unicode-Edition von Analytics haben Sie bei der Auswahl einer anderen Sprache die Möglichkeit, die verknüpfte Sortierfolge zu modifizieren, indem Sie die Reihenfolge der Zeichen im Textfeld Sortierfolge ändern.
Sie haben außerdem die Möglichkeit, eine benutzerdefinierte Sortierfolge zu erstellen, indem Sie entweder Benutzerdefiniert im Feld Sortierfolge auswählen und eine Reihenfolge festlegen, oder SET ORDER <TO> Werte in der Befehlszeile oder einem Skript eingeben und eine Reihenfolge festlegen. Alle von Ihnen angegebenen Zeichen werden vor allen anderen Zeichen und in der von Ihnen festgelegten Reihenfolge sortiert. Zum Beispiel könnten Sie angeben, dass Kleinbuchstaben und Großbuchstaben gemischt werden, indem Sie die Werte aAbBcC... eingeben. Durch die Angabe von SET ORDER wird die Sortierfolge auf die Standardeinstellung zurückgesetzt.
Standardsortierfolge auf Basis der Bytereihenfolge
Die Standardsortierfolge für einzelne Sprachen wird aus der Bytereihenfolge jedes Zeichens in seinem Zeichensatz abgeleitet. Sie können die Byte-Reihenfolge von Zeichen in Zeichensätzen mithilfe der Windows-Zeichentabelle anzeigen.