ソートとインデックス

並べ替えとインデックスの作成は、テーブル内のデータを順番どおりに並べるための 2 つの異なる方法です。一部の Analytics コマンドは、入力が最初に並べ替えるか、インデックスを付ける必要があります。データを順序付けることは、パターンと異常値に焦点を当て、それ自体が有用な分析操作として役立ちます。

操作 説明
並べ替え

テーブルを並べ替えると、物理的にデータを順番に整列し直して、その結果を新しい Analytics テーブルに出力します。

インデックス

インデックスは、元となるデータの物理的な順序に変更を加えません。その代わりに、テーブル内のレコードを参照する別個のインデックス ファイルを作成して、物理的な順序ではなく順番でレコードにアクセスできるようにします。ビュー内のデータは、インデックスがアクティブである間のみ、そのインデックスに従って並べ替えられます。

他の操作の前提条件としてのデータの並べ替え

コンピューターは先頭レコードから順にファイルを処理するため、データが順番どおりに並んでいることが、Analytics のいくつかの分析テストやその他の操作における前提条件となっています。結合や関連付けなどの、複数テーブルを用いる操作では、キー フィールドの並べ替えやインデックス付けを必要とすることがあります。

それ以外のテストや操作では順序付けられたデータを必要としないかもしれませんが、データが最初に並べ替えられたりインデックス付けされたりした場合は、より迅速に実行されます。

並べ替えまたはインデックス

並べ替えるかインデックスかの決定は、実行する特定のタスクによって異なる場合があります。例:

  • 並べ替えは、以降の分析の基準となる新しいテーブルを出力するため、調査作業にとってのより良い選択であるかもしれません。
  • インデックスは、アクティブなテーブル内のデータの異なる表現をすばやく切り替えることができるため、情報作業や準備作業にとってのより良い選択であるかもしれません。

並べ替えとインデックスの利点と問題点

次の表は、並べ替えとインデックスの利点と問題点を比較し、前提条件として並べ替えまたはインデックスが必要である処理を一覧で示します。

 

並べ替え

インデックス

物理的に別個の新規 Analytics テーブルに結果を出力する

はい

いいえ

データを物理的に並べ替える

はい

いいえ

操作の速度

遅い

速い

処理に必要なディスクの空き領域

多い

少ない

コマンド実行後のファイル サイズ

大きい

小さい

並べ替えられたファイルまたはインデックスが付いたファイルの後続の処理

速い

遅い

文字フィールドの検索

遅い

速い

前提条件

  • 結合

    (お勧めしますが、主テーブルでは強制ではありません)

  • マージ
  • Duplicates/重複
  • Gaps/ギャップ
  • 関係の定義

    (子テーブルのキー フィールドのインデックス付けは、Analytics によって自動的に実行されます)

  • 結合

    (副テーブルへのインデックスの適用は、コマンド ラインまたはスクリプト内のみで行うことができます)

  • マージ

    (副テーブルへのインデックスの適用は、コマンド ラインまたはスクリプト内のみで行うことができます)

  • Duplicates/重複
  • Gaps/ギャップ
  • Find/検索
  • [文字検索]検索オプション
  • Seek/検索
  • [式検索]検索オプション

[並べ替え順]オプションとソート順序

並べ替え順]オプション([ツール > オプション > テーブル])は、文字データのソート順序(照合順序)を指定します。選択したオプションは、文字フィールドを用いた、レコードの並べ替えやインデックス付け、または順番の検査を行うときに、どのソート順序を使用するかを定義します。

ソート順序

ソート順序は、Analytics が並べ替え、インデックスの作成、順番の検査、またはクイック ソートを実行するときに、文字フィールド内の各値の最初の文字または文字列と比較するテンプレートのようなものです。

以下の表は、デフォルトの Analytics ソート順序設定と関連付けられたソート順序を示します。

Analytics のエディション

[並べ替え順]のデフォルト

関連付けられているソート順序

非 Unicode

システム デフォルト

(ASCII)

  • 数字、大文字、小文字

    0, 1, 2...  A, B, C...  a, b, c...

    たとえば、"Z" は "a" の前にソートされます。

  • 特殊文字は、文字に応じて、シーケンス内の別のポイントで発生します。

  • 分音記号の付いた文字はシーケンスの最後に発生し、小文字の内部シーケンスの前に同じ大文字を使用します。

Unicode

混合言語(UCA)

(Unicode 照合アルゴリズム)

  • 数字、小文字と大文字の混合

    0, 1, 2...  a, A, b, B, c, C...

    たとえば、"a" は "Z" の前にソートされます。

  • 特殊文字は、数字の前に発生します。

  • 分音記号の付いた文字は、分音記号の付いていない文字と混合されます。

    例:e, E, é, É, f, F

並び替え順序を変更する

別の言語の方が分析しているデータとより一致する場合は、[並べ替え順]をその言語に変更することができます。また、Unicode 版の Analytics では、この変更をコマンドに基づき、コマンド ラインまたはスクリプトで ISOLOCALE パラメーターを使用することによって行うこともできます。

ソート順序の変更

非 Unicode 版の Analytics では、別の言語を選択したときに、[並べ替え順]テキスト ボックスで文字の並び順を変更することによって、関連付けられているソート順序を変更するオプションがあります。

また、独自のソート順序を作成するオプションもあります。[並べ替え順]フィールドで "カスタム" を選択してシーケンス(順序付け)を指定するか、あるいは、コマンド ラインまたはスクリプトで SET ORDER <TO> を入力してシーケンスを指定します。指定した文字は、その他すべての文字の前に、指定した順序で並べ替えられます。たとえば、値 aAbBcC... を入力して、小文字と大文字が混合されるように指定することができます。SET ORDER を指定すると、並べ替え順序をデフォルト設定に戻します。

バイト順序に基づくデフォルトのソート順序

個々の言語のデフォルトのソート順序は、その文字セット内の各文字のバイト順序から導出されます。文字セット内の文字のバイト順は、Windows の文字コード表で見ることができます。

Analytics 14.1 ヘルプ