サンプルの選択方法
サンプルの選択方法は、サンプルに含めるレコードの選択に使用する特定の方法です。
レコード サンプリングと金額単位サンプリングについては、Analytics は 3 つのサンプル選択方法をサポートします。
- 固定間隔
- セル
- ランダム
従来の変数サンプリングについては、ランダム選択方法のみが可能です。
さサンプル選択方法とサンプリング タイプ
サンプル選択方法とサンプリング タイプの違いを理解することが重要です。
サンプリング タイプは母集団に関する推計に達するために使用される全体的な統計方法を指します。
サンプル選択方法は、サンプルに含める母集団からレコードを抽出する方法を指します。
サンプリングの種類 | 使用可能なサンプル選択方法 | 詳細 |
---|---|---|
レコード サンプリング |
|
サンプルに含まれるレコードが直接選択されます |
金額単位サンプリング |
|
サンプルに含まれるレコードは、選択した金額単位に対応するレコードです。 |
従来の変数サンプリング |
|
サンプルに含まれるレコードが直接選択されます |
固定間隔選択方法
固定間隔選択方法では、初期金額単位またはレコードが選択され、すべての後続の選択は固定間隔または離れた距離です。たとえば、初期選択の後のすべての 5000 番目の金額単位またはすべての 20 番目のレコードです。

固定間隔選択方法を使用するには、次の項目を指定します。
- サンプル サイズを生成するときに Analytics が生成する間隔値
- ゼロより大きく間隔値以下の開始数
開始数と間隔値は、サンプルに含まれるレコードを選択するために使用されます。
メモ
Analytics でランダムに開始番号を選択する場合は、開始番号 ‘0’ を入力するか、開始番号を空欄にします。
例
62 が Analytics によって生成された間隔で、開始数として 17 を選択した場合、次の金額単位またはレコード数が選択されます。
- 17
- 79 (17+62)
- 141 (79+62)
- 203 (141+62)
- など
各選択は同じ距離または離れた固定間隔です。
金額単位サンプリングでは、選択された実際のレコード数は、選択した金額単位に対応するレコード数です。詳細については、金額単位サンプリングによるレコードの選択方法を参照してください。
考慮事項
固定間隔選択方法を使用するときには、データのパターンに注意する必要があります。サンプルの抽出に固定間隔が使用されるため、データのパターンが、指定した間隔と一致するような場合には、結果のサンプルが代表的でない可能性があります。
たとえば、間隔 $10,000 を使用して費用をサンプリングし、同じ費用カテゴリがファイルに 1 万ドル間隔で表示されます。これは、単一の費用カテゴリから発生するすべての選択されたレコードになります。このような状況が起こることはまれですが、可能性があることに留意してください。
セル選択方法
セル選択方法では、データ セットが複数の均等なセルまたはグループに分割され、各セルから 1 つの金額単位または 1 つのレコードがランダムに選択されます。

セル選択方法を使用するには、次の項目を指定します。
- サンプル サイズを生成するときに Analytics が生成する間隔値
- Analytics で乱数ジェネレーターを初期化するために使用されるシード値。
各セルのサイズは間隔値によって指定します。乱数ジェネレーターは、各セルから選択される金額単位またはレコード数を指定します。
メモ
Analytics でランダムにシード値を選択する場合は、シード値 '0' を入力するか、シード値を空白のままにします。
例
Analytics によって生成される間隔が 62 の場合、1 つの金額単位または 1 つのレコード数が次のセルからランダムに選択されます。
- セル 1(1 ~ 62)
- セル 2(63 ~ 124)
- セル 3(125 ~ 186)
- など
各選択はランダムな離れた距離ですが、セル内に制約されます。
金額単位サンプリングでは、選択された実際のレコード数は、選択した金額単位に対応するレコード数です。詳細については、金額単位サンプリングによるレコードの選択方法を参照してください。
シード値
シード値を指定する場合、任意の数字を指定することができます。シード値がそれぞれ一意であると、異なる乱数一式になります。同じシード値を指定すると、同じ乱数一式が生成されます。特定のサンプル選択を複製したい場合は、シード値を明示的に指定し、これを保存します。
考慮事項
固定選択方法と比較したセル選択方法の主な利点は、データのパターンに関連する問題を回避できることです。
金額単位サンプリングでは、2 つの問題点があります。
- 金額は 2 つのセルの間の区切り点にまたがることができるため、2 回選択でき、固定間隔方法で生成されるサンプルよりも一貫性が低いサンプルになります。
- また、項目が大きくても最上層のカットオフ基準よりも小さい場合、抽出される可能性が若干減少してしまうことも示します。
ランダム選択方法
ランダム選択方法では、すべての金額単位またはレコードがデータセット全体から、または従来の変数サンプルを使用している場合は書く層からランダムに選択されます。

メモ
Analytics を使用して結果サンプルで検出された虚偽の表示を評価する場合は、金額単位サンプルでランダム選択方法を使用しないでください。金額単位サンプルの評価には、固定間隔またはセル選択方法を使用する必要があります。
乱数選択方法を使用するには、次の項目を指定します。
- Analytics によって計算されるサンプル サイズ。選択するサンプル数
- Analytics で乱数ジェネレーターを初期化するために使用されるシード値。
- 母集団サイズ。サンプル フィールドの絶対値またはデータセットのレコードの合計数
従来の変数サンプリングでは、サンプル サイズと母集団サイズは Analytics によって自動的に入力されます。
乱数ジェネレーターは、データセットから選択される金額単位またはレコード数を指定します。各選択は離れたランダム距離です。
メモ
Analytics でランダムにシード値を選択する場合は、シード値 '0' を入力するか、シード値を空白のままにします。
シード値
シード値を指定する場合、任意の数字を指定することができます。従来の変数サンプリングでは、シード値は 2,147,483,647 以下の正の数である必要があります。
シード値がそれぞれ一意であると、異なる乱数一式になります。同じシード値を指定すると、同じ乱数一式が生成されます。特定のサンプル選択を複製したい場合は、シード値を明示的に指定し、これを保存します。コマンド ログからシード値を取得することもできます。
考慮事項
大きい金額は金額単位サンプルから除外できます。
乱数選択方法では、各金額単位の選択の確率が等しくなり、結果のサンプルが均等に分布される保証はありません。結果として、選択した単位間の距離またはギャップが場合によっては大きくなることがあります。大きい金額に関連付けられたすべての金額単位がギャップに当たる場合、金額はサンプルに含まれません。また、乱数選択方法を使用するときに使用できる最上層のカットオフはありません。
固定間隔とセル選択方法では、選択した単位が均等に分散されるか、相対的に均等に分散されることが保証されます。最上層のカットオフを使用できます。
金額は複数回金額単位サンプルに含まれる場合があります。
Analytics は同じ乱数を 2 回生成しませんが、近いか連続する乱数が発生することがあります。
金額単位サンプリングでは、近いか連続する乱数が選択されている近いか連続する金額単位と等しくなり、関連付けられた金額が複数回選択されることがあります。
レコード サンプリングと従来の変数サンプリングでは、各乱数が別のレコードと等しいため、同じ問題は発生しません。
ランダム数アルゴリズム
レコード サンプリングと金額単位サンプリングでは、Analytics の乱数ジェネレーターには以下の 2 つのアルゴリズム オプションがあります。
- メルセンヌ・ツイスタ
- デフォルト Analytics アルゴリズム
メルセンヌ・ツイスタは、広く使用されている乱数アルゴリズムであり、デフォルトの Analytics アルゴリズムより優れた統計のプロパティを持っています。バージョン 12 より前の Analytics で作成された Analytics スクリプトまたはサンプリングの結果との後方互換性が必要な場合は、単純にデフォルトのアルゴリズムを使用してください。
従来の変数サンプリングでは、メルセンヌ・ツイスタは選択できず、デフォルトの Analytics アルゴリズムが使用されます。
レコード数フィールドの追加
レコード数フィールドを、サンプルを抽出している Analytics テーブルに追加すると便利な場合があります。サンプルを抽出した後、ソース テーブルから選択された特定のレコード数がサンプルを含む出力テーブルに表示されます。
メモ
従来の変数サンプリングを使用するときには、レコード番号フィールドが自動的に出力テーブルに含まれます。

- ソース テーブルで式
RECNO( )
を使用する演算フィールドを作成します。詳細については、条件付き演算フィールドを定義するを参照してください。.
- データをサンプリングするときには、レコードではなく、フィールドで出力します。
計算されたレコード数フィールドをソース テーブルからのレコード数を保持する物理フィールドに変換するには、フィールドで出力する必要があります。
- 指定する出力フィールドに計算されたレコード数フィールドを含めます。