CVSPREPARE コマンド
母集団を階層化し、各層の統計的に有効なサンプル サイズを従来の変数サンプリングのために計算します。
構文
CVSPREPARE ON 簿価フィールド NUMSTRATA 数値 MINIMUM 層のサンプル サイズの最小値 PRECISION 値 CONFIDENCE 信頼度 <CUTOFF 値> <BCUTOFF 値> NCELLS 数値 PLIMIT {BOTH|UPPER|LOWER} ERRORLIMIT 数値 <IF テスト> <MINSAMPSIZE 最低サンプル サイズ> TO {SCREEN|ファイル名}
パラメーター
メモ
値を指定する際、3 桁の区切り記号やパーセント記号は含めないでください。
名前 | 説明 |
---|---|
ON 簿価フィールド | 従来の変数サンプルの準備の基準として使用する数値型の簿価フィールド。 |
NUMSTRATA 数値 |
簿価フィールドを数値的に階層化するために使用する層の数。 層の数は下限が 1、上限が 256 です。 NUMSTRATA 1 を指定しても CUTOFF を指定していない場合には、サンプルを抽出する前に母集団が階層化されなくなります。 メモ 層の数は NCELLS に対して指定されたセルの数 55% を超過できません。 |
MINIMUM 層サンプルの最低数 |
各層からサンプリングする最小レコード数。 最低数を指定する理由が特にない限り、デフォルト値ゼロ(0)を使用してください。 |
PRECISION 値 |
許容虚偽表示および勘定で想定される虚偽表示の間の差異である金額。
精度は勘定が公正に表示されていることの許容度の範囲を決定します。 精度を下げると、サンプル サイズを大きくする必要がある許容度の範囲(誤謬のマージン)が小さくなります。 |
CONFIDENCE 信頼度 |
必要な信頼度。この信頼度で、結果のサンプルが母集団全体を表します。 たとえば、95 を指定した場合は、サンプルが 実際に 95% の確率で母集団を代表しているとお客様が信頼したいということを意味します。 信頼度は "サンプリング リスク" の補数です。 信頼度が 95% ということはサンプリング リスクが 5% ということと同じです。
|
CUTOFF 値 省略可能 |
上位確実性層のカットオフ値。 カットオフ値以上の簿価フィールドの金額が自動的に選択され、サンプルに取り込まれます。 CUTOFF を指定しない場合は、簿価フィールドの最大金額に等しいデフォルトのカットオフ値が使用されるので、上位確実性層にはレコードが追加されなくなります。 |
BCUTOFF 値 省略可能 |
下位確実性層のカットオフ値。 カットオフ値以下の簿価フィールドの金額が自動的に選択され、サンプルに取り込まれます。 BCUTOFF を指定しない場合は、簿価フィールドの最大金額に等しいデフォルトのカットオフ値が使用されるので、上位確実性層にはレコードが追加されなくなります。 |
NCELLS 数値 |
簿価フィールドをあらかじめ階層化するために使用するセルの数。 セルの数は、層の数より分割可能な数が少なくなります。 階層化の前処理は、層の境界の位置を最適化する内部処理の一部です。 最終的に階層化された出力には、セルは保持されません。 セルの数は下限が 2、上限が 999 です。 メモ セル数は少なくとも層のNUMSTRATA 数の 2 倍である必要があります。 |
PLIMIT BOTH | UPPER | LOWER |
使用する精度制限のタイプ。
|
ERRORLIMIT 数値 |
サンプルで想定する最低誤謬数。 メモ サンプルを分析したときに見つかった実際の誤謬数が ERRORLIMIT に指定した数値より小さい場合は、使用可能な評価方法は平均推定のみです。 |
IF テスト 省略可能 |
各レコードを処理するために真である必要がある条件式。 コマンドは、その条件を満たすレコードに対してのみ実行されます。 注意 条件式を指定する場合、サンプル サイズの計算時とサンプルの抽出時とで、同じ条件式を使用する必要があります。 一方の段階で使用した条件を他方の段階で使用しない場合、つまり 2 つの条件が同一でない場合、サンプリング結果が通常、統計的に無効になります。 |
MINSAMPSIZE 最低サンプル サイズ 省略可能 |
母集団全体からサンプリングする最低レコード数。 最低数を指定する理由が特にない限り、デフォルト値ゼロ(0)を使用してください。 |
TO SCREEN | ファイル名 |
コマンドの結果を送信する場所:
|
Analytics の出力変数
名前 | 含む |
---|---|
CONFIDENCE | ユーザーが指定する信頼度。 |
ERRLIMIT | ユーザーが指定する最低誤謬数。 |
NSTRATA | ユーザーが指定する層の数。 |
PLIMIT | ユーザーが指定する精度限度のタイプ。 |
S_IF | ユーザーが指定する条件式 |
S_TOP | ユーザーが指定する上位確実性層カットオフ値。何も指定されていない場合は、コマンドで計算された上位層の上限境界。 |
SAMPLEFIELD | ユーザーが指定する簿価フィールド。 |
SBOTTOM | ユーザーが指定する下位確実性層カットオフ値。何も指定しない場合は、コマンドで計算された下位層の下限境界。 |
SBOUNDARY | コマンドで計算されたすべての層の上限境界。 上位確実性層や下位確実性層は指定しません。 |
SPOPULATION | 各層のレコード数のカウントと合計値。 上位確実性層や下位確実性層は指定しません。 |
SSAMPLE | コマンドによって計算された、各層のサンプル サイズ。 上位確実性層や下位確実性層は指定しません。 |
例
従来の変数サンプリングの準備
従来の変数サンプリングを使用して、請求書を含む勘定の金額虚偽表示の合計金額を推定することを決定しました。
サンプルを抽出する前に、母集団を階層化し、各層の統計的に有効なサンプル サイズを計算します。
Analytics によって抽出されるサンプルの 95% の時間が全体として母集団を表す信頼度が必要です。
指定された信頼度を使用して、以下の例は、invoice_amount フィールドを基準にしてテーブルを階層化し、上位確実性層と各層のサンプル サイズを計算します。
CVSPREPARE ON invoice_amount NUMSTRATA 5 MINIMUM 0 PRECISION 928003.97 CONFIDENCE 95.00 CUTOFF 35000 NCELLS 50 PLIMIT BOTH ERRORLIMIT 6 MINSAMPSIZE 0 TO SCREEN
備考
メモ
このコマンドの動作の詳細については、Analytics のヘルプを参照してください。
数値の長さ制限
従来の変数サンプリングの準備段階では、いくつかの内部計算が行われます。 これらの計算では、最大 17 桁の数値がサポートされます。 計算結果が 17 桁を超える場合には、その計算結果が出力に含まれなくなるため、サンプリング処理を続行できなくなります。
注意:17 桁未満のソース データの数値から、17 桁を超える内部計算結果が生成される場合もあります。