従来の変数サンプリング

従来の変数サンプリングは、以下を推定するための統計的サンプリング方法です。

取引の勘定またはクラスの合計監査済み金額
取引の勘定またはクラスの金額虚偽表示の合計金額

従来の変数サンプリングは、次の特性がある財務データで最も効果的に機能します。

通常量～大量の虚偽表示

たとえば、5% 以上の数の項目が虚偽表示である場合など。

過剰計上または過少計上が存在する。

0 ドルの科目が存在する。

ヒント

Analytics における従来の変数サンプリングのエンドツーエンドプロセスに関するクイックスタートガイドについては、従来の変数サンプリングのチュートリアルを参照してください。

メモ

従来の変数サンプリングは、財務データに使用できるだけでなく、数量や時間単位などの測定単位をはじめとする、可変特性を持つ任意の数値データに対して使用することができます。

機能の仕組み

従来の変数サンプリングでは、勘定のレコードの小さいサブセットを選択および分析し、その分析した結果に基づいて、勘定の合計監査金額と虚偽表示の合計金額を推定します。

推定金額は範囲として計算されます。

点推定値は範囲の中点です。
上限と下限は、範囲に含まれる 2 つの端点です。
点推定値と上限だけまたは下限だけを使って、片側推定または範囲を計算することもできます。

推定された範囲を、勘定の簿価、または重大と判断される虚偽表示金額と比較し、勘定に関する決定を行います。

従来の変数サンプリングでは、次のような表示がサポートされます。

勘定の真の監査金額が、勘定簿価 46,400,198.71 が含まれる 45,577,123.95 ～ 46,929,384.17 の間となる確率が 95% あります。このため、勘定の金額表示は公正であると見なされます。
勘定残高の虚偽表示額が– 813,074.76 ～ 539,185.46 となる確率が 95% あります。これは金額精度 ±928,003.97 の範囲を逸脱していません。このため、勘定の金額表示は公正であると見なされます。

従来の変数サンプリング処理の概要

注意

有効なサンプルサイズの計算をスキップしないでください。

すぐにレコードのサンプルを抽出し、サンプルサイズで推定する場合は、分析結果の推定が無効になる確率が高く、最終結果に欠陥が生じます。

従来の変数サンプリング処理には、以下の一般的な手順があります。

従来の変数サンプリングの準備（計画）
レコードのサンプルを描画する
サンプリングされたデータで意図した監査手順を実行します。
以下を評価します。
- 全体として勘定に対して推定されるときに、サンプリングされたデータの監査済み金額が記録された簿価の許容可能な範囲内に入るかどうか
- サンプリングされたデータの金額虚偽表示の観察されたレベルが全体として勘定で虚偽表示の許容可能な金額を表すかどうか

数値の長さ制限

従来の変数サンプリングの準備段階では、いくつかの内部計算が行われます。これらの計算では、最大 17 桁の数値がサポートされます。計算結果が 17 桁を超える場合には、その計算結果が出力に含まれなくなるため、サンプリング処理を続行できなくなります。

注意：17 桁未満のソースデータの数値から、17 桁を超える内部計算結果が生成される場合もあります。

各値は保持され、次の段階に移動すると入力されます。

従来の変数サンプリングに Analytics を使用する場合は、3 つの異なるダイアログボックスに情報を入力し、関連するコマンドを次の順に実行します。

［CVS 準備］ダイアログボックス
［CVS サンプル］ダイアログボックス
［CVS 評価］ダイアログボックス

この処理を進める過程で、1 つのダイアログボックスに入力した情報が次のダイアログボックスにあらかじめ入力されます。値があらかじめ入力されることで、手間が省かれるとともに、誤って不適切な値を入力してサンプルが無効とされるリスクを防ぐことができます。

重要な注意事項

あらかじめ入力された値の変更通常は、入力された値を変更しないでください。あらかじめ入力された値を変更すると、サンプリングプロセスの統計の有効性が否定される可能性があります。
注意
あらかじめ入力された値を更新するのは、変更の影響を理解するための統計に関する知識がある場合に限ります。
値の一時的保存［CVS サンプル］および［CVS 評価］ダイアログボックスに自動的に入力された値は、一時的に保存されるだけであり、Analytics プロジェクトを閉じれば削除されます。

ガイドライン

エンドツーエンド CVS プロセスをできるだけスムーズに行うため、次のガイドラインに従ってください。

CVS 準備段階から CVS サンプル段階に移動する際に、Analytics プロジェクトを閉じないでください。
ヒント
プロジェクトを閉じてしまった場合に、一時 CVS 値を復元することができます。それには、［CVS 準備］ダイアログボックスに必要な情報を再入力するか、ログに記録されている CVSPREPARE コマンドを再実行します。
省略可能。［CVS 準備］および［CVS サンプル］を実行した後で、コマンドをスクリプトに保存しておきます。それには、これらのコマンドを出力表示やログからコピーします。
また、CVS サンプル］の出力に含まれる CVSEVALUATE コマンドの準備バージョンをコピーすることもできます。
必要に応じて、スクリプトに含まれる 1 つまたは複数の CVS コマンドを再実行できます。実行したくないコマンドの前には「COMMENT」を入力しておきます。通常、CVSEVALUATE コマンドの準備バージョンは更新する必要があります。詳細については、従来の変数サンプリングの実行を参照してください。

階層化

従来の変数サンプリングでは、サンプルを抽出する前に、母集団のレコードを数値的に階層化することができます。

階層化のメリットは、必要なサンプルサイズが通常、大幅に小さくなるとともに、統計的有効性が維持されることです。サンプルサイズが小さくなるとは、目標を達成するのに必要なデータ分析作業が少なくなるということです。

機能の仕組み

詳しく表示

階層化とは、層と呼ばれるいくつかの小グループに母集団を分割することです。各層内の値は、比較的に同質であるのが理想です。

層間の境界は統計的アルゴリズム（ネイマン配分法）によって設定されます。このアルゴリズムでは、各層内の値の散布度が最小化されるように境界の位置が決定されるため、母分散を使用する効果が減少します。分散または '散らばり具合' が小さくなれば、必要なサンプルサイズも小さくて済みます。設計上、各層の範囲は均一ではありません。

必要なサンプル数は、階層化されていない母集団全体に対して計算されるのでなく、層別に計算されて合計されます。通常、非階層化アプローチより階層化アプローチの方が、データセットに対するサンプルサイズがはるかに小さくて済みます。

セルを使用した、階層化の前処理

階層化処理の一部として、母集団階層化の前処理に使用するセル数を指定します。セルは分割間隔が均等であり、層より幅が狭くなります。

統計的アルゴリズムでは、層間の最適な境界を割り当てる計算の一部として各層内のレコード数が使用されます。最終的に階層化された出力には、セルは保持されません。

指定するセルの数は、指定する層の数の 2 倍以上である必要があります。

メモ

階層化の前処理に使用するセル数と、セル方式のサンプル選択で使用するセル数は、同じものではありません。

過ぎたるは及ばざるがごとし

階層化はサンプルサイズを管理できる強力なツールですが、層数とセル数は慎重に指定してください。

手始めに以下を試してください。

層数：4 ～ 5
セル数：50

ある層数またはセル数より大きい値を指定すると、ほとんどあるいはまったくサンプルサイズに影響しなくなる値があります。ただし、これらの値も、大きなデータセットを階層化する場合には、サンプルの設計や Analytics のパフォーマンスに悪影響を及ぼす可能性があります。

サンプル設計については、評価ステージに入ったら、母集団全体の虚偽表示を高い信頼性で推定するために、各層に最低限の数の虚偽表示が含まれていることを確認する必要があります。虚偽表示数に比べて層数が多すぎる場合は、推定時に問題が発生する可能性があります。

確実性層

階層化で使用可能なもう 1 つのオプションとして、確実性層があります。

確実性層の使用には以下の 2 つのメリットがあります。

単独で重要な項目や高額項目は、自動的にサンプルに含まれるため、ランダム選択方法によって除外されるリスクがありません。
確実性層項目はサンプルサイズ計算の対象から除外されます。高額項目はその性質上、母分散（および、高額項目が計算対象になる場合は、必要なサンプルサイズ）の値を大幅に大きくする可能性があります。

確実性層の定義

確実性層を定義するには、カットオフ数値を指定します。カットオフ値以上のキーフィールドの簿価がすべて自動的に選択され、サンプルに取り込まれます。母集団の残りはランダム選択方法を使ってサンプリングされます。

メモ

確実性層のカットオフ値を小さくするほど、全体のサンプルサイズが大きくなります。

このため、確実性層のカットオフ値を不必要に小さくすることは避けてください。カットオフ値の設定値がわからない場合は、サンプリングのスペシャリストにお問い合わせください。

上位確実性層と下位確実性層

Analytics の確実性層オプションでは、上位確実性層のみを定義できます。カットオフ値以上のサンプル数が確実性層に含まれます。

また、自動的にサンプルに大量のマイナス金額が含まれるようにするとともに分散を小さくするために、下位確実性層が必要な場合もあるでしょう。

下位確実性層を作成するには、以下の方法のいずれかを使用します。

従来の変数サンプリング処理を開始する前に、フィルターを使って母集団から下カットオフ値以下であるすべての値を抽出します。
これらのレコードは、独立したテーブルに保存することも、母集団の残りのサンプルが含まれている出力テーブルに追加することもできます。
詳細については、データの抽出と追加を参照してください。
［CVS 準備］段階と［CVS サンプル］段階で下位確実性層項目をフィルターで除外する場合には、If 条件を使用してください。
注意
この方法は、それを使用しない場合よりリスクがあり、お勧めしません。その理由は、両方の段階と、後続でのこれらの段階の再実行時に忘れずに If 条件を適用する必要があるためです。

従来の変数サンプリングでレコードが選択される仕組み

従来の変数サンプリングでは、次の手順を使って、Analytics テーブルからサンプルレコードを選択します。

サンプリングの基準として数値フィールドを指定します。サンプリング単位はテーブル内のレコードです。
Analytics では、ランダム選択方法を使ってテーブル内のレコードからサンプルが選択されます。
階層化を使用する場合は、各層からほぼ等しい数のレコードがランダムに選択されます。
階層化を使用しない場合は、母集団全体からレコードがランダムに選択されます。
選択されたレコードは、サンプリング出力テーブルに含まれます。

例

300 レコードあるテーブルが、Analytics により、3 つの層に分割され、以下のレコード番号が選択されます。

層 1	層 2	層 3
9 13 40 52 78 91 99	104 119 132 144 153 186	211 229 236 248 278 295 296

300 レコードある階層化されていないテーブルから、Analytics により下記のレコード番号が選択されます。選択されたレコード番号が、階層化されているテーブルほど均一に分布していないことがわかります。

メモ

下記のレコード番号は比較しやすいように 3 つの列にグループ化してありますが、列が層を表しているわけではありません。

バイアスのないサンプルの選択

従来の変数サンプリングは、バイアスがかかっておらず、レコードに含まれる金額に基づいていません。サンプルの対象として選択される可能性はどのレコードについても等しくなります。金額を 1000 ドル含むレコード、250 ドル含むレコード、および 1 ドル含むレコードの選択されるチャンスは同等です。

つまり、指定したレコードが選択される確率は、そのレコードに含まれる金額とは無関係です。

[ トップに戻る ]

Analytics 14.1 ヘルプ