レコードサンプルのサンプルサイズを計算

データセットのサンプリングを実施する前に、統計的に適切なサンプル数と後続のサンプルおよび評価処理で必要な他の値を計算する必要があります。

Analytics のサンプルサイズの計算機能は、ユーザーが提供する入力値に基づき必要な値を計算します。

サンプルサイズを計算することの重要性

後続のサンプルの有効性を計るには、適切なサンプルサイズを計算することが重要になります。サンプルが有効でない、または代表を表してない場合は、全母集団に対してサンプルで実行する監査手続きの結果を信頼して予測することはできません。

サンプルサイズの計算を省略したり、サンプルサイズを推定しないでください。

サンプルサイズの計算に使用するほとんどの入力値は、専門的な判断に基づきます。運用環境でサンプリングの結果を信頼する前に、値が示す意味を十分理解するようにしてください。不明な点がある方は、監査サンプリング担当者、または監査サンプリングスペシャリストにお問い合わせください。

入力値がサンプルサイズに影響する方法

入力値は Analytics で計算されるサンプルサイズに影響します。［サイズ］ダイアログボックスの［計算］ボタンを使用すると、異なる入力値がサンプルサイズに影響する方法を実験できます。

以下の表は、サンプルサイズに対する入力値の影響をまとめています。

注意

本番環境では、サンプルサイズを小さくする目的だけで、入力値を操作しないでください。入力値は、サンプリングされるデータと監査目的に対して最も適切であるという専門的な判断に基づいているべきです。

この入力値を増やす：	サンプルサイズを小さくします	サンプルサイズを大きくします
信頼度
母集団	サンプルサイズには影響がありません
上限誤謬 (%)
想定誤謬率 (%)

手順

メモ

値を指定する際、3 桁の区切り記号やパーセント記号は含めないでください。これらの文字を使用すると、コマンドを実行できないか、エラーが発生します。

［サンプリング > レコード/金額単位サンプリング > サイズの計算］を選択します。

メモ

メニューオプションは、テーブルが開いていない場合は無効です。
［メイン］タブで、［レコード］を選択します。
サンプルサイズを計算するために使用する入力値を入力します。
- 信頼
- 母集団
- 上限誤謬 (%)
- 想定誤謬率 (%)
メモ
入力値は以下で詳細に説明します。
（省略可能）［計算］をクリックすると、出力結果のプレビューが表示されます。
ヒント
［OK］の代わりに［計算］をクリックすると、結果を出力する前に別の入力値で実験できます。
メモ
出力結果は以下で詳細に説明します。
［出力］タブ
1. ［To］パネルで、次のいずれかを選択します。
  - 画面 - Analytics の表示領域に結果を表示します
  - ファイルは結果をテキストファイルに保存または追加します
    ファイルは Analytics の外部に保存されます。
2. 出力タイプとして［ファイル］を選択した場合、次のいずれかを実行します。
  - ［名前］テキストボックスにファイル名を入力します。
  - ［名前］ボタンをクリックして、［保存］または［ファイルを保存する名前］ダイアログボックスでファイル名を入力するか、既存のファイルに上書きまたは追加する場合はそのファイルを選択します。
    Analytics によってファイル名があらかじめ設定されている場合は、その設定されている名前を受け入れることも、あるいは変更することもできます。
    また、絶対ファイルパスや相対ファイルパスを指定したり、別のフォルダーへ移動したり、プロジェクトの場所以外の場所にファイルを保存したり、その場所にあるファイルに追加したりすることもできます。たとえば、C:\Results\Output.txt または Results\Output.txt のように指定します。
  メモ
  ファイルタイプオプションは、使用している Analytics のエディションに応じて、ASCII テキストファイルまたは Unicode テキストファイルのいずれかのみです。
［OK］をクリックします。
上書きを確認するメッセージが表示されたら、適切なオプションを選択します。

サイズダイアログボックスの入力と結果

次の表は、［サイズ］ダイアログボックスの入力値と出力結果の詳細を示します。

メインタブ – 入力値

入力値 – サイズダイアログボックス	説明
信頼度	必要な信頼度。この信頼度で、結果のサンプルが母集団全体を表します。たとえば、95 を指定した場合は、サンプルが実際に 95% の確率で母集団を代表しているとお客様が信頼したいということを意味します。信頼度は "サンプリングリスク" の補数です。信頼度が 95% ということはサンプリングリスクが 5% ということと同じです。
母集団	サンプリングするデータセットのレコード数メモレコードサンプリングでは、母集団は結果のサンプルサイズに影響しません。たとえば、他の入力値が同じままである場合は、統計的に同じ有効なサンプルサイズは 150,000 または 1,000,000 レコードの母集団に対して計算されます。結果として得られる間隔値は、母集団のサイズに直接比例して大きくなります。
上限誤謬 (%)	発生し得るが、発生した場合でも統制が有効であると見なすことのできる、規定した統制からの逸脱率の上限です。たとえば、5 を指定するとは、逸脱率が 5% を超えたときに統制を無効と見なすことができるということです。
想定誤謬率 (%)	検出する規定の統制からの逸脱率。たとえば、1 を指定するとは、この逸脱率が 1% 以内であることを指定することです。メモ指定する推定誤謬率 (%) は上限誤謬 (%) より小さい必要があります。これらの相違が小さすぎる場合は、計算するには誤謬率が高すぎますというエラーメッセージが表示されます。監査サンプリング用語では、相違で代表されるサンプリングの精度の度合いは、指定した信頼度のレベルに対して計算するには小さすぎます。

メインタブ – 出力結果

出力結果 – サイズダイアログボックス	説明
サンプルサイズ	必要なサンプル数です。
間隔	間隔値–固定間隔とセルの選択方法に必要。
許容誤謬数	上限逸脱率 (%) を超えることなく結果から得られるサンプルで発生しうる誤謬または逸脱の最大数のことです。詳細については、許容誤謬数を参照してください。

出力結果 – サイズダイアログボックス

説明

サンプルサイズ

必要なサンプル数です。

間隔

間隔値–固定間隔とセルの選択方法に必要。

許容誤謬数

上限逸脱率 (%) を超えることなく結果から得られるサンプルで発生しうる誤謬または逸脱の最大数のことです。

詳細については、許容誤謬数を参照してください。

入力および結果の例

伝票テーブルのレコードサンプルのサイズの計算

次の図は、レコードサンプリングのサンプルサイズを計算するときの入力値と出力結果の例です。

テーブルには 5298 レコードあります。他の入力値に基づくと、必要なサンプルサイズは 593 レコードです。

計算は、Vouchers テーブルに基づきます。このテーブルは ACL_Rockwood.acl (ACL DATA\Sample Data Files\ACL_Rockwood\ACL_Rockwood.acl) にあります。

許容誤謬数

メモ

Analytics で評価機能を使用する予定がある場合は、最大許容汚染によって報告される値を使用する必要はありません。代わりに、評価機能で計算される上限誤謬頻度を使用します。詳細については、レコードサンプルの誤謬を評価するを参照してください。

許容誤謬数は、母集団の逸脱を評価する 1 つの方法です。

この方法を使用する場合は、サンプリングされたデータで監査手順を開始する前に、Analytics が報告したしきい値が事前に分かっています。手順の実行中に観察された累積誤謬が Analytics が報告した値を超える場合、規定された統制からの逸脱率が許容できないほど高いことがその時点で分かっています。

サンプリングされたデータで統制テストを実行した後、検出した誤謬または逸脱数を許容誤謬数と比較できます。観察されたエラー数が許容誤謬数以下の場合は、指定された信頼度レベルに対して統制が効果的であると見なすことができます。

Analytics によって生成されるサンプルサイズの統計上の有効性

Analytics は、ほとんどの分析に対して、統計上有効なサンプル数のサンプルを抽出できます。ただし、以下の状況は例外となる可能性があります。

1000 レコードより少ないデータセットのサンプリングを行なっている場合
組織内に、必要に応じて正確なサンプル数を定義できるサンプリングの専門家がいる場合
組織の方針により、ほかのサンプリングツールまたはサンプリング手法を使用する場合

ポワソン分布と二項分布

サンプル数を生成する際、一般的に使用される 2 つの方法は、ポワソン分布と二項分布です。Analytics では、ポワソン分布によりサンプル数が生成されます。

データセットの大きさが標準的な 1000 件以上のレコードである場合は、ポワソン分布および二項分布により生成されるサンプル数はほぼ同じになります。データセットが 1000 件未満のレコードである場合、ポワソン分布により決定されるサンプル数は二項分布により決定される数と比べてやや大きくなる傾向にあり、そのためより控えめになります。データセットが小さい場合、二項分布ではサンプル数が下方修正されるのに対し、ポワソン分布では下方修正されません。データセットが非常に小さい場合には、ポワソン分布により生成されるサンプル数が実際にデータセットのサイズを超過する場合があります。

Analytics でサンプル数を計算するときに、小さいデータセットのレコードサンプリングを行う場合は、サンプル数が必要以上に大きくなることがあります。このことは分析の障害にはなりません。これは、小さい母集団に対して手動でオーバーサンプリングを行う場合にはよくあることです。

[ トップに戻る ]

Analytics 14.1 ヘルプ

レコード サンプルのサンプル サイズを計算

サンプル サイズを計算することの重要性

入力値がサンプル サイズに影響する方法

手順

サイズ ダイアログ ボックスの入力と結果

メイン タブ – 入力値

メイン タブ – 出力結果

入力および結果の例

伝票テーブルのレコード サンプルのサイズの計算

許容誤謬数

Analytics によって生成されるサンプル サイズの統計上の有効性

ポワソン分布と二項分布

レコードサンプルのサンプルサイズを計算

サンプルサイズを計算することの重要性

入力値がサンプルサイズに影響する方法

サイズダイアログボックスの入力と結果

メインタブ – 入力値

メインタブ – 出力結果

伝票テーブルのレコードサンプルのサイズの計算

Analytics によって生成されるサンプルサイズの統計上の有効性