计算记录样本的样本量
在对数据集进行抽样之前,您必须计算在统计学意义上适当的样本量和后续抽样和评估操作所需的其他值。
Analytics 中的计算样本量功能可根据您提供的输入值计算所需的值。
计算样本量的重要性
计算适当的样本量对于后续样本的有效性而言至关重要。如果样本无效或者不具有代表性,则您无法将对样本执行的审计程序的结果可靠地推断至整个总体。
请勿跳过计算样本量的流程,或者猜测样本量。
您用来计算样本量的大多数输入值都基于您的职业判断。在生产环境中依赖抽样结果之前,请确保您完全了解这些值的含义。如有疑问,请咨询审计抽样资源或审计抽样专家。
输入值如何影响样本量
输入值影响 Analytics 所计算的样本量。您可以使用大小对话框中的计算按钮试验不同的输入值如何影响样本量。
下表总结了输入值对样本量的影响。
注意
在生产环境中,请不要单独操纵输入值以取得较小的样本量。输入值应该基于您的关于什么样的输入值对所抽样的数据最适当的职业判断以及您的审计目标。
增加此输入值: | 减小样本量 | 增加样本量 |
---|---|---|
置信度 |
|
|
总体 | 对样本量无影响 | |
错误上限 (%) |
|
|
预期错误率 (%) |
|
步骤
说明
指定值时,不要包括千位分隔符或百分号。这些字符会阻碍该命令运行,或者导致错误。
-
选择抽样 > 记录/货币单位抽样 > 计算样本量
说明
如果表未打开,则该菜单选项被禁用。
- 在主要选项卡上,选择记录。
- 输入用于计算样本量的输入值:
- 置信度
- 总体
- 错误上限 (%)
- 预期错误率 (%)
说明
下面详细解释了输入值。
- (可选)单击计算查看输出结果的预览。
提示
单击计算而不是确定使您可以在输出结果之前试验不同的输入值。
说明
下面详细解释了输出结果。
- 在输出选项卡上:
- 在到面板中,选择下列选项之一:
- 屏幕在 Analytics 显示区域中显示结果
- 文件 将结果保存或附加到文本文件
该文件被保存到 Analytics 的外部。
- 如果您选择了文件作为输出类型,请执行以下操作之一:
- 在名称文本框中输入文件名称。
- 单击 名称并输入一个文件名,或者在保存或文件另存为对话框中选择一个现有的文件以覆盖或附加到该文件。
如果 Analytics 预填充文件名,您可以接受预填充的名称,也可以更改它。
您还可以指定一个绝对或相对路径,或导航到一个不同的文件夹,将文件保存或附加到与项目位置不同的位置。例如:C:\结果\输出.txt 或结果\输出.txt。
说明
ASCII 文本文件或 Unicode 文本文件(具体取决于您所使用的 Analytics 的版本)是文件类型的仅有选项。
- 在到面板中,选择下列选项之一:
- 单击确定。
- 如果覆盖提示出现,请选择合适的选项。
样本量对话框输入和结果
下表提供了有关样本量对话框中的输入值和输出结果的详细信息。
“主要”选项卡 – 输入值
输入值 – 样本量对话框 |
描述 |
---|---|
置信度 |
表明生成的样本代表整个总体所需的置信水平。 例如,输入 95 意味着您想要确信样本实际具有代表性的概率为 95%。置信度与“抽样风险”互补。95% 的置信水平等价于 5% 的抽样风险。 |
总体 |
您要抽样的数据集中的记录数。 说明 在记录抽样中,总体规模不影响生成的样本量。例如,如果其他输入值保持相同,则对于包含 150,000 个记录或 1,000,000 个记录的总体,将计算得到相同的在统计学意义上有效的样本量。 生成的间隔值不会随着总体规模的增加而增加。 |
错误上限 (%) |
预定控制中可以发生并且您仍然将该控制视为有效的最大偏差率。 例如,输入 5 意味着偏差率必须大于 5% 您才能将该控制视为无效。 |
预期错误率 (%) |
您预期发现的预定控制偏差率。 例如,输入 1 意味着您预期偏差率是 1%。 说明 您指定的预期误差率 (%) 必须小于误差上限 (%)。如果它们之间的差太小,则会显示错误消息误差率太高,无法计算。 用审计抽样术语来表达,抽样精度表示通过差异是太小型要是计算对于置信水平您指定的。 |
主要选项卡 – 输出结果
输出结果 – 样本量对话框 |
描述 |
---|---|
样本大小 | 所需的样本大小。 |
间隔 | 间隔值 – 固定间隔和单元选择方法所必需。 |
可容忍错误数 |
生成的样本中可以发生而不会超过误差上限 (%) 的最大误差数或最大偏差数。 要了解更多信息,请参考可容忍错误数。 |
输入和结果示例
计算 Vouchers 表的记录样本的样本量
下图提供了一个在为记录抽样计算样本量时的输入值和输出结果示例。
该表包含 5298 个记录。基于其他输入值,所需的样本量是 593 个记录。
该计算基于 ACL_Rockwood.acl (ACL DATA\Sample Data Files\ACL_Rockwood\ACL_Rockwood.acl) 中的 Vouchers 表。
可容忍错误数
说明
如果您打算使用 Analytics 中的评估功能,则不需要使用可容忍误差数所报告的值。相反,您应该使用由评估功能计算的误差频率上限。要了解更多信息,请参考评估记录样本中的误差。
可容忍误差数提供了一种评估总体中的偏差的方式。
如果您使用此方法,则您在开始对抽样数据执行审计程序之前就已经事先知道 Analytics 所报告的阈值。如果您在执行审计程序的过程中观察到的累积误差超过了 Analytics 所报告的值,则您此时可以知道预定控制的偏差率因太高而不可接受。
在对抽样数据执行控制测试之后,您可以将所发现的误差数或偏差数与可容忍误差数进行比较。如果观察到的误差数小于或者等于可容忍误差数,您可以认为,对于指定的置信水平,该控制是有效的。
Analytics 生成的样本量的统计有效性
对于大多数分析而言,Analytics 可生成在统计上有效的样本量。可能会在下列情形中应用异常处理:
- 您要对所含记录数小于 1000 的数据集进行抽样。
- 公司内部有抽样专家,他们能够按照需要精确地定义样本大小。
- 公司已要求采用其他抽样工具或方法。
泊松分布与二项式分布
两种常用的生成抽样量的方法是泊松分布和二项式分布。Analytics 使用泊松分布生成样本量。
对于包含一千或更多个记录的典型数据集,泊松分布和二项式分布所生成的样本量几乎相等。对于小于一千个记录的总体,用泊松分布确定的样本量通常比用二项式分布确定的样本量稍大一些,因此也更保守一些。对于较小的总体,二项式分布会下调样本量,而泊松分布则不会这样。对于非常小的总体,泊松分布所生成的样本量实际上可以超过总体规模。
当在 Analytics 中计算样本大小时,应当清楚对于小数据集的记录抽样来说,样本大小可能比所需要的大一些。这一较大的样本量不会妨碍分析过程,因为对较小总体手动进行过抽样是一种常见的做法。