样本选择方法
样本选择方法是用来选择样本中所含记录的特定方法。
对于记录抽样和货币单位抽样,Analytics 支持三种样本选择方法:
- 固定间隔
- 单元
- 随机
对于传统变量抽样,随机选择方法是唯一选择。
样本选择方法与抽样类型之比较
您有必要了解一下样本选择方法和抽样类型之间的区别。
抽样类型是指用来达到有关样本总体的估计的总体统计方法。
样本选择方法是指从总体中抽取记录以将其包括在样本中的方式。
抽样类型 | 可用的样本选择方法 | 详情 |
---|---|---|
记录抽样 |
|
样本中包含的记录被直接选择 |
货币单位抽样 |
|
样本中包含的记录是那些与选定的货币单位相对应的记录 |
传统变量抽样 |
|
样本中包含的记录被直接选择 |
固定间隔选择方法
对于固定间隔选择方法,首先选择一个初始货币单位或记录,所有后续选择都相距固定的间隔或距离 – 例如,在进行初始选择之后,选择往后数第 5000 个货币单位或者第 20 个记录,依此类推。

要使用固定间隔选择方法,您需要指定:
- Analytics 在您计算样本量时生成的间隔值
- 一个大于零且小于等于该间隔值的起始编号
起始编号和间隔值用于选择将哪些记录包含在样本中。
说明
如果您希望 Analytics 随机选择起始编号,您可以输入起始编号“0”,或者使起始编号保留为空。
示例
如果 62 是 Analytics 生成的间隔,并且您选择 17 作为起始编号,则选择以下货币单位或记录编号:
- 17
- 79 (17+62)
- 141 (79+62)
- 203 (141+62)
- 依此类推
每个选择都具有相同的距离或固定的间隔。
对于货币单位抽样,选定的实际记录编号是那些与选定的货币单位相对应的记录编号。有关详细信息,请参见货币单位抽样方法如何选择记录。
注意事项
当您使用固定间隔选择方法时,您需要对数据中的任何模式保持警惕。由于要使用固定间隔来选择样本,因此,如果数据的模式与您指定的间隔吻合,则可能生成不具有代表性的样本。
例如,您使用间隔 $10,000 对费用进行抽样,而同一个费用类别按照 $10,000 的间隔出现在文件中,则会造成所有选定记录都来自单个费用类别的结果。这种情况并不常见,但应该注意这有可能发生。
单元选择方法
对于单元选择方法,数据集被划分为多个相同大小的单元或组,并且从每个单元中随机选择一个货币单位或一个记录。

要使用单元选择方法,您需要指定:
- Analytics 在您计算样本量时生成的间隔值
- 一个用于在 Analytics 中初始化随机随机数生成器的种子值
该间隔值指示每个单元的大小。随机数生成器指定从每个单元中选择哪个货币单位或哪个记录编号。
说明
如果您希望 Analytics 随机选择种子值,您可以输入种子值“0”,或者使种子值保持为空。
示例
如果 62 是 Analytics 生成的间隔,则从下列单元中的每一个单元中随机选择一个货币单位或一个记录编号:
- 单元 1(1 到 62)
- 单元 2(63 到 124)
- 单元 3(125 到 186)
- 依此类推
每个选择是相隔随机的距离,但被限制在其单元内部。
对于货币单位抽样,选定的实际记录编号是那些与选定的货币单位相对应的记录编号。有关详细信息,请参见货币单位抽样方法如何选择记录。
种子值
如果您指定种子值,它可以是任何数字。每个唯一的种子值都会产生不同的随机数集。如果您重新指定相同的种子值,则会生成相同的随机数集。如果您想要重复特定的样本选择,请明确指定一个种子值,然后保存它。
注意事项
相对于固定间隔选择方法,单元选择方法的主要优势是它避免了与数据模式有关的问题。
对于货币单位抽样,存在两个缺点:
- 金额可能跨越两个单元之间的分界点,这意味着它们可能被选择两次,从而使所生成的样本的一致性低于固定间隔方法所生成的样本。
- 小于顶层截止值的较大金额获选的机会略有降低。
随机选择方法
使用随机选择方法时,将从整个数据集或者从每个层(如果您使用传统变量抽样)中随机选择所有货币单位或记录。

说明
如果您打算使用 Analytics 评估在生成的样本中检测到的任何错报,请不要对货币单位抽样使用随机选择方法。评估货币单位样本要求您使用固定间隔或单元选择方法。
要使用随机选择方法,您需要指定:
- 由 Analytics 计算的样本量 – 即,要选择的样本数量
- 一个用于在 Analytics 中初始化随机随机数生成器的种子值
- 总体规模 – 即,样本域的绝对值或数据集中的记录总数
对于传统变量抽样,样本量和总体规模可以由 Analytics 自动预先填充。
随机数生成器指定从数据集中选择哪些货币单位或哪些记录编号。每个选择都相隔随机的距离。
说明
如果您希望 Analytics 随机选择种子值,您可以输入种子值“0”,或者使种子值保持为空。
种子值
如果您指定种子值,它可以是任何数字。对于传统变量抽样,种子值必须是不大于 2,147,483,647 的正数。
每个唯一的种子值都会产生不同的随机数集。如果您重新指定相同的种子值,则会生成相同的随机数集。如果您想要重复特定的样本选择,请明确指定一个种子值,然后保存它。您还可以从命令日志中检索种子值。
注意事项
较大的金额可能被从货币单位样本中排除
对于随机选择方法,每个货币单位具有相等的获选机会,并且不能保证生成的样本将是均匀分布的。因此,在某些情况下,选定单位之间的距离或间隔可能很大。如果与一个较大金额相关联的所有货币单位都恰好落入某个间隔内,则该金额不会被包括在样本中。使用随机选择方法时,还不能使用顶层截止值。
对于固定间隔和单元选择方法,可以保证选定的单位均匀分布或者相对均匀分布。而且可以使用顶层截止值。
金额可能被包括在货币单位样本中一次以上
Analytics 不会两次生成相同的随机数,但是可能发生随机数接近或者连续的情况。
对于货币单位抽样,接近的或者连续随机数相当于选择了接近的或者连续的货币单位,继而可能导致相关联的金额被选择一次以上。
对于记录抽样和传统变量抽样,相同的问题不存在,因为每个随机数都相当于一个不同的记录。
随机数算法
对于记录抽样和货币单位抽样,Analytics 中的随机数生成器具有两个算法选项:
- 梅森旋转算法
- 默认 Analytics 算法
梅森旋转算法是一种广泛使用的随机数算法,它具有比默认 Analytics 算法更好的统计特性。如果您需要与在 Analytics 版本 12 之前创建的 Analytics 脚本或抽样结果保持向后兼容,请使用默认算法。
对于传统变量抽样,梅森旋转算法不可选择,只能使用默认 Analytics 算法。
添加记录编号域
您可能发现向您要从中抽取样本的 Analytics 表添加一个记录编号域很有用。抽取样本后,从源表中选择的特定记录编号将被显示在包含样本的输出表中。
说明
当您使用传统变量抽样时,记录编号域被自动包括在输出表中。