CVSPREPARE 命令
概念信息
对总体进行分层,并且为每个层计算一个在统计学意义上有效的样本量,以进行传统变量抽样。
语法
CVSPREPARE ON 账面价值域 NUMSTRATA 数字 MINIMUM 最小层样本量 PRECISION 值 CONFIDENCE 置信水平 <CUTOFF 值> <BCUTOFF 值> NCELLS 数字 PLIMIT {BOTH|UPPER|LOWER} ERRORLIMIT 数字 <IF 测试> <MINSAMPSIZE 最小样本量> TO {SCREEN|文件名}
参数
说明
指定值时,不要包括千位分隔符或百分号。
名称 | 描述 |
---|---|
ON 账面价值域 | 要用作准备传统变量样本的基础的数值账面价值域。 |
NUMSTRATA 数量 |
要用来在数值上对账面价值域进行分层的层数。 最小层数是 1,最大层数是 256。 如果您指定 NUMSTRATA 1,但不指定 CUTOFF,则在抽取样本之前,总体会被取消分层。 说明 层数不能超过为 NCELLS 指定的单元数的 50%。 |
MINIMUM 最小层样本量 |
要从每个层抽取的最小记录数。 如果您没有指定最小数字的具体理由,请保留默认值零 (0)。 |
PRECISION 值 |
账户中的可容忍错报和预期错报之间的货币金额差异。
该精度确立了要将账户视为被适当报告的可接受性范围。 减小该精度会缩小可接受性的范围(误差幅度),而这需要增加样本量。 |
CONFIDENCE 置信度级别 |
表明生成的样本代表整个总体所需的置信水平。 例如,指定 95 意味着您想要确信样本实际具有代表性的概率为 95%。置信度与“抽样风险”互补。95% 的置信水平等价于 5% 的抽样风险。
|
CUTOFF 值 可选 |
一个最高确定性层截止值。 账面价值域中大于或者等于该截止值的金额会被自动选择并包括在样本中。 如果您省略 CUTOFF,则会使用与账面价值域中的最大金额相等的默认截止值,并且不会将任何记录包括在最高确定性层中。 |
BCUTOFF 值 可选 |
一个最低确定性层截止值。 账面价值域中小于或者等于截止值的金额会被自动选择并包括在样本中。 如果您省略 BCUTOFF,则会使用与账面价值域中的最小金额相等的默认截止值,并且不会将任何记录包括在最低确定性层中。 |
NCELLS 数字 |
要用来对账面价值域进行预分层的单元数。 单元是比层更窄的数值部分。预分层是对层边界的位置进行优化的内部流程的一部分。单元不会被保留在最终的分层输出中。 最小单元数是 2,最大单元数是 999。 说明 单元数必须最小是为 NUMSTRATA 指定的层数的两倍 (2 x)。 |
PLIMIT BOTH | UPPER | LOWER |
要使用的精度限值的类型。
|
ERRORLIMIT 数字 |
您预期样本中含有的最小误差数。 说明 如果您在分析样本时发现的实际误差数量小于 ERRORLIMIT 数字,则唯一可用的评估方法是单位平均估计。 |
IF 测试 可选 |
一个条件表达式,它必须为真以便处理每个记录。仅对满足条件的那些记录执行该命令。 注意 如果您指定一个条件表达式,则必须在计算样本量和抽取样本的过程中使用相同的条件表达式。 如果您在一个阶段使用条件而未在另一个阶段使用,或者如果两个条件不相同,则抽样结果将很可能在统计意义上无效。 |
MINSAMPSIZE 最小样本量 可选 |
要从整个总体中抽取的最小记录数。 如果您没有指定最小数字的具体理由,请保留默认值零 (0)。 |
TO SCREEN | 文件名 |
要将命令结果发送到的位置:
|
Analytics 输出变量
名称 | 包含 |
---|---|
CONFIDENCE | 由用户指定的置信水平。 |
ERRLIMIT | 由用户指定的最小误差数。 |
NSTRATA | 由用户指定的层数。 |
PLIMIT | 由用户指定的精度限值类型。 |
S_IF | 一个由用户指定的条件表达式 |
S_TOP | 由用户指定的最高确定性层截止值,或者如果未指定,则存储由该命令计算的顶层上边界值。 |
SAMPLEFIELD | 由用户指定的账面价值域。 |
SBOTTOM | 由用户指定的最低确定性层截止值,或者如果未指定,则是由该命令计算的底层的下边界。 |
SBOUNDARY | 由该命令计算的所有层上边界。不包括最高或最低确定性层。 |
SPOPULATION | 每个层中的记录数以及每个层的合计货币值。不包括最高或最低确定性层。 |
SSAMPLE | 由该命令计算的每个层的样本量。不包括最高或最低确定性层。 |
示例
准备传统变量样本
您已决定使用传统变量抽样来估计包含发票的账户中货币错报的总金额。
在抽取样本之前,您必须首先对总体进行分层,并且为每个层计算在统计上有效的样本量。
您想要确信 Analytics 所抽取的样本有 95% 的可能性能够代表样本总体。
使用您指定的置信水平,下面的示例基于发票金额域对表进行分层,并且计算每个层和最高确定性层的样本量:
CVSPREPARE ON 发票金额 NUMSTRATA 5 MINIMUM 0 PRECISION 928003.97 CONFIDENCE 95.00 CUTOFF 35000 NCELLS 50 PLIMIT BOTH ERRORLIMIT 6 MINSAMPSIZE 0 TO SCREEN
备注
有关此命令工作方式的详细信息,请参见准备传统变量样本。
数值长度限制
在传统变量抽样的准备阶段,会发生多个内部计算。这些计算支持最大长度为 17 位的数字。如果任何计算的结果超过 17 位,则该结果不会被包括在输出中,并且您无法继续执行抽样流程。
请注意,少于 17 位的源数据数字可能生成超过 17 位的内部计算结果。