执行 Benford 分析
Benford 分析统计一个域中各个前导数字 (1–9) 或前导数字组合的出现次数,并将实际计数与预期计数进行比较。
使用 Benford 公式计算的预期计数提供了 Benford 分布。在自然发生的数集中,前导数字的实际计数的频率分布应该近似于 Benford 分布。
如果所测试的数据中的一个或多个前导数字或者数字组合严重偏离 Benford 分布,则可能表明这些数字已被操纵。偏差也可能具有简单且合理的解释,并不必然表明存在操纵。
使用 Benford 分析可以测试哪些数据?
您只应使用 Benford 分析测试由“自然发生数”组成的数值数据,如记账金额、交易金额、费用或地址号码。Benford 分析不适合于以任何方式受到约束的数值数据。
请按照下列准则来识别适合于 Benford 分析的数值数据:
- 数据集的大小 数据集必须足够大以支持有效的分布。Benford 分析可能无法为少于 500 个的记录提供可靠的结果。
- 前导数字要求 从 1 到 9 的所有数字都必须具有作为前导数字出现的可能性。
- 前导数字组合要求 从 0 到 9 的所有数字都必须具有作为第二个前导数字以及要分析的任何附加数字出现的可能性。
- 受约束的数据 被按照预先规定的模式分配或者生成的数值数据不适合于 Benford 分析。例如,请勿使用 Benford 来分析以下数据:
- 顺序支票或发票编号
- 符合特定模式的社保号码或电话号码
- 任何具有防止某些数字出现的范围的编号方案
- 随机数 由随机数生成器生成的数字不适合于 Benford 分析。
用法详情
下表提供了有关在 Analytics 中使用 Benford 分析功能的详情。
| 前导数字个数 | 您最多可以分析六个前导数字。当分析四个或更多个前导数字时,必须将 Benford 分析输出发送到文件而不是显示在屏幕上或者发送到打印机。 |
|---|---|
| 处理时间 | 根据您所处理的记录数的不同,分析五个或者更多个前导数字可能花费数分钟。无论您分析多少个数字,您随时都可以按 Esc 终止该命令。 |
| 数据集大小 | 高效的 Benford 分析需要大型数据集。如果对于指定的数字个数而言,数据集可能太小,则 Analytics 会在结果输出中显示警告。 |
| 正值和负值 | 当您分别分析正值和负值时,反常数据更加明显。您可以在开始分析前使用过滤器区分两者。 |
| 零和非数值字符 |
包含零值的记录会被忽略,但会报告所忽略的零值记录的个数。 前导零、小数点和美元符号等数值格式字符、其他非数值数字以及不满足测试条件的记录也会被忽略。如果生成的数字个数小于指定的个数,Analytics 会向结果右侧添加零。 |
Benford 分析输出结果
Benford 分析生成以下输出结果:
| 前导数字 | 显示所测试的前导数字。例如,如果您指定一个前导数字,则会显示数字 1 到 9。如果您指定两个前导数字,则会显示数字 10 到 99。 |
|---|---|
| 实际计数 | 显示该域中的每个前导数字或前导数字组合的实际计数。 |
| 预期计数 | 显示通过 Benford 公式计算的每个前导数字或前导数字组合的预期计数。 |
| Z 统计量比率 | 显示每个数字或数字组合的 Z 统计量比率,它是实际计数和预期计数之间距离的标准偏差的度量。例如,Z 统计量 0.500 表示标准偏差的一半。 |
|
下限 上限 (可选) |
显示每个前导数字或数字组合的计数的计算下限值和上限值。 如果输出结果中的一个以上的数字或数字组合的实际计数超过任一限值,则该数据可能已被操纵,应该进行调查。 说明 仅当在 Benford 对话框中选择了包括上限和下限复选框时,才会包括下限和上限值。 |
步骤
对域执行 Benford 分析,以发现是否有一个或多个前导数字或数字组合严重偏离 Benford 分布。
- 打开包含您想要分析的域的表。
- 选择 。
- 在主要选项卡上,执行以下操作之一:
从 Benford 域下拉列表中选择要分析的域。
单击 Benford 域以选择该域或者创建一个表达式。
说明
选择一个包含“自然发生数”(如交易金额)的域。Benford 分析不适合于以任何方式受到约束的数值数据。要了解更多信息,请参考 使用 Benford 分析可以测试哪些数据?
- 输入您想要分析的前导数字个数( 1 到 6)。
说明
如果您正在分析四个或更多的前导数字,则必须将输出结果发送到文件。分析四个或以上的前导数字所得结果,无法在屏幕上显示、发送到打印机或在图表中显示。
-
如果当前视图中有想要从处理中排除的记录,请在如果文本框中输入一个条件,或单击如果使用表达式生成器创建 IF 声明。
说明
在应用任何范围选项(前、后、当)之后,仅针对表中的剩余记录评估如果条件。
IF 声明中考虑到了视图中的所有记录,滤除那些不满足指定条件的记录。
- (可选)如果您想要在每个数字或数字组合的输出结果中包括计算边界值,请选择包括上限和下限。
- 然后单击输出选项卡。
- 在 目标面板上选择适当的输出选项:
- 屏幕 – 选择该选项可在 Analytics 显示区域中显示结果。如果输出表中包含大量的记录,那么将结果保存到文件要比在屏幕上显示结果更快且更有用。
- 打印 – 选择该选项会将结果发送到默认打印机。
- 图表 – 选择该选项可创建一个结果图表并在 Analytics 显示区域中显示它。
- 文件 – 选择该选项将结果保存或附加到文本文件中。该文件被保存在 Analytics 的外部。
说明
不适用于特定分析操作的输出选项会被禁用。
- 如果选择了 文件作为输出类型,请在作为面板中指定以下信息:
- 文件类型 – ASCII 文本文件或 Unicode 文本文件 (具体取决于您使用的 Analytics 的版本)是唯一选项。将结果保存到新文本文件中,或将结果附加到现有的文本文件中。
- 名称 – 在 名称文本框中输入文件名称。或单击 名称输入文件名称,或者在保存或另存为对话框中选择一个现有的文件,以覆盖或附加到该文件中。如果 Analytics 预填充文件名,您可以接受预填充的名称,也可以更改它。
您还可以指定一个绝对或相对路径,或导航到一个不同的文件夹,将文件保存或附加到与项目位置不同的位置。例如:C:\结果\输出.txt 或结果\输出.txt。
- 本地 – 禁用或选中。在本地保存文件是唯一的选项。
- 根据输出类型的不同,您可以在文本框中选择性地指定页眉和/或页脚。
默认情况下,页眉和页脚居中放置。在页眉或页脚文本前输入左尖括号 (<)可左对齐文本。单击页眉或页脚可输入多行的页眉和页脚。另外,可以输入分号 (;)作为页眉或页脚文本框中的断行字符。左对齐多行要求在每行的开头处有一个尖括号。
- 单击更多选项卡。
- 在范围面板中选择适当的选项:
- 全部–默认时选择该选项。使其保持选中状态可指定对视图中的所有记录进行处理。
- 前 –选择该选项,并在文本框中输入数量,则会在视图的第一条记录处开始处理,处理对象仅包括指定数量的记录。
- 后 –选择该选项,并在文本框中输入数量,则会在视图中当前选择的记录处开始处理,处理对象仅包括指定数量的记录。最左边列中的实际记录数量必须选中,并非行中的数据。
- 当 – 选择该选项可通过 WHILE 声明根据特定条件或条件组限制对视图中记录的处理。可以在当文本框中输入条件,或者单击当来使用表达式生成器创建 WHILE 声明。
只有当指定条件值为真时,WHILE 声明才允许对视图中的记录进行处理。当条件变为假时,处理立即终止,不再考虑剩余的记录。可将当选项与全部、前或后选项结合使用。在达到一个限制后,请立即记下处理步骤。
说明
前或后选项中指定的记录数参考表中记录的物理或索引顺序,不考虑对视图进行过滤或快速排序的情况。不过,解析操作的结果与任何过滤相关。
如果对视图进行了快速排序,则后的行为类似于前。
- 如果选择了文件作为输出类型,并且想要将输出结果附加到现有文本文件的末尾,可以选择附加到现有文件。
- 如果您选择了文件作为输出类型,并且想要将输出结果附加到现有 Analytics 表的末尾,请执行以下操作之一:
如果您确定输出结果和现有表的结构完全相同,请选择附加到现有文件。
如果您希望 Analytics 比较输出结果和现有表的记录长度,请使附加到现有文件保持未选择状态。如果记录的长度不相同,则数据结构不相同,并且附加操作无法正确工作。
说明
如果您不确定输出结果与现有表的数据结构是否相同,建议您使附加到现有文件保持取消选择状态。有关附加操作和数据结构的详细信息,请参见将结果附加到 Analytics 表和文本文件。
- 单击确定。
- 如果覆盖提示出现,请选择合适的选项。
如果想让附加选项显示,而实际未显示,请单击否取消操作并参阅 将结果附加到 Analytics 表和文本文件。