识别异常记录
使用 Analytics 中的异常记录功能可识别反常记录,并且可能需要更仔细的审查。
什么是异常记录?
异常记录是其数值金额显著不同于其同组记录中数值金额的记录。
组中的异常记录示例
在应付帐款文件中,特定公司的发票通常介于 $500 和 $1,000 之间。但是,一张发票的金额为 $8,500。
说明
一个记录可能因为合法原因而成为异常记录。通常,您需要对 Analytics 识别的异常记录执行额外的检查以确定是否实际存在任何问题。
对记录进行分组是可选的
在检查数据是否为异常记录时,您不必对记录进行分组。您可能对在整个表中而不是在特定组内查找异常记录感兴趣。
整个记录集中的异常记录示例
在应付帐款文件中,整个发票集通常介于 $40 和 $5,000 之间。但是,有三张发票的金额大于 $20,000。
如何识别异常记录?
对于每个记录组,或者对于整个记录集,Analytics 使用指定数值域的标准偏差或者标准偏差的倍数来确立异常记录上边界和下边界。
对于任何记录而言,如果其数值域中的值大于上边界或者小于下边界,则该记录为异常记录,且会被包括在输出结果中。
标准偏差是对数据集的离差 — 即值的分散性的度量。异常值计算使用总体标准偏差。
识别一组编号中的异常记录
您想要识别下面这组编号中的任何异常记录:
-3, -3, -1, 2, 3, 5, 6, 6, 8, 11
这些数字的平均值是 3.40。该平均值被用来计算该组编号的标准偏差 (SD):4.45。
平均值 ± 1 个标准偏差
在第一个示例中,您使用平均值 ± 1 标准偏差来确定异常值的上下边界。有四个值被识别为异常记录。
平均值 ± 1.5 个标准偏差
在第二个示例中,您使用平均值 ± 1.5 个标准偏差来确定异常值的上下边界。现在,只有一个值被识别为异常值。
放置异常值边界
您可以将异常值边界放置在您感到适当的任何位置,或者您可以测试不同的位置并比较结果。
要放置边界,您指定异常值域的标准偏差的任何正倍数:0.5、1、1.5,等等。例如,如果您指定 1.5 的倍数,则异常值边界比异常值域中的值的平均值或中值高或者低 1.5 个标准偏差。
对于相同数据集,随着您增加标准偏差倍数,可能会减小输出结果中异常值的数量。
数据分布
该组数值数据中的值通常分布在从最小值到最大值的范围内。在正态分布中,值均匀分布在数据的中心点周围,从而形成钟形曲线。中心点通常被定义为值的平均值,但是它还可以是中值或者模式。
正态分布的标准偏差
如果您计算一组正态分布值的标准偏差,则 68% 的值落入平均值的一个标准偏差内 (±),99.7% 的值落入平均值的三个标准偏差内 (±)。只有非常少的值超过平均值三个标准偏差。
您在 Analytics 中分析的数据集中值的分布情况经常会被歪曲,而不是正态分布。例如,一个交易文件可能包含成千上万个相对较小的交易和几个大型交易。但是,我们可以使用正态分布来简单说明 Analytics 中异常值边界的工作方式。
正如下面的示例所显示的那样,增加标准偏差倍数会使异常值的上下边界更接近分布曲线的尾部。随着边界靠近尾部,落在边界外部的值会逐渐减少。
异常值边界 ± 2.5 个以平均值为基准的标准偏差
大于 +2.5 个以平均值为基准的标准偏差或者小于 -2.5 个以平均值为基准的标准偏差的值被作为异常值包括在输出结果中。
异常值边界 ±3 个以平均值为基准的标准偏差
大于 +3 个以平均值为基准的标准偏差或者小于 -3 个以平均值为基准的标准偏差的值被作为异常值包括在输出结果中。
准则
当您在异常值功能中指定设置时,请考虑您所分析的数据的性质:
数据的性质 | 设置指南 |
---|---|
值具有聚合性,分布在较小范围内 | 使用较小的标准偏差倍数。请尝试从 1 开始。请使用小数倍数(如 1.25)进行精确调整。 |
值具有分散性,分布在较大范围内 | 使用较大的标准偏差倍数。请尝试从 3 开始。 |
数据被歪曲,与其余数据比较,一小部分值较大或较小 | 请使用中值而不是平均值作为计算您所检查的值的中心点的方法。 |
基于输出结果调整
- 结果太多增加标准偏差倍数
- 结果太少或者没有结果减小标准偏差倍数
请记住,您可以使用小数倍数以及小于 1 的倍数。例如:0.75。
步骤
- 打开您想要测试其是否包含异常值的表。
- 从 Analytics 主菜单中选择分析 > 异常值。
- 在方法下,选择用于计算您所检查的数值域中的值的中心点的方法:
- 平均
- 中位数
- 在标准偏差倍数中,指定要用于异常值边界的标准偏差倍数。
您可以指定任何正整数或小数 (0.5, 1, 1.5, 2 . . . )。
- 执行以下操作之一:
- 从主键列表中,选择一个或多个要用来对该表中的记录进行分组的主键域。
提示
您可以使用 Ctrl+单击选择多个不相邻的域,使用 Shift+单击选择多个相邻的域。
- 选择无键可识别整个表而不是特定组内部的异常值。
- 从主键列表中,选择一个或多个要用来对该表中的记录进行分组的主键域。
- 从按域列表中,选择要检查其是否包含异常值的数值域(“异常值域”)。
- 可选。从其他域列表中,选择一个或多个要包括在输出表中的其他域。
说明
键域和异常值域被自动包括在输出表中,而不需要选择。
-
如果当前视图中有想要从处理中排除的记录,请在如果文本框中输入一个条件,或单击如果使用表达式生成器创建 IF 声明。
说明
在应用任何范围选项(前、后、当)之后,仅针对表中的剩余记录评估如果条件。
IF 声明中考虑到了视图中的所有记录,滤除那些不满足指定条件的记录。
- 执行以下操作之一:
- 在到文本框中,指定输出表的名称。
- 选择屏幕可将结果输出到 Analytics 显示区域。
- 如果适当,请取消选择预排序。
说明
下面提供了指导。
- 在更多选项卡上:
- 可选。(可选)要指定只处理记录的一个子集,请选择范围面板中的选项之一。
- 可选。如果您希望输出表自动打开,请选择使用输出表。
- 单击确定。
“异常值”对话框选项
下表提供了有关异常值对话框中的选项的详细信息。
“主要”选项卡
“选项”—“异常值”对话框 | 描述 | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
平均 中值 |
用于计算异常记录域中的值的中点的方法。
中心点被用来计算异常域中的值的标准偏差。 说明 如果您选择中值,则必须对异常域进行排序。如果异常值域尚未被排序,请选择预排序。 提示 如果您检查以确定其是否包含异常值的数据被显著歪曲,则中值可能生成更能代表该数据块的结果。 |
||||||||||
标准偏差次数 | 在异常值域中,从平均值或中值到异常值上边界和下边界的标准偏差数。您可以指定任何正整数或小数 (0.5, 1, 1.5, 2 . . . ) 例如,指定 2 可为每个键域组或者整个域确定下列内容:
异常值域中任何大于上边界或者小于下边界的值都被作为异常值包括在输出结果中。 说明 对于相同数据集,随着您增加标准偏差数,可能会减小输出结果中异常值的数量。 |
||||||||||
主键 可选 |
要用来对该表中的数据进行分组的一个或多个域。 对于每个键域组,都会为异常值域中的组数值类型值计算一个标准偏差。组标准偏差被用作识别组孤立点的基础。 键域可以是字符、数值或日期时间。多个域可以是数据类型任意组合。 如果您选择一个以上的域,则会创建嵌套组。嵌套遵循您选择域的顺序。 说明 键域必须是排序的。如果一个或多个域未经排序,请使用预排序。 |
||||||||||
无键 可选 |
请勿对该表中的数据进行分组。 为整个异常值域计算一个标准偏差。域标准偏差被用作识别域孤立点的基础。 |
||||||||||
所在域 (“异常值域”) |
要审查其是否存在孤立点的数值域。您一次只能审查一个域。 如果您选择一个键域,则会在组级别识别异常值。如果您选择无键,则在域级别识别异常值。 |
||||||||||
其他域 可选 |
要包括在输出中的一个或多个其他域。 说明 键域和异常值域被自动包括在输出表中,而不需要选择。 |
||||||||||
如果 可选 |
使您可以创建一个条件以从处理范围中排除记录。 您可以在如果文本框中输入一个条件,或者单击如果来使用表达式生成器创建一个 IF 语句。 |
||||||||||
到 可选 |
指定输出表的名称和位置。
无论将输出表保存到何处,打开项目时,如果该项目中还没有此表,则会将其添加到该项目中。 如果 Analytics 预填充了一个表名称,您可以接受预填充的名称或更改它。 |
||||||||||
屏幕 可选 |
在 Analytics 显示区域中显示结果,而不是创建输出表。 | ||||||||||
预排序 可选 |
在执行命令之前执行排序操作。
提示 如果输入表中的一个或多个相应域已经排序,则可以通过不选择预排序节省处理时间。 |
“更多”选项卡
“选项”—“异常值”对话框 | 描述 |
---|---|
“范围”面板 | 指定对哪些记录进行处理:
说明 前或后选项中指定的记录数参考表中记录的物理或索引顺序,不考虑对视图进行过滤或快速排序的情况。不过,解析操作的结果与任何过滤相关。 如果对视图进行了快速排序,则后的行为类似于前。 |
使用输出表 | 指定包含输出结果的 Analytics 表在完成操作后是否自动打开。 |
确定 | 执行操作。 如果覆盖提示出现,请选择合适的选项。 |