模糊重复分析

模糊重复是指同一个现实实体的几乎完全相同的字符值。例如,下面四个值可能都是指同一家公司:

  • Intercity Couriers
  • Inter-city Couriers
  • Intercity Couriers Inc.
  • Intrecity Couriers

出现模糊重复的常见原因是数据输入错误,例如键入和拼写错误、不同的数据格式化方法及数据输入习惯不同。故意创造几乎完全相同的值可能意味着欺诈。模糊重复会妨碍数据分析,因为数据分析依赖于一致引用现实实体的数据。

模糊重复与模糊联接之比较

模糊重复功能分析单个 Analytics 表中的单个域中的值。要使用模糊匹配将来自两个 Analytics 表的域合并为第三个新的表,请参见模糊联接

工作原理

Analytics 中的模糊重复功能使您可以测试一个表中的特定字符域,以识别该域包含的任何模糊重复值。输出结果基于您指定的差异度对模糊重复值进行分组。通过调整差异度,您可以控制输出组的数量和大小以及组成员之间的差异量。

要确认模糊重复组成员是否实际引用相同的现实实体,您可能需要执行附加的分析,如对除测试域以外的域的重复测试。

说明

测试是否存在模糊重复比识别精确重复更为复杂。了解控制模糊重复之间差异度的设置以及模糊重复在输出结果中如何分组,将有助于优化对该功能的使用。

模糊重复输出结果

下面的示例显示了通过测试表的 Last Name 域是否包含模糊重复而生成的输出结果。

输出结果被按组组织,这些组被标识为 236。每个组的首个模糊重复的原始记录编号用于识别组。例如,“Janson” 是原始表中的记录编号 3 中的名字,并且因为 “Janson” 是该组中的第一个值,根据原始表中的记录顺序,该组被标识为组 3。有关详细信息,请参见如何对模糊重复分组

模糊重复功能使用基于字符的比较

比较两个值时,模糊重复功能可执行基于字符的对比,而非基于词语的比较。该功能会将词语之间的空白或空格视为字符,且在各个词语之间不加区分。无论值中包含多少个独立词语,该功能会将该值视为一个连续不断的字符串。

这种方法意味着,根据数据性质和您在模糊重复对话框中指定的差异设置,一些看起来像模糊重复的值可能不会出现在输出结果中。

示例

考虑下列名字:

  • “JW Smith”和“John William Smith”
  • “Diamond Tire”和“Diamond Tire & Auto”

第一个示例可能是同一姓名的两个版本,一个使用姓名首字母,而另一个使用完全拼写的名字和中间名。第二个示例可能是公司名称的简短版本和较长版本。

上述两对名字都不会被作为模糊重复返回,除非差异设置非常宽松,但那样可能会具有返回大量误报的负作用。

模糊重复功能会将每对名字简单地视为两个字符串。这种情况下,由于这两个字符串在长度上差别很大,所以从字符级别上来看这些字符串之间显著不同。

有关详细信息,请参见差异设置工作原理

改进模糊重复分析的有效性

除了使用主模糊重复功能外,您可能还需要限制测试数据集的大小,使用模糊重复辅助类函数,或者连接测试域,以实现您的目标。

下表汇总了改进模糊重复分析有效性的不同技巧。

有关辅助类函数的详细信息,请参见模糊重复帮助功能

技巧

Analytics 功能

详情

限制测试数据集的大小

过滤器

提取数据的子集

通过仅处理对您的分析有意义的记录来减少执行时间

对测试域值中的各个元素进行排序

SORTWORDS( ) 函数

通过最大程度地减小测试值中各个元素的物理位置的重要性,减小结果的大小并增加结果的精确性

说明

尽管模糊重复功能使用基于字符的比较,对测试值中的单词或元素进行排序具有在所比较的字符串之间更紧密地校准字符的优点。

从测试域值中移除通用元素

OMIT( ) 函数

通过仅关注可能发生有意义差异的测试值部分,减小结果大小并提高结果精度

连接域以增强测试值的唯一性

一个使用加法运算符 (+Analytics) 的 Analytics 表达式

通过测试具有更高唯一性的值(通过连接两个或更多个域生成)减小结果大小并提高结果精度

为模糊重复输出结果中的特定值生成单个穷尽的模糊重复值列表

ISFUZZYDUP( ) 函数

为与您的分析目标特别相关的输出值生成方便且穷尽的模糊重复值列表

我应该对测试域进行排序吗?

测试一个域是否存在模糊重复不要求该域被排序。在测试前按测试域对表进行排序完全不会增加模糊重复操作的有效性。不过,您可以选择提前对测试域排序,这可能会使输出结果更易于扫描,但模糊重复对话框不包含预排序选项。

说明

尽管对测试域值进行排序不会增加有效性,但对包含多个元素(如地址)的域值中的各个元素进行排序可以显著增加有效性。有关详细信息,请参见模糊重复帮助功能

包括精确重复

测试模糊重复时,您可以选择在输出结果中包括完全匹配的重复。如果您只是要查找完全匹配的重复,请使用重复功能。有关详细信息,请参见测试重复