模糊重复概述

您可以使用 Analytics 的模糊重复功能,以测试字符域是否包含引用同一现实实体的几乎相同的值。

测试模糊重复比识别完全匹配重复的过程更为复杂。了解控制模糊重复之间差异度的设置以及模糊重复在输出结果中如何分组,将有助于优化对该功能的使用。

除主模糊重复功能外,您可能还需要使用一项或两项模糊重复帮助功能或者连接测试域来实现目标。

提示

模糊重复功能需要占用大量处理器空间,因为测试域中的每个值都需要与域中的各个后续值进行对比。如果分析允许,请使用过滤或提取记录子集的方法来限制测试数据集的大小。减小数据集可加快执行速度,还有助于控制结果的大小。

模糊重复与模糊联接之比较

模糊重复功能分析单个 Analytics 表中的单个域中的值。要使用模糊匹配将来自两个 Analytics 表的域合并为第三个新的表,请参见模糊联接

模糊重复分析中的任务顺序

根据所测试数据的性质和模糊重复分析的目标的不同,您可能需要执行多个任务来生成有用的结果。下表提供了这些任务的一个序列。

说明

除模糊重复功能外,这些任务都是可选的,但执行其中一项或多项可能会提高结果质量。

 

任务

可选

Analytics 功能

详情

1

限制测试数据集的大小

过滤器

提取数据的子集

通过仅处理对您的分析有益的记录提高性能

2

从域值中删除“Corporation”或“Inc.”等通用元素

OMIT( ) 函数

通过仅关注可能出现重大差异的字符值部分,降低大小和提高结果精度

3

连接域以增强测试值的唯一性

一个使用加法运算符 (+) 的 Analytics 表达式

通过测试唯一程度更强(通过连接两个或多个字符域生成)的值降低大小和提高结果精度

4

标识域中的所有模糊重复并输出非详尽的结果

模糊重复功能

主模糊重复功能

5

针对非详尽结果中的单个字符值标识详尽的模糊重复列表

ISFUZZYDUP( ) 函数

针对与审计目标特定相关的字符值生成方便、详尽的模糊重复列表

Analytics 14.1 帮助