差异设置工作原理

模糊重复是基于您指定的差异度选定的,然后在输出结果中进行分组。差异程度是指模糊重复对话框中两项设置的组合:

  • 差异阈值控制两个模糊重复值可以相差的程度。
  • 差异比例控制单个值可以相差的比例

两项设置可以作为单独的阈值使用。测试的域中的值必须在两个阈值之内,以包含在结果中的模糊重复组中。通过调整两个设置,可以尽可能提高结果的精度和用处。

可以关闭差异比例,这时值只需要位于差异阈值的范围以内。不能关闭差异阈值

差异阈值详细介绍

差异阈值是要将两个值标识为模糊重复所允许的最大编辑距离。

什么是编辑距离?

编辑距离是使一个值与另一个值完全相同所需的单字符编辑的最小数量。所需的编辑数量是通过一个计算科学算法得到的。

编辑距离示例

“Smith” 和 “Smythe” 之间的编辑距离是 2:

  • 编辑 1 必须用 ‘y’ 替换 ‘i’
  • 编辑 2 必须插入 ‘e’

编辑距离越大,两个值之间的差异越大。距离为 0(零)意味着两个值完全相同。

下表提供了各种编辑距离的示例。有关编辑距离的详细信息,请参见 LEVDIST( )

说明

编辑距离算法会将单词之间的空白或空格视为字符。

值 1

值 2

编辑距离

如果差异阈值被设置为 3,则包括在结果中

Smith

Smith

0

(如果选中了包括完全匹配重复

Smith

Smithe

1

Smith

Smythe

2

Hanssen

Jansn

3

Smith

Brown

5

Intercity Couriers

Intercity Couriers Inc.

5

Diamond Tire

Diamond Tire & Auto

7

JW Smith

John William Smith

10

更改差异阈值

增加差异阈值会增加所允许的最大编辑距离,从而通过包括彼此差异更大的值来增加结果的大小。您可以指定从 1 到 10 之间的差异阈值

设定上限的原因是增加最大编辑距离至特定点之上会产生一个很大的主要包含误报的结果集。

设定下限的原因是输入 0(零)将仅包括精确匹配项。如果您只是要查找完全匹配的重复,请使用重复功能。

差异百分比详细介绍

差异比例是指要将两个值标识为模糊重复,两个比较值的较短值可允许的最大差异比例。

如何计算差异百分比?

使用其在测试域中比较的每个值对之间的编辑距离,Analytics 执行以下内部计算:

编辑距离 / 较短值中的字符数 × 100 = 差异百分比

差异百分比示例

“Smith”和“Smythe”之间的编辑距离为 2,两个值中的较短值的长度为 5 个字符,生成差异百分比 40 (2/5 x 100)。

如果差异百分比低于或等于指定的差异比例,则这两个值有资格被包括在结果中,前提是假定它们还处于彼此的最大允许编辑距离(差异阈值)之内。

下表提供各种差异百分比的示例。

值 1(长度)

值 2(长度)

编辑距离和差异百分比

如果差异百分比被设置为 50,则包括在结果中

Smith (5)

Smith (5)

0, 0% (0/5)

(如果选中了包括完全匹配重复

Smith (5)

Smithe (6)

1, 20% (1/5)

Smith (5)

Smythe (6)

2, 40% (2/5)

Hanssen (7)

Jansn (5)

3, 60% (3/5)

Smith (5)

Brown (5)

5, 100% (5/5)

Intercity Couriers (18)

Intercity Couriers Inc.(23)

5, 27.77% (5/18)

Diamond Tire (12)

Diamond Tire & Auto (19)

7, 58.33% (7/12)

JW Smith (8)

John William Smith (18)

10, 125% (10/8)

更改差异百分比

加大差异比例会通过包括含更大差异比例的值增加结果的大小。可以指定从 1 到 99 之间的差异比例

设定上限的原因是允许 100 或更大的差异百分比会在结果的同一模糊重复组中包括彼此完全不同的值对。例如,“ABC” 和 “XYZ” 具有编辑距离 3 和一个更短的值长度 3,从而产生差异百分比 100。

设定下限的原因是输入 0(零)将仅包括精确匹配项。如果您只是要查找完全匹配的重复,请使用重复功能。

关闭“差异百分比”

可以选择关闭差异比例。如果关闭差异比例,结果不会考虑值比例的不同。您可能会获得其他一些有效的模糊重复,例如“JW Smith”和“John William Smith”。不过,模糊重复组还可能包括彼此完全不同的值,例如“Smith”和“Brown”。结果还会比使用任何设置的差异比例产生的数据要大。

差异阈值和差异比例如何共同作用

下表显示差异阈值差异比例如何共同发挥作用。差异阈值详细介绍差异百分比详细介绍 中显示的比较值当前必须位于两项阈值的范围内,才能包括在结果中。

如果差异阈值差异比例被分别考虑,则“Hanssen/Jansn” 和 “Intercity Couriers/Intercity Couriers Inc.” 被包括在内。将不含在结果之内,因为它们没有处于两项阈值的范围内。

值 1(长度)

值 2(长度)

编辑距离和差异百分比

如果差异阈值被设置为 3,差异百分比被设置为 50,则包括在结果中

Smith (5)

Smith (5)

0, 0% (0/5)

(如果选中了包括完全匹配重复

Smith (5)

Smithe (6)

1, 20% (1/5)

Smith (5)

Smythe (6)

2, 40% (2/5)

Hanssen (7)

Jansn (5)

3, 60% (3/5)

Smith (5)

Brown (5)

5, 100% (5/5)

Intercity Couriers (18)

Intercity Couriers Inc.(23)

5, 27.77% (5/18)

Diamond Tire (12)

Diamond Tire & Auto (19)

7, 58.33% (7/12)

JW Smith (8)

John William Smith (18)

10, 125% (10/8)