設定による動作の違い

あいまい重複操作の結果は、1 つ以上のあいまい重複グループで構成されます。 このグループは、あいまい重複操作の実行時に指定した相違の度合いに基づいて生成されます。 相違の度合いは、[あいまい重複]ダイアログ ボックスにある以下の 2 つの設定の組み合わせで決まります。

  • 相違のしきい値では、2 つのあいまい重複間で許容される相違数を制御します。
  • 相違のパーセントでは、個々の値に対する相違の割合を制御します。

この 2 つの設定は、それぞれ独立したしきい値として動作します。 検査対象のフィールドの値が結果のあいまい重複のグループに含まれるようにするには、それらの値がこの両方のしきい値の範囲内にある必要があります。 2 つの設定を調整することで、結果の精度や有用性を最大限に高めることができます。

相違のパーセントの指定はオフにすることができます。その場合、相違のしきい値の範囲内にのみ値がある必要があります。 相違のしきい値の指定をオフにすることはできません。

相違のしきい値の詳細

相違のしきい値は、2 つの値があいまい重複と認定されるために、それらの値間で許容されるレーベンシュタイン距離の最大値です。

レーベンシュタイン距離の概要

レーベンシュタイン距離は、ある値を別の値にするために必要な、文字単位の編集の最小回数を計算する計算科学アルゴリズムによる数値です。

レーベンシュタイン距離の例

“Smith” と “Smythe” の間のレーベンシュタイン距離は 2 です。

  • 編集 1 ‘y’ は ‘i’ に代入される必要があります
  • 編集 2 ‘e’ は挿入される必要があります

レーベンシュタイン距離がより大きければ、2 つの値間の相違も大きくなります。 距離が 0(ゼロ)ということは、2 つの値がまったく同じということです。

以下の表では、レーベンシュタイン距離のさまざまな例を示しています。 レーベンシュタイン距離の詳細については、LEVDIST( ) を参照してください。

メモ

レーベンシュタイン アルゴリズムでは、単語間の空白やスペースを文字として扱います。

値 1

値 2

レーベンシュタイン距離

[相違のしきい値]が 3 の場合、結果に含まれる

Smith

Smith

0

はい

([完全な重複を含める]オプションが選択された場合)

Smith

Smithe

1

はい

Smith

Smythe

2

はい

Hanssen

Jansn

3

はい

Smith

Brown

5

いいえ

Intercity Couriers

Intercity Couriers Inc.

5

いいえ

Diamond Tire

Diamond Tire & Auto

7

いいえ

JW Smith

John William Smith

10

いいえ

相違のしきい値の変更

相違のしきい値を大きくすると、許容されるレーベンシュタイン距離の最大値も大きくなります。これにより、相違の度合いがより大きい値も含まれることになり、結果のサイズが大きくなります。 相違のしきい値には 1 から 10 までの数値を指定できます。

この数値に上限を設けている理由は、最大レーベンシュタイン距離が一定の限度を超える大きな値になると、多くの誤検出を含む非常に大きい結果セットが生成されてしまうからです。

この数値に下限を設けている理由は、0(ゼロ)を指定すると完全な重複のみが対象となってしまうからです。 完全な重複のみを検索することが目的であれば、"重複の検索" 機能を使用してください。

相違のパーセントの詳細

相違のパーセントは、2 つの値があいまい重複と認定されるために、比較する 2 つ値のうち短い方の値に対して許容される相違の割合の最大値です。

相違のパーセントの計算方法

検査フィールドで比較する値のペアごとのレーベンシュタイン距離を使用して、Analytics は次の内部的な計算を実行します。

レーベンシュタイン距離 / 短い方の値の文字数 × 100 = 相違のパーセント

相違のパーセントの例

"Smith" と "Smythe" の間のレーベンシュタイン距離は 2 で、2 つの値のうち短い方の値は 5 文字なので、相違のパーセントは 40(2/5)になります。

この相違のパーセントが[相違のパーセント]オプションで指定した割合以下の場合、2 つの値は結果に含まれます。これは、その値がレーベンシュタイン距離の許容される最大値(相違のしきい値)の範囲内であることを前提とします。

以下の表では、相違のパーセントのさまざまな例を示しています。

値 1(長さ)

値 2(長さ)

レーベンシュタイン距離、相違のパーセント

[相違のパーセント]に 50 が設定された場合、結果に含まれる

Smith (5)

Smith (5)

0, 0% (0/5)

はい

([完全な重複を含める]オプションが選択された場合)

Smith (5)

Smithe (6)

1, 20% (1/5)

はい

Smith (5)

Smythe (6)

2, 40% (2/5)

はい

Hanssen (7)

Jansn (5)

3, 60% (3/5)

いいえ

Smith (5)

Brown (5)

5, 100% (5/5)

いいえ

Intercity Couriers (18)

Intercity Couriers Inc. (23)

5, 27.77% (5/18)

はい

Diamond Tire (12)

Diamond Tire & Auto (19)

7, 58.33% (7/12)

いいえ

JW Smith (8)

John William Smith (18)

10, 125% (10/8)

いいえ

相違のパーセントの変更

相違のパーセントを大きくすると、相違の割合がより大きい値も含まれることになり、結果のサイズが大きくなります。 相違のパーセントには 1 から 99 までの数値を指定できます。

この数値に上限を設けている理由は、相違のパーセントが 100 以上になると、同じあいまい重複グループ内で完全に異なる値のペアが含まれるようになるからです。 たとえば、"ABC" と "XYZ" のレーベンシュタイン距離は 3、短い方の値の長さは 3 なので、相違のパーセントは 100 になります。

この数値に下限を設けている理由は、0(ゼロ)を指定すると完全な重複のみが対象となってしまうからです。 完全な重複のみを検索することが目的であれば、"重複の検索" 機能を使用してください。

相違のパーセントをオフにする

相違のパーセントの指定は、状況に応じてオフにすることができます。 [相違のパーセント]オプションをオフにすると、値における相違の割合は結果に考慮しません。 これにより、"JW Smith" と "John William Smith" などの有効なあいまい重複も出力される可能性があります。 ただし、その場合のあいまい重複グループには、"Smith" と "Brown" などの完全に異なる値も含まれることになります。 この結果のサイズは、[相違のパーセント]オプションを使用して値を設定したときよりも大きくなります。

[相違のしきい値]および[相違のパーセント]オプションを併用した場合の動作

以下の表は、[相違のしきい値]および[相違のパーセント]オプションを併用した場合の動作を示します。 相違のしきい値の詳細相違のパーセントの詳細 で挙げた比較値が出力結果に含まれるようにするには、両オプションのしきい値の範囲内にある必要があります。

相違のしきい値相違のパーセントが個別に判断される場合に、"Hanssen/Jansn" と "Intercity Couriers/Intercity Couriers Inc." が含まれます。 ただし、2 つの設定がまとめて考慮されるときには、含まれません。両方のしきい値の境界に当てはまらないためです。

値 1(長さ)

値 2(長さ)

レーベンシュタイン距離、相違のパーセント

[相違のしきい値]に 3、[相違のパーセント]に 50 が設定された場合、結果に含まれる

Smith (5)

Smith (5)

0, 0% (0/5)

はい

([完全な重複を含める]オプションが選択された場合)

Smith (5)

Smithe (6)

1, 20% (1/5)

はい

Smith (5)

Smythe (6)

2, 40% (2/5)

はい

Hanssen (7)

Jansn (5)

3, 60% (3/5)

いいえ

Smith (5)

Brown (5)

5, 100% (5/5)

いいえ

Intercity Couriers (18)

Intercity Couriers Inc. (23)

5, 27.77% (5/18)

いいえ

Diamond Tire (12)

Diamond Tire & Auto (19)

7, 58.33% (7/12)

いいえ

JW Smith (8)

John William Smith (18)

10, 125% (10/8)

いいえ