あいまい重複について
あいまい重複は、実体としては同一の可能性があるほぼ同一の文字値です。たとえば、以下の 4 つの値はすべて同じ会社である可能性があります。
- Intercity Couriers
- Inter-city Couriers
- Intercity Couriers Inc.
- Intrecity Couriers
あいまい重複の原因としてよく挙げられるのは、タイプミスやスペルミス、データの書式設定の相違、および異なるデータ入力規則などのデータ入力エラーです。ほぼ同一の値を意図的に作成することは、不正を意味する可能性があります。あいまい重複は、一貫性のある実体を基準とするデータに依存するデータ分析の妨げになります。
テーブル内の文字フィールドを個別に検査してフィールド内のあいまい重複をすべて特定し、指定した相違の度合いに基づいて、そのあいまい重複をグループ分けした出力結果を生成できます。このあいまい重複グループは分析の出発点となります。その後、あいまい重複検査フィールドと関連するフィールドの重複検査など、さらに分析を実行して、グループのメンバーが、実際には実体として同一であるものを指しているかどうかを判断する必要があるでしょう。
あいまい重複検査フィールドには、文字、数字および特殊文字が含まれています。これらを使用して人名や会社名、住所、また数字が文字データとして書式設定されていた場合は、社会保障番号や製品番号などの値を検査できます。
あいまい重複機能では、2 つの別個のフィールドまたは 2 つの別個のテーブルの値のあいまい結合やあいまい比較はサポートしません。
あいまい重複の出力結果
以下は、あるテーブルの Last Name フィールドに対してあいまい重複の検査を実行した出力結果の例です。
出力結果はグループ別に配置されます。各グループの先頭にあるあいまい重複のオリジナル レコード番号は、グループの識別に使用されます。たとえば、"Janson" は元のテーブルでレコード番号 3 の名前です。この "Janson" は元のテーブルのレコード順序に従い、グループ内で 1 番目の値となるため、そのグループは "グループ 3" として分類されます。詳細については、あいまい重複をグループ化する方法を参照してください。
文字ベースの比較
2 つの値を比較する場合、あいまい重複機能は単語ベースではなく文字ベースでの比較を実行します。この機能では、単語間の空白やスペースを文字として扱い、個々の単語間を区別しません。値内の単語数に関係なく、その値を切れ目のない単独文字列として扱います。
この方法の実装は、データの性質や[あいまい重複]ダイアログ ボックスで指定した設定の違いによって、あいまい重複と思われる値でも出力結果に含まれない可能性があります。次の例で考えてみましょう。
- "JW Smith" と "John William Smith"
- "Diamond Tire" と "Diamond Tire & Auto"
1 番目の例は、同じ名前の 2 つのバージョンで、ファースト ネームとミドル ネームを頭文字で略したものと、略さずに記述したものです。2 番目の例は、会社名を短いバージョンと長いバージョンで記述しています。ただし、これらのペアはいずれも、相違の設定をかなりゆるくしないとあいまい重複として出力されません。設定をゆるくすることは、多くの誤検知も出力されてしまう弊害も生じます。あいまい重複機能は、例に挙げたそれぞれのペアを単純に 2 つの文字列として処理します。それぞれの例で、対となる 2 つの文字列の長さは大きく異なるので、文字レベルで判断すると、2 つの文字列は互いに大きく異なります。
詳細については、設定による動作の違いを参照してください。
あいまい重複に関する追加情報
フィールドに対しあいまい重複を検査する場合、そのフィールドがソート済みである必要はありません。検査前にフィールドの並べ替えを行っても、あいまい重複操作自体には役立ちません。ただし、出力結果を見やすくするため、また[あいまい重複]ダイアログ ボックスには[あらかじめ並べ替える]オプションがないことから、事前に検査フィールドを並べ替えてもよいでしょう。
あいまい重複を検査する場合、出力結果に完全な重複も含めることができます。完全な重複のみを検索することが目的であれば、"重複の検索" 機能を使用してください。