あいまい重複の概要
Analytics のあいまい重複機能を使用すると、文字フィールドで、実体としては同一の可能性があるほぼ同一の値を検査することができます。
あいまい重複の検査は、厳密な重複の特定よりも複雑なプロセスです。あいまい重複間の相違の度合いを制御する設定や、あいまい重複を出力結果でどのようにグループ化するかを制御する設定を理解しておけば、この機能を最大限に利用することができます。
目的の結果を得るには、あいまい重複の主機能に加え、あいまい重複のヘルパー関数の使用や、検査フィールドの連結が必要となる場合もあります。
ヒント
あいまい重複機能は、検査フィールドの値を、そのフィールドの後続の各値と比較する必要があるため、プロセッサを消費します。分析に支障がなければ、レコードのフィルターリングやサブセット抽出などの方法を利用して、検査対象のデータ セットのサイズを制限してください。データ セットのサイズを抑えることで、実行速度も上がり、また結果のサイズの制御にも役立ちます。
曖昧結合と曖昧重複
曖昧重複機能は、単一の Analytics テーブルの単一のフィールドの値を分析します。曖昧一致を使用するには、2 つの Analytics テーブルのフィールドを組み合わせて、新しい 3 番目のテーブルにします。曖昧結合を参照してください。
あいまい重複分析における一連の作業
結果の有用性を高くするためには、検査しているデータの性質とあいまい重複分析の目的に応じて、いくつかの作業を行う必要があります。次の表は、これらのタスクの順番検査を示します。
メモ
あいまい重複機能自体は別として、これらの作業は省略可能ですが、実行することで結果の品質が向上する可能性があります。
|
タスク |
省略可能 |
Analytics 機能 |
詳細 |
---|---|---|---|---|
1 |
検査するデータ セットのサイズを制限する |
はい |
フィルター データのサブセットを抽出 |
分析対象として有効なレコードのみを処理することで、パフォーマンスが向上します。 |
2 |
フィールドの値から "Corporation" や "Inc." などの総称要素を除去する |
はい |
OMIT( ) 関数 |
意味のある相違が生じる可能性がある文字値の部分のみを分析の対象とすることで、サイズが低減され、かつ結果の精度も高まります。 |
3 |
検査値の一意性を高めるためにフィールドを連結する |
はい |
加算演算子(+)を使用した Analytics 式 |
検査する値の一意性がより高まれば、サイズが低減され、かつ結果の精度も高まります。一意性を高める値は、2 つ以上の文字フィールドを連結することで生成できます。 |
4 |
フィールド内のあいまい重複をすべて特定し、完全でない結果を出力する |
いいえ |
あいまい重複機能 |
あいまい重複の主要機能です。 |
5 |
完全でない結果から、単一の文字値に対するあいまい重複の完全な一覧を識別する |
はい |
ISFUZZYDUP( ) 関数 |
監査の目的に特に関連の深い文字値を対象に、あいまい重複の便利で完全な一覧を生成します。 |