曖昧結合

Analytics 曖昧結合は、キー フィールドと値の曖昧一致を使用して、2 つの Analytics テーブルを新しい 3 番目のテーブルに結合します。ほとんどの点において、曖昧結合は標準の Analytics 結合に似ています(テーブルの結合を参照)。主な違いは、曖昧結合は、キー フィールド値の完全一致に基づくレコードの結合のほかに、近似一致に基づくレコードの結合ができることです。

曖昧結合は、主キーおよび副キーに同じ種類のデータが少し異なる形式で含まれているときに役立ちます。あるいは、キーのデータに、完全一致を妨げる可能性がある誤字などの少しの不規則性があります。

シナリオ

考えられる不適切な報酬のデータを分析する方法の 1 つとして、従業員でもある業者を特定する必要があります。

アプローチ

ベンダー マスター テーブルと従業員テーブルが、共通キーとして各テーブルの住所フィールド(Vendor_Street、および Emp_Address)を使用して結合されます。ただし、キー フィールドの住所データの形式は少し異なります。このため、標準の結合ではなく、曖昧結合を使用します。

データの一部の概要

重要なデータ クレンジングと調整作業がないと、以下に示す主キーおよび副キー値は、非常に一致の確率が高い住所であっても、標準の Analytics 結合では結合されません。

主キー値 副キー値
605 3rd Avenue 605 Third Avenue
400 High St SE 400 High Street S.E.
2203 Rowan Street 2203 Rowen St

データ クレンジングと調整を行ったとしても、"Rowan" や "Rowen" といった綴りにわずかな違いがあるキー値はおそらく一致しません。

キー値は、曖昧結合設定に応じて、曖昧結合で結合できます。

出力結果

以下の結合されたテーブルの例では、正確なキー フィールド一致は紫でハイライトされています。曖昧キー フィールド一致は緑でハイライトされています。

曖昧結合と曖昧重複

曖昧結合は 2 つのテーブルのキー フィールドの値を分析します。ほぼ同一の値の単一の Analytics テーブルの単一のフィールドをテストするには、あいまい重複の概要を参照してください。

出力テーブル サイズとコマンド パフォーマンス

出力テーブル サイズ

曖昧結合は、Analytics 多対多結合と似ています。すべての主キー値は、すべての副キー値と一致する可能性があります。出力テーブルのサイズは、主または副入力テーブルのサイズの数倍の大きさになることがあります。

コマンド パフォーマンス

曖昧一致アルゴリズムは、指定された度合いの曖昧さのキー値または完全に一致する値のみが実際に結合されることを保証します。ただし、すべての考えられる主と副の一致はテストされる必要があります。つまり、曖昧結合処理は時間がかかることがあります。実行する必要がある個別のテスト数は、主テーブルのレコード数を副テーブルのレコード数で乗算した値です。

ベスト プラクティス

主および副入力テーブルを準備し、曖昧さの度合いを指定するときには、出力テーブル サイズとコマンド パフォーマンスに注意してください。

  • データのカスタマイズ 関連するレコードのみが主および副テーブルに含まれることを保証します。一部のレコードに一致の可能性がない場合は、曖昧一致を実行する前に、除外します。
  • テスト実行 大きいデータ セットの場合は、データの一部のみでテストを実行します。これは、曖昧一致アルゴリズムの適切な設定を得るためのより効率的な方法です。保守的な曖昧設定から開始し、必要に応じて、徐々に緩めて行きます。

曖昧一致アルゴリズム

曖昧結合を実行するときには、2 つの異なる曖昧一致アルゴリズムから選択します。

  • ダイス係数
  • レーベンシュタイン距離

このアルゴリズムは、相互に完全に独立しているため、異なる結果を生成することができます。1 つのアプローチは、曖昧結合を 2 回(各アルゴリズムで 1 回ずつ)実行し、結果を比較することです。一般的に、各結果セットの多数の曖昧一致は重複しますが、一部の一致は各結果セットに対して一意であることがあります。

曖昧度

各アルゴリズムの曖昧さの度合いを指定します。これにより、結果セットのサイズと構成を動的に変更することができます。「曖昧度」とは、2 つの値がどれほど近く一致しているのかを差します。

選択するアルゴリズムに応じて、次の設定を使用して、曖昧度を制御します。

アルゴリズム 設定

ダイス係数

  • N-gram
  • パーセント

レーベンシュタイン距離

  • 距離

異なる曖昧さの度合いで実験する保守的に開始し、小さい結果セットを生成します。次に、明らかに一致ではない(誤検出)結合された値が多くなりすぎるまで、徐々に設定を緩めます。

ダイス係数

ダイス係数アルゴリズムは、0.0000 ~ 1.0000 の尺度で、主キー値と副キー値の間の類似性の度合いを測定することで動作します。2 つの値のダイス係数が大きいほど、類似性が高くなります。

レーベンシュタイン距離

レーベンシュタイン距離アルゴリズムは、0 から開始する整数の尺度で、主キー値と副キー値の間の差異を測定して機能します。この尺度は、ある値を他の値と同一にするために必要な、1 文字の編集の回数を表します。2 つの値間のレーベンシュタイン距離がより大きければ、相違も大きくなります。

結果の精度を高める

Analytics 関数を使用して、主キー フィールドと副キー フィールドのデータ クレンジングと調整を実行すると、曖昧結合の効果が上がります。たとえば、"Street"、"St."、"St" などの値を調整するか、まとめて削除する場合は、より厳しい曖昧設定を使用すい、同じ曖昧一致を得ながら、誤検出の一致数を減らすことができます。

一般的要素の除去

OMIT( ) と EXCLUDE( ) 関数を使用すると、フィールド値から "Corporation" や "Inc."、カンマ、ピリオド、アンパサンド(&)文字などの一般的要素を除去することができます。

一般的要素と句読点の除去により、キー フィールド値の曖昧結合の値比較は、意味のある違いが発生する可能性のある文字列の部分だけに集中されます。

手順

曖昧結合を使用すると、キー フィールドと値の曖昧一致を使用して、2 つの Analytics テーブルを新しい 3 番目のテーブルに結合できます。

Analytics 14.1 ヘルプ