あいまい重複の結果のサイズ制御

あいまい重複機能では検査フィールドの値に対し多対多比較を実行するアルゴリズムを使用するため、あいまい重複の結果のサイズが非常に大きくなる可能性があります。また、設計上、この比較では、完全一致が必要な比較よりも簡単に一致が返されます。

データの性質と指定する差異設定によっては、結果がテスト対象のテーブルの何倍も大きくなる可能性があります。結果が検査テーブルに対して大きくなり過ぎる場合は、検査の意味がなく、また結果のほとんどが誤検出である可能性があります。

あいまい重複の結果のサイズ制御方法

以下の方法を使用すれば、あいまい重複の結果のサイズを制御し、返される誤検出数を減らすることができます。

  • 複数のテスト フィールドを使用する検査値の一意性の度合いを高めるために検査フィールドを連結します。
  • テスト フィールド値の要素を並べ替える SORTWORDS( 関数を使用して、テスト フィールド値の個別の要素を連続する順序に並べ替えます。これにより、小さい相違のしきい値を使用できます。
  • テスト フィールド値から汎用要素を削除するOMIT( ) 関数を使用してテスト フィールド値から総称要素を除去します。これにより、[相違のしきい値]に指定する値を小さくすることができます。
  • 相違のしきい値相違のしきい値]に最初は小さな値(たとえば 3 以下)を指定して実行し、結果への制限が強すぎると感じる場合には値を大きくします。
  • 相違のパーセント相違のパーセント]に最初は既定の値(50)を指定して実行し、結果への制限が強すぎると感じる場合には値を大きくします。特に理由がない限り、[相違のパーセント]オプションをオフにしないでください。
  • 結果サイズ (%)結果のサイズが大きくなり過ぎて扱いにくくならないよう、検査フィールドの値の数に基づき[結果サイズ (%)]を指定します。[結果サイズ (%)]で、検査フィールドのサイズに対する結果の最大サイズを設定します。特に理由がない限り、[結果サイズ (%)]オプションをオフにしないでください。

    メモ

    この設定は、誤検出を含めるか除外するかには影響しません。

  • あいまい重複グループ サイズを制限するSET コマンドを使用して、あいまい重複グループの最大サイズに既定のサイズ 20 より小さい値を指定します。たとえば、SET FUZZYGROUPSIZE TO 10

    メモ

    この設定は、誤検出を含めるか除外するかには影響しません。

注意

上記の一部の方法では、制限が強すぎると有効なあいまい重複が除外される可能性があります。設定の組み合わせをいろいろ試してみて、特定のデータ セットでどれが最も良い状態で機能するかを調べる必要があるかもしれません。

有効なあいまい重複を除外する可能性が最も低い方法は、SORTWORDS( ) 関数と OMIT( ) 関数を使用して連結されます。

最大結果サイズの指定

結果サイズ (%)]オプションに結果の最大サイズを指定すると、結果のサイズが、有意と考えられるサイズを超えたときにあいまい重複操作を自動的に終了させることができます。操作が終了した場合、出力テーブルは作成されません。

結果サイズ (%)]オプションは、処理時間が非常に長くなることを防止するための安全なメカニズムです。返される結果の有効性には関係しません。大きい結果サイズ制限を指定すると、結果の誤検出数が増える場合があります。逆に、小さい結果サイズを指定すると、すべての有効なあいまい重複が取り込まれる前に、処理が終了する可能性があります。

適切な制限を選択する

結果サイズに適切な制限を選択することは判断の問題であり、ある程度の実験が必要になることもあります。低めの制限から始めてください。制限を超え、処理が終了した場合、制限を上げることができます処理を完了できる制限になったら、結果を検査します。誤検出の比率が多い場合は、1 つ以上のあいまい重複の結果のサイズ制御方法を使用することをお勧めします。

最適な結果セットでは、テスト フィールドにすべての有効なあいまい重複(真の検出)が含まれますが、誤検出数も最小限に抑えられます。一般的に、最適な結果セットを達成するには、すべてのあいまい重複設定と使用可能なヘルパー方法でバランスを取る必要があります。

100 パーセントを超える結果サイズ制限を指定できる理由

結果セットのサイズは、デフォルトで検査フィールドのサイズの 10 % です。このサイズは変更可能で、1 から 1000 までのパーセントを指定できます。1000% の制限は多対多一致の性質に対応し、処理の暴走を回避します。多対多一致では、元の検査データ セットより大きい結果が生成されるかもしれません。ただし、元の検査データ セットのサイズを超える結果は、主に誤検出である可能性があります。

結果サイズ計算の端数処理

結果サイズの計算では、正の整数になるよう丸め(四捨五入)を使用します。また、2 未満の数字については最小結果サイズである 2(グループ所有者 1 とメンバー 1)に切り上げます。

結果サイズ制限を無効にする

一般的に、結果が、対処できる妥当なサイズであると確信できない限り、[結果サイズ (%)]オプションをオフにしないでください。結果の数に制限を設けることなくあいまい重複操作を実行すると、処理時間が非常に長くなる、または使用可能なメモリを超過し、その結果、処理が終了します。

あいまい重複グループの最大サイズの設定

SET コマンドを使用してあいまい重複グループの最大サイズを指定することは、グループのサイズを制限する 1 つの方法です。サイズが制限されなければ、多くの誤検出が含まれるでしょう。この機能は、出力結果のいくつかのグループのみを対象にサイズを制限する設定を見つける場合には非常に有効です。全グループまたはグループの大半がその最大サイズに達するような場合は、設定が小さすぎるかもしれません。また、これによって有効なあいまい重複が除外されてしまう可能性があります。このほか、相違の設定が十分に制限されていない可能性もあります。これにより、グループのサイズが大きくなってしまいます。

最大グループ サイズの既定の値は 20 です。これにグループの所有者は含みません。既定以外の値にする場合は、2 から 100 までの数値を指定できます。指定された最大サイズは、Analytics セッションの間は有効となります。

グループが最大サイズに達した場合の動作

1 つのあいまい重複グループが最大サイズに達すると、それ以降、そのグループ所有者に対するあいまい重複は検出されず、そのグループには現れません。その除外されたあいまい重複が、後続のグループに現れるかどうかはわかりません。これは、そのあいまい重複が後続のあいまい重複一致の一部であるかどうかで決まります。

分析において、最大サイズに達したグループの所有者に対するあいまい重複の完全な一覧を生成することが重要な場合は、この目的のために ISFUZZYDUP( ) 関数を使用することができます。詳細については、あいまい重複のヘルパー関数を参照してください。

1 つ以上のグループがその最大サイズに達した場合、メッセージがログに表示されます。最大サイズに達したグループ数が 10 以下の場合、そのグループはグループ番号によって個別に識別されます。

完全な重複はグループ サイズ計算に含まれます

完全な重複は結果に含めないようにした([完全な重複を含める]オプションがオフ)場合でも、それはグループ サイズの計算に含まれます。たとえば、あるグループが、最大グループ サイズ 20(グループ所有者 1 とグループ メンバー 20)に達したとしてログに表示されたが、結果にはグループ メンバーが 18 個しか現れなかった場合、検査フィールドにグループ所有者の完全重複が最低でも 2 つ存在しています。

すべてが完全重複で構成されるグループも、最大グループ サイズに達した場合はログに表示されます。しかし、完全な重複を結果に含めないようにしていた([完全な重複を含める]オプションがオフ)場合は、そのグループは出力結果に現れません。

詳細については、SET コマンドを参照してください。