異常値の特定
Analytics で異常値機能を使用すると、正常ではなく、詳細な調査が必要な可能性があるレコードを特定できます。
異常値とは何か
異常値とは、グループのレコードの数値金額とは大幅に異なる数値金額を含むレコードです。
グループの異常値の例
買掛金ファイルで、一般的に、特定の会社からの請求書は、$500 から $1,000 の範囲です。しかし、$8,500 の請求書が 1 つあります。
メモ
正当な理由で、レコードが異常値になることがあります。一般的に、Analytics で特定された異常値をさらに調査し、実際に問題があるかどうかを判断する必要があります。
レコードのグループ化は任意です
データの異常値を調べるときには、レコードをグループ化する必要はありません。特定のグループ内ではなく、テーブル全体で異常値を検出できます。
レコードの全体セットの異常値の例
買掛金ファイルで、一般的に、請求書の全体セットは、$40 から $5,000 の範囲です。しかし、$20,000 を超える請求書が 3 つあります。
異常値が特定される方法
レコードの各グループまたはレコードの全体セットに対して、Analytics は特定の数値フィールドの標準偏差または標準偏差の乗数を使用して、異常値の上限と下限を設定します。
上限より大きいか下限より小さい数値フィールドの値の任意のレコードが、異常値として出力結果に追加されます。
標準偏差はデータセットの分布の測定です。つまり、値の拡散方法を測定します。異常値計算は母集団標準偏差を使用します。
数値のセットの異常値の特定
次のセットの数値で異常値を特定します。
-3, -3, -1, 2, 3, 5, 6, 6, 8, 11
数値の平均は 3.40 です。平均は、セットの標準偏差(SD)を計算するために使用されます:4.45。
平均 ± 1 標準偏差
最初の例では、平均 ± 1 標準偏差を使用して、異常値の上限と下限を設定します。4 つの値が異常値として特定されます。
平均 ± 1.5 標準偏差
2 番目の例では、平均 ± 1.5 標準偏差を使用して、異常値の上限と下限を設定します。1 つの値のみが異常値として特定されます。
異常値の境界の設定
必要に応じて、異常値の境界を設定するか、異なる位置をテストし、結果を比較できます。
境界を設定するには、異常値フィールドの標準偏差の正の乗数を指定します:0.5、1、1.5 など。たとえば、1.5 の乗数を指定する場合、異常値の境界は、異常値フィールドの値の平均または中央値の上下 1.5 標準偏差です。
同じデータ セットに対し、標準偏差の乗数の値を大きくすると、出力結果の異常値の数が減る可能性があります。
データの分布
数値データのセットの値は、通常、最も小さい値から最も大きい値の範囲で分散します。正規分布では、値はデータの中心点付近に均等に分布し、ベル形状の曲線を描きます。一般的に、中心点は、値の平均として定義されますが、中央値または最頻値のこともあります。
正規分布の標準偏差
正規分布値のセットの標準偏差を計算する場合、値の 68% が平均(±)の 1 つの標準偏差内に入り、値の 99.7% が平均(±)の 3 つの正規分布内に入ります。ごく一部の値のみが平均からの 3 つの標準偏差を超えます。
Analytics で分析するデータセットの値の分布は、一般的に、正規分布よりも歪んでいる場合があります。たとえば、取引ファイルに、相対的に小さい数千件の取引と数件の大きい取引があることがあります。ただし、異常値の境界が Analytics で動作する方法を簡潔に示すために、正規分布を使用できます。
以下の例のように、標準偏差乗数を大きくすると、異常値の上限と下限が分布曲線の最後近くに移動します。境界が最後に近づくにつれ、境界外の値が減っていきます。
平均から異常値 ±2.5 標準偏差
平均から +2.5 標準偏差または -2.5 標準偏差未満は、出力結果に異常値として含まれます。
平均から異常値 ±3 標準偏差
平均から +3 標準偏差または -3 標準偏差未満は、出力結果に異常値として含まれます。
ガイドライン
異常値機能の設定を指定するときには、分析しているデータの本質を考慮してください。
データの本質 | 設定ガイドライン |
---|---|
値が小さい範囲でクラスター化される | 小さい標準偏差乗数を使用します。1 から始めます。1.25 などの小数の乗数を使用し、正確な調整を行います。 |
値が大きい範囲で分散される | 大きい標準偏差乗数を使用します。3 から始めます。 |
データが歪んでいる。データの残りと比較して、大きい値または小さい値の割合が少ない | 検査している値の中央点を計算する方法として、平均ではなく、中央値を使用します。 |
出力結果に基づく調整
- 結果が多すぎる標準偏差の乗数を大きくします
- 結果が少なすぎるか、結果がない標準偏差の乗数を小さくします
数値の乗数を使用でき、乗数は 1 未満です。例: 0.75。
手順
- 異常値をテストするテーブルを開きます。
- Analytics メインメニューから、[分析 > 異常値]を選択します。
- [方法]の下で、調査している数値フィールドの値の中心点を計算する方法を選択します。
- 平均
- 中央値
- [標準偏差の回数]で、異常値の境界に使用する標準偏差の乗数を指定します。
任意の正の整数または 10 進数(0.5、1、1.5、2、...)を指定できます。
- 次のいずれかを実行します。
- [主キー]リストから、テーブルのレコードをグループ化するために使用する 1 つ以上のキー フィールドを選択します。
ヒント
隣接する複数のフィールドを選択するには、Shift キー + クリックを、隣接していない複数のフィールドを選択するには、Ctrl キー + クリックを利用できます。
- [キーなし]を使用すると、特定のグループ内ではなく、テーブル全体の異常値を特定します。
- [主キー]リストから、テーブルのレコードをグループ化するために使用する 1 つ以上のキー フィールドを選択します。
- [フィールド]リストから、異常値を調査する数値フィールドを選択します(異常値フィールド)。
- 省略可能。[他のフィールド]リストで、出力テーブルに含める 1 つ以上の追加フィールドを選択します。
メモ
キー フィールドと異常値フィールドは、自動的に出力テーブルに追加されるため、選択する必要はありません。
-
現在のビューの中に処理から除外したいレコードがある場合は、[If]テキスト ボックスに条件を指定します。直接入力するか、または[If]ボタンをクリックし、式ビルダーを利用して IF ステートメントを作成します。
メモ
If 条件は、任意の範囲オプション(First、Next、While)が適用された後に、テーブルに残るレコードに対してのみ評価されます。
IF ステートメントは、ビュー内のすべてのレコードを判断し、指定された条件を満たさないレコードを除外します。
- 次のいずれかを実行します。
- [保存先]テキスト ボックスに、出力テーブルの名前を指定します。
- [画面]を選択し、Analytics 表示領域に結果を出力します。
- 必要に応じて、[事前並べ替え]を選択解除します。
メモ
ガイダンスは以下に示します。
- [詳細]タブ
- 省略可能。レコードのサブセットのみが処理されることを指定するには、[範囲]パネルでオプションのいずれかを選択します。
- 省略可能。出力テーブルを自動的に開くようにするには、[出力テーブルの使用]をオンにします。
- [OK]をクリックします。
[異常値]ダイアログ ボックス オプション
次の表は、[異常値]ダイアログ ボックスのオプションの詳細を示します。
[メイン]タブ
異常値 - [異常値]ダイアログ ボックス | 説明 | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
平均 中央値 |
異常値フィールドの値の中心点を計算する方法。
中心点は、異常値フィールドの値の標準偏差を計算するときに使用されます。 メモ [中央値]を選択する場合、異常値フィールドを並べ替える必要があります。異常値フィールドが並べ替えられていない場合は、[事前並べ替え]を選択します。 ヒント 異常値がないかどうかを調べるデータに大きな偏りがある場合は、中央値を指定した方が、データの大勢をより正しく表す結果を生成することができます。 |
||||||||||
標準偏差の回数 | 異常値フィールドにおいて、平均または中央値から異常値の上限および下限までに含まれる標準偏差の数。任意の正の整数または小数値(0.5, 1, 1.5, 2 . . . )を指定できます Fたとえば、2 と指定すると、各キー フィールド グループまたはフィールドが全体として次のように設定されます。
上限より大きいか下限より小さい異常値フィールドの任意の値が、異常値として出力結果に追加されます。 メモ 同じデータ セットに対し、標準偏差の数の値を大きくすると、出力結果の異常値の数が減る可能性があります。 |
||||||||||
主キー 省略可能 |
テーブルのデータをグループ化するために使用するフィールド。 キー フィールド グループごとに、異常値フィールドにおけるそのグループの数値に関する標準偏差が計算されます。このグループの標準偏差は、グループの異常値を検出するための基準値として使用されます。 キー フィールドには、文字、数値、または日付時刻があります。複数のフィールドはデータ型を任意に組み合わせることができます。 複数のフィールドを選択すると、入れ子のグループが作成されます。入れ子でのフィールド間の順序は、フィールドを選択した順になります。 メモ 1 つまたは複数のキー フィールドを基準にして並べ替えを行っておく必要があります。1 つまたは複数のフィールドを基準にした並べ替えがまだ行われていない場合は、事前並べ替えを使用します。 |
||||||||||
キーなし 省略可能 |
テーブルのデータをグループ化しません。 異常値フィールドの標準偏差は全体として計算されます。このフィールドの標準偏差は、フィールドの異常値を検出するための基準値として使用されます。 |
||||||||||
フィールド ("異常値フィールド") |
異常値がないかどうかを調べる数値型フィールド。一度に 1 つのフィールドしか調べることができません。 キー フィールドを指定した場合は、グループ レベルの異常値が検出されます。[キーなし]を指定した場合は、フィールド レベルの異常値が検出されます。 |
||||||||||
その他のフィールド 省略可能 |
出力に含める 1 つ以上の追加フィールド。 メモ キー フィールドと異常値フィールドは、自動的に出力テーブルに追加されるため、選択する必要はありません。 |
||||||||||
もし次の 省略可能 |
レコードを処理から除外する条件を作成できます [If]テキスト ボックスに条件を入力するか、または[If]ボタンをクリックし、式ビルダーを利用して WHILE ステートメントを作成することができます。 |
||||||||||
変換先 省略可能 |
出力テーブルの名前と場所を指定します。
保存する出力テーブルの場所に関係なく、そのテーブルが開いているプロジェクトにまだ存在しないときは、プロジェクトに追加されます。 Analytics によってテーブル名があらかじめ設定されている場合は、その設定されている名前を受け入れることも、あるいは変更することもできます。 |
||||||||||
画面 省略可能 |
出力テーブルではなく、Analytics 表示領域に結果を表示します。 | ||||||||||
あらかじめ並べ替える 省略可能 |
当該のコマンドを実行する前に並べ替え操作を実行します。
ヒント 入力テーブル内の 1 つまたは複数の該当フィールドを基準にした並べ替えが既に行われている場合は、事前並べ替えを選択しないことで処理時間を短縮できます。 |
[詳細]タブ
異常値 - [異常値]ダイアログ ボックス | 説明 |
---|---|
範囲パネル | 処理されるレコードを指定します。
メモ "先頭" または "次" オプションで指定されたレコード数は、テーブル内の物理的な順番またはインデックス順のレコードを参照するもので、ビューに適用されたフィルターやクイック ソートは一切無視します。ただし、分析操作の結果ではすべてのフィルターを考慮します。 ビューでクイック ソートが実行されている場合、"次" は "先頭" のように動作します。 |
出力テーブルを開く | 操作の完了時に、出力結果を含んでいる Analytics テーブルを自動的に開くかどうかを指定します。 |
OK | 処理を実行します。 上書きを確認するメッセージが表示されたら、適切なオプションを選択します。 |