異常値の特定

Analytics で異常値機能を使用すると、正常ではなく、詳細な調査が必要な可能性があるレコードを特定できます。

異常値とは何か

異常値とは、グループのレコードの数値金額とは大幅に異なる数値金額を含むレコードです。

グループの異常値の例

買掛金ファイルで、一般的に、特定の会社からの請求書は、$500 から $1,000 の範囲です。しかし、$8,500 の請求書が 1 つあります。

メモ

正当な理由で、レコードが異常値になることがあります。一般的に、Analytics で特定された異常値をさらに調査し、実際に問題があるかどうかを判断する必要があります。

レコードのグループ化は任意です

データの異常値を調べるときには、レコードをグループ化する必要はありません。特定のグループ内ではなく、テーブル全体で異常値を検出できます。

レコードの全体セットの異常値の例

買掛金ファイルで、一般的に、請求書の全体セットは、$40 から $5,000 の範囲です。しかし、$20,000 を超える請求書が 3 つあります。

異常値が特定される方法

レコードの各グループまたはレコードの全体セットに対して、Analytics は特定の数値フィールドの標準偏差または標準偏差の乗数を使用して、異常値の上限と下限を設定します。

上限より大きいか下限より小さい数値フィールドの値の任意のレコードが、異常値として出力結果に追加されます。

標準偏差はデータセットの分布の測定です。つまり、値の拡散方法を測定します。異常値計算は母集団標準偏差を使用します。

数値のセットの異常値の特定

次のセットの数値で異常値を特定します。

-3, -3, -1, 2, 3, 5, 6, 6, 8, 11

数値の平均は 3.40 です。平均は、セットの標準偏差（SD）を計算するために使用されます：4.45。

平均 ± 1 標準偏差

最初の例では、平均 ± 1 標準偏差を使用して、異常値の上限と下限を設定します。4 つの値が異常値として特定されます。

平均 ± 1.5 標準偏差

2 番目の例では、平均 ± 1.5 標準偏差を使用して、異常値の上限と下限を設定します。1 つの値のみが異常値として特定されます。

異常値の境界の設定

必要に応じて、異常値の境界を設定するか、異なる位置をテストし、結果を比較できます。

境界を設定するには、異常値フィールドの標準偏差の正の乗数を指定します：0.5、1、1.5 など。たとえば、1.5 の乗数を指定する場合、異常値の境界は、異常値フィールドの値の平均または中央値の上下 1.5 標準偏差です。

同じデータセットに対し、標準偏差の乗数の値を大きくすると、出力結果の異常値の数が減る可能性があります。

データの分布

数値データのセットの値は、通常、最も小さい値から最も大きい値の範囲で分散します。正規分布では、値はデータの中心点付近に均等に分布し、ベル形状の曲線を描きます。一般的に、中心点は、値の平均として定義されますが、中央値または最頻値のこともあります。

ガイドライン

異常値機能の設定を指定するときには、分析しているデータの本質を考慮してください。

データの本質	設定ガイドライン
値が小さい範囲でクラスター化される	小さい標準偏差乗数を使用します。1 から始めます。1.25 などの小数の乗数を使用し、正確な調整を行います。
値が大きい範囲で分散される	大きい標準偏差乗数を使用します。3 から始めます。
データが歪んでいる。データの残りと比較して、大きい値または小さい値の割合が少ない	検査している値の中央点を計算する方法として、平均ではなく、中央値を使用します。

出力結果に基づく調整

結果が多すぎる標準偏差の乗数を大きくします
結果が少なすぎるか、結果がない標準偏差の乗数を小さくします

数値の乗数を使用でき、乗数は 1 未満です。例: 0.75。

手順

異常値をテストするテーブルを開きます。
Analytics メインメニューから、［分析 > 異常値］を選択します。
［方法］の下で、調査している数値フィールドの値の中心点を計算する方法を選択します。
- 平均
- 中央値
［標準偏差の回数］で、異常値の境界に使用する標準偏差の乗数を指定します。
任意の正の整数または 10 進数（0.5、1、1.5、2、...）を指定できます。
次のいずれかを実行します。
- ［主キー］リストから、テーブルのレコードをグループ化するために使用する 1 つ以上のキーフィールドを選択します。
  ヒント
  隣接する複数のフィールドを選択するには、Shift キー + クリックを、隣接していない複数のフィールドを選択するには、Ctrl キー + クリックを利用できます。
- ［キーなし］を使用すると、特定のグループ内ではなく、テーブル全体の異常値を特定します。
［フィールド］リストから、異常値を調査する数値フィールドを選択します（異常値フィールド）。
省略可能。［他のフィールド］リストで、出力テーブルに含める 1 つ以上の追加フィールドを選択します。
メモ
キーフィールドと異常値フィールドは、自動的に出力テーブルに追加されるため、選択する必要はありません。
現在のビューの中に処理から除外したいレコードがある場合は、［If］テキストボックスに条件を指定します。直接入力するか、または［If］ボタンをクリックし、式ビルダーを利用して IF ステートメントを作成します。

メモ

If 条件は、任意の範囲オプション（First、Next、While）が適用された後に、テーブルに残るレコードに対してのみ評価されます。

IF ステートメントは、ビュー内のすべてのレコードを判断し、指定された条件を満たさないレコードを除外します。
次のいずれかを実行します。
1. ［保存先］テキストボックスに、出力テーブルの名前を指定します。
2. ［画面］を選択し、Analytics 表示領域に結果を出力します。
必要に応じて、［事前並べ替え］を選択解除します。
メモ
ガイダンスは以下に示します。
［詳細］タブ
1. 省略可能。レコードのサブセットのみが処理されることを指定するには、［範囲］パネルでオプションのいずれかを選択します。
2. 省略可能。出力テーブルを自動的に開くようにするには、［出力テーブルの使用］をオンにします。
3. ［OK］をクリックします。

［異常値］ダイアログボックスオプション

次の表は、［異常値］ダイアログボックスのオプションの詳細を示します。

［メイン］タブ

異常値 - ［異常値］ダイアログボックス

説明

平均

中央値

異常値フィールドの値の中心点を計算する方法。

平均を指定すると、フィールドの値の平均（平均値）が使用されます。
中央値はフィールドの値の中央値を使用します

中心点は、異常値フィールドの値の標準偏差を計算するときに使用されます。

メモ

［中央値］を選択する場合、異常値フィールドを並べ替える必要があります。異常値フィールドが並べ替えられていない場合は、［事前並べ替え］を選択します。

ヒント

異常値がないかどうかを調べるデータに大きな偏りがある場合は、中央値を指定した方が、データの大勢をより正しく表す結果を生成することができます。

標準偏差の回数

異常値フィールドにおいて、平均または中央値から異常値の上限および下限までに含まれる標準偏差の数。任意の正の整数または小数値（0.5, 1, 1.5, 2 . . . ）を指定できます

Fたとえば、2 と指定すると、各キーフィールドグループまたはフィールドが全体として次のように設定されます。

平均または中央値より標準偏差の 2 倍だけ大きい、異常値の上限
平均または中央値未満の異常値下限 2 標準偏差

上限より大きいか下限より小さい異常値フィールドの任意の値が、異常値として出力結果に追加されます。

メモ

同じデータセットに対し、標準偏差の数の値を大きくすると、出力結果の異常値の数が減る可能性があります。

主キー

省略可能

テーブルのデータをグループ化するために使用するフィールド。

キーフィールドグループごとに、異常値フィールドにおけるそのグループの数値に関する標準偏差が計算されます。このグループの標準偏差は、グループの異常値を検出するための基準値として使用されます。

キーフィールドには、文字、数値、または日付時刻があります。複数のフィールドはデータ型を任意に組み合わせることができます。

複数のフィールドを選択すると、入れ子のグループが作成されます。入れ子でのフィールド間の順序は、フィールドを選択した順になります。

メモ

1 つまたは複数のキーフィールドを基準にして並べ替えを行っておく必要があります。1 つまたは複数のフィールドを基準にした並べ替えがまだ行われていない場合は、事前並べ替えを使用します。

キーなし

省略可能

テーブルのデータをグループ化しません。

異常値フィールドの標準偏差は全体として計算されます。このフィールドの標準偏差は、フィールドの異常値を検出するための基準値として使用されます。

フィールド

("異常値フィールド")

異常値がないかどうかを調べる数値型フィールド。一度に 1 つのフィールドしか調べることができません。

キーフィールドを指定した場合は、グループレベルの異常値が検出されます。［キーなし］を指定した場合は、フィールドレベルの異常値が検出されます。

その他のフィールド

省略可能

出力に含める 1 つ以上の追加フィールド。

メモ

キーフィールドと異常値フィールドは、自動的に出力テーブルに追加されるため、選択する必要はありません。

もし次の

省略可能

レコードを処理から除外する条件を作成できます

［If］テキストボックスに条件を入力するか、または［If］ボタンをクリックし、式ビルダーを利用して WHILE ステートメントを作成することができます。

変換先

省略可能

出力テーブルの名前と場所を指定します。

出力テーブルを Analytics プロジェクトフォルダーに保存するには、テーブル名のみを入力します。
プロジェクトフォルダー以外の場所に出力テーブルを保存するには、絶対ファイルパスや相対ファイルパスを指定したり、［保存先］をクリックし、別のフォルダーに移動します。
たとえば、C:\Results\Output.fil または Results\Output.fil のように指定します。

保存する出力テーブルの場所に関係なく、そのテーブルが開いているプロジェクトにまだ存在しないときは、プロジェクトに追加されます。

Analytics によってテーブル名があらかじめ設定されている場合は、その設定されている名前を受け入れることも、あるいは変更することもできます。

画面

省略可能

出力テーブルではなく、Analytics 表示領域に結果を表示します。

あらかじめ並べ替える

省略可能

当該のコマンドを実行する前に並べ替え操作を実行します。

事前並べ替えと以下を指定した場合：	並べ替えの基準:
1 つ以上のキー平均	キーフィールドまたはフィールドキーフィールド、次に異常値フィールド（異常値フィールドが計算される場合）メモ計算された異常値フィールドの並べ替えは内部的な Analytics の技術要件です。
1 つ以上のキー中央値(Median)	キーフィールド、次に異常値フィールド
キーなし平均	並べ替えなし
キーなし中央値(Median)	異常値フィールド

ヒント

入力テーブル内の 1 つまたは複数の該当フィールドを基準にした並べ替えが既に行われている場合は、事前並べ替えを選択しないことで処理時間を短縮できます。

［詳細］タブ

異常値 - ［異常値］ダイアログボックス	説明
範囲パネル	処理されるレコードを指定します。すべて（デフォルト）テーブルのすべてのレコードが処理されます。先頭 – このオプションを選択してテキストボックスに数を入力すると、テーブル内の先頭レコードから処理が開始され、指定した件数のレコードのみが処理対象とされます。次 – このオプションを選択してテキストボックスに数を入力すると、テーブルビュー内で現在選択されているレコードから処理が開始され、指定した件数のレコードのみが処理対象とされます。行内のデータではなく、左端の列の実際のレコード番号が選択されている必要があります。 While – WHILE ステートメントを使用して、条件に基づいてテーブル内のレコードの処理を制限するには、このオプションを選択します。［While］テキストボックスに条件を入力するか、または［While］ボタンをクリックし、式ビルダーを利用して WHILE ステートメントを作成することができます。 WHILE ステートメントでは、指定した条件が true と評価される間のみ、レコードを処理することができます。 While オプションは、"すべて"、"先頭"、または "次" オプションと組み合わせて使用することができます。メモ "先頭" または "次" オプションで指定されたレコード数は、テーブル内の物理的な順番またはインデックス順のレコードを参照するもので、ビューに適用されたフィルターやクイックソートは一切無視します。ただし、分析操作の結果ではすべてのフィルターを考慮します。ビューでクイックソートが実行されている場合、"次" は "先頭" のように動作します。
出力テーブルを開く	操作の完了時に、出力結果を含んでいる Analytics テーブルを自動的に開くかどうかを指定します。
OK	処理を実行します。上書きを確認するメッセージが表示されたら、適切なオプションを選択します。

[ トップに戻る ]

Analytics 14.1 ヘルプ

異常値の特定

異常値とは何か

グループの異常値の例

レコードのグループ化は任意です

レコードの全体セットの異常値の例

異常値が特定される方法

数値のセットの異常値の特定

平均 ± 1 標準偏差

平均 ± 1.5 標準偏差

異常値の境界の設定

データの分布

正規分布の標準偏差

平均から異常値 ±2.5 標準偏差

平均から異常値 ±3 標準偏差

ガイドライン

出力結果に基づく調整

手順

［異常値］ダイアログ ボックス オプション

［メイン］タブ

［詳細］タブ

［異常値］ダイアログボックスオプション