データのクラスター

クラスターは、1 つ以上の数値キーフィールドの類似した値に基づいて、テーブルのレコードをグループ化します。類似した値は、データセット全体のコンテキストで相互に近い値です。これらの類似した値は、特定されると、データのパターンを明らかにするクラスターを表します。

他の Analytics グループ化コマンドとクラスターの違い

クラスターは他の Analytics グループ化コマンドとは異なります。

クラスターは、正確な値、またはハード数値境界のある定義済み層でのグループ化を必要としません。代わりに、クラスターは類似した数値（つまり、相互に近い値）に基づいてデータをグループ化します。
クラスターは、既存のデータカテゴリを必要としません。
複数のフィールドに基づくクラスターは、ネストされない（非階層）結果を出力します。

クラスターアルゴリズムの仕組み

Analytics のクラスターは、k 平均法アルゴリズムを使用します。これは、一般的な機械学習アルゴリズムです。k 平均法の詳細については、インターネットの説明をご覧ください。

アルゴリズムの概要は以下のとおりです。

詳しく表示

k 平均法アルゴリズムは、反復プロセスを使用して、クラスターを最適化します。

1	クラスター数の指定	データセットをグループ化するために使用するクラスターまたはグループ数を決定します。"K" は指定するクラスター数を表します。データセットのデータ点は、単一数値フィールドの値、または複数の数値フィールドに基づいてアルゴリズムが演算する複合値にすることができます。
2	クラスター中心の初期化	ランダムデータ点のセットを生成し、クラスター計算の初期中心または中央点として使用します。生成された中心数は、指定したクラスター数と同じです。
3	各データ点を最も近い中心に割り当てる	各データ点から中心への最短距離を見つけます。距離の比較は平方ユークリッド距離を使用します。各データ点を最も近い中心に割り当てます。特定の中心に割り当てられたすべてのデータ点がクラスターになります。
4	中心の再計算	クラスターのすべてのデータ点の平均または中央値を計算します。中央値がクラスターの新しい中心になります。
5	反復	手順 3 および 4 を繰り返します。各データ点から中心への最短距離を再計算します。各データ点を最も近い中心に割り当てます。これにより、一部のデータ点がもう一度別のクラスターに割り当てられます。中心を再計算します。データ点が割り当てられなくなるまで、または指定された反復の最大数に達するまで、反復を繰り返します。各反復で、クラスターの構成がより一貫します。つまり、クラスターのデータ点はより近くなります。

クラスター数（K 値）の選択

データのクラスター化で使用する最適なクラスター数を決定するには、テストと実験が必要になることがあります。特定のデータセットに対する、正確な答えはありません。

クラスター対象のフィールドの選択

クラスターにより、存在することを知らないデータの有機的なグループを検出することができます。複数の数値フィールドに基づいて、クラスターを自由に作成できます。この意味で、クラスターは説明的であり、監視されない機械学習の例です。

ただし、出力クラスターを理解するには、クラスターで選択したフィールドの関係を理解する必要があります。

文字または日付時刻フィールドでクラスター化できますか。

一般的に、文字または日付時刻フィールドでクラスター化できません。クラスターアルゴリズムは数値だけを許可し、数値で計算を実行します（ユークリッド距離、中央値）

詳しく表示

カテゴリ文字データ

ロケーション ID などのカテゴリ文字データが数値の形式になっていることがあります。あるいは、演算フィールドを使用して、文字カテゴリを作成する数値コードのセットにマッピングできます。このデータを数値データ型に変換し、クラスターで使用できます。ただし、結果のクラスターは有効になりません。数値ではない対象を表す数値に対して数学的演算を実行するためです。

たとえば、ロケーション ID のリストの平均に基づいて中心位置を計算すると、意味のない数値になります。計算は、ロケーション番号間の数学的な距離が何らかの実際の世界の測定可能な距離と等しいという無効な想定に基づいています。

物理的な距離を考慮する場合、ロケーション 1 とロケーション 9 の間の距離がロケーション 1 とロケーション 5 の間の距離の 2 倍であるということは無意味です。ロケーション 1 と 9 は隣で、ロケーション 5 が数マイル離れている可能性があります。

ロケーションや物理的な距離に関するクラスター分析では、使用する有効なデータは地理座標です。

スケールを表すカテゴリデータ

スケールを表すカテゴリデータでクラスターできます。たとえば、不可から優までの評価スケールと、対応する 1 ～ 5 のコードです。この場合、数値コードの平均には意味があります。

日付時刻データ

Analytics 関数を使用して、日付時刻データを数値データに変換できます。ただし、結果の数値データは連続していません。これは、数値の連続セットを想定するクラスター分析では問題となります。

たとえば、次の 3 つの数値は、日付としては、1 日違いです。ただし、数値としては、最初と 2 番目の数値にかなりのギャップまたは距離があります。

20181130
20181201
20181202

クラスター分析では、シリアル日付値を使用できます。シリアル日付は、1900 年 1 月 1 日からの経過日数を表す、整数の連続セットです。

出力クラスターの評価

クラスターアルゴリズムは、常に、指定されたクラスター数のテーブルを出力します。出力テーブルのすべてのレコードはクラスターにあります。

この時点では、クラスターのいずれかに分析上の有意性または意味があるかどうかを評価する必要があります。アルゴリズムがクラスターのレコードをグループ化するからといって、必ずしも、グループ化が有意であるわけではありません。

評価できる 2 つの特定は、クラスターの一貫性とクラスターサイズです。

ヒント

クラスター出力テーブルをレポートツールの散布図としてグラフ化し、各クラスターに別の色を割り当てると、出力クラスターの特性をすばやく、簡単に評価できます。

手順

クラスターアルゴリズムの設定の指定

クラスター化するデータがあるテーブルを開きます。
Analytics メインメニューで、［機械学習 > クラスター］を選択します。
［クラスター数（k 値）］で、データをグループ化するために使用するクラスター数を指定します。
［最大繰り返し数］で、クラスターアルゴリズムで実行される反復数の上限を指定します。
［初期化数］で、ランダム中心の初期セットを生成する回数を指定します。
省略可能。［シード］を選択し、数値を入力します。

データ処理方法の指定

［処理］ドロップダウンリストで、クラスター化する前に、データを処理する方法を選択します。

標準化	ゼロ（0）周辺のキーフィールド値を中央化し、クラスターを計算するときに値を単位分散に調整します
単位分散になるようにスケール	クラスターを計算するときに値を単位分散に調整しますが、ゼロ（0）周辺の値を中央化しません
なし	クラスターを計算するときに、未調整の未加工キーフィールド値を使用します

フィールドの選択

［対象クラスター］リストから、テーブルのレコードをクラスター化するために使用する 1 つ以上のキーフィールドを選択します。
キーフィールドは数値である必要があります。
省略可能。［他のフィールド］リストで、出力テーブルに含める 1 つ以上の追加フィールドを選択します。

ヒント

隣接する複数のフィールドを選択するには、Shift キー + クリックを、隣接していない複数のフィールドを選択するには、Ctrl キー + クリックを利用できます。

コマンド入力の確定

現在のビューの中に処理から除外したいレコードがある場合は、［If］テキストボックスに条件を指定します。直接入力するか、または［If］ボタンをクリックし、式ビルダーを利用して IF ステートメントを作成します。

メモ

If 条件は、任意の範囲オプション（First、Next、While）が適用された後に、テーブルに残るレコードに対してのみ評価されます。

IF ステートメントは、ビュー内のすべてのレコードを判断し、指定された条件を満たさないレコードを除外します。
［保存先］テキストボックスに、出力テーブルの名前を指定します。
省略可能。［詳細］タブ
1. レコードのサブセットのみが処理されることを指定するには、［範囲］パネルでオプションのいずれかを選択します。
2. 出力テーブルを自動的に開くようにするには、［出力テーブルの使用］をオンにします。
［OK］をクリックします。

[ トップに戻る ]

Analytics 14.1 ヘルプ