データのクラスター

クラスターは、1 つ以上の数値キー フィールドの類似した値に基づいて、テーブルのレコードをグループ化します。類似した値は、データセット全体のコンテキストで相互に近い値です。これらの類似した値は、特定されると、データのパターンを明らかにするクラスターを表します。

他の Analytics グループ化コマンドとクラスターの違い

クラスターは他の Analytics グループ化コマンドとは異なります。

  • クラスターは、正確な値、またはハード数値境界のある定義済み層でのグループ化を必要としません。代わりに、クラスターは類似した数値(つまり、相互に近い値)に基づいてデータをグループ化します。
  • クラスターは、既存のデータ カテゴリを必要としません。
  • 複数のフィールドに基づくクラスターは、ネストされない(非階層)結果を出力します。

クラスター アルゴリズムの仕組み

Analytics のクラスターは、k 平均法アルゴリズムを使用します。これは、一般的な機械学習アルゴリズムです。k 平均法の詳細については、インターネットの説明をご覧ください。

アルゴリズムの概要は以下のとおりです。

クラスター数(K 値)の選択

データのクラスター化で使用する最適なクラスター数を決定するには、テストと実験が必要になることがあります。特定のデータセットに対する、正確な答えはありません。

クラスター対象のフィールドの選択

クラスターにより、存在することを知らないデータの有機的なグループを検出することができます。複数の数値フィールドに基づいて、クラスターを自由に作成できます。この意味で、クラスターは説明的であり、監視されない機械学習の例です。

ただし、出力クラスターを理解するには、クラスターで選択したフィールドの関係を理解する必要があります。

文字または日付時刻フィールドでクラスター化できますか。

一般的に、文字または日付時刻フィールドでクラスター化できません。クラスター アルゴリズムは数値だけを許可し、数値で計算を実行します(ユークリッド距離、中央値)

出力クラスターの評価

クラスター アルゴリズムは、常に、指定されたクラスター数のテーブルを出力します。出力テーブルのすべてのレコードはクラスターにあります。

この時点では、クラスターのいずれかに分析上の有意性または意味があるかどうかを評価する必要があります。アルゴリズムがクラスターのレコードをグループ化するからといって、必ずしも、グループ化が有意であるわけではありません。

評価できる 2 つの特定は、クラスターの一貫性とクラスター サイズです。

ヒント

クラスター出力テーブルをレポート ツールの散布図としてグラフ化し、各クラスターに別の色を割り当てると、出力クラスターの特性をすばやく、簡単に評価できます。

手順

クラスター アルゴリズムの設定の指定

  1. クラスター化するデータがあるテーブルを開きます。
  2. Analytics メインメニューで、[機械学習 > クラスター]を選択します。
  3. クラスター数(k 値)]で、データをグループ化するために使用するクラスター数を指定します。
  4. 最大繰り返し数]で、クラスター アルゴリズムで実行される反復数の上限を指定します。
  5. 初期化数]で、ランダム中心の初期セットを生成する回数を指定します。
  6. 省略可能。[シード]を選択し、数値を入力します。

データ処理方法の指定

処理]ドロップダウンリストで、クラスター化する前に、データを処理する方法を選択します。

標準化 ゼロ(0)周辺のキー フィールド値を中央化し、クラスターを計算するときに値を単位分散に調整します
単位分散になるようにスケール クラスターを計算するときに値を単位分散に調整しますが、ゼロ(0)周辺の値を中央化しません
なし クラスターを計算するときに、未調整の未加工キー フィールド値を使用します

フィールドの選択

  1. 対象クラスター]リストから、テーブルのレコードをクラスター化するために使用する 1 つ以上のキー フィールドを選択します。

    キー フィールドは数値である必要があります。

  2. 省略可能。[他のフィールド]リストで、出力テーブルに含める 1 つ以上の追加フィールドを選択します。

ヒント

隣接する複数のフィールドを選択するには、Shift キー + クリックを、隣接していない複数のフィールドを選択するには、Ctrl キー + クリックを利用できます。

コマンド入力の確定

  1. 現在のビューの中に処理から除外したいレコードがある場合は、[If]テキスト ボックスに条件を指定します。直接入力するか、または[If]ボタンをクリックし、式ビルダーを利用して IF ステートメントを作成します。

    メモ

    If 条件は、任意の範囲オプション(FirstNextWhile)が適用された後に、テーブルに残るレコードに対してのみ評価されます。

    IF ステートメントは、ビュー内のすべてのレコードを判断し、指定された条件を満たさないレコードを除外します。

  2. 保存先]テキスト ボックスに、出力テーブルの名前を指定します。
  3. 省略可能。[詳細]タブ
    1. レコードのサブセットのみが処理されることを指定するには、[範囲]パネルでオプションのいずれかを選択します。
    2. 出力テーブルを自動的に開くようにするには、[出力テーブルの使用]をオンにします。
  4. OK]をクリックします。
Analytics 14.1 ヘルプ