クラスと数値の予測

Analytics の自動機械学習を使用して、ラベルがないデータに関連付けられたクラスまたは数値を予測します。関心があるクラスまたは数値がデータに存在しない場合、データはラベルがありません。たとえば、機械学習を使用して、融資の債務不履行または将来の住宅価格を予測できます。

予測問題	予測タイプ	説明
融資の債務不履行	分類	年齢、職業、信用評価などの申請者情報に基づいて、融資を実行した場合に債務不履行になる申請者を予測します。つまり、申請者がクラス Default = Yes または Default = No に該当するかどうかということです。
将来の住宅価格	再帰	年齢、平方メートル、郵便番号、間取り、浴室・トイレの数などの特長に基づいて、将来の住宅の販売価格を予測します。

予測問題

予測タイプ

説明

融資の債務不履行

分類

年齢、職業、信用評価などの申請者情報に基づいて、融資を実行した場合に債務不履行になる申請者を予測します。

つまり、申請者がクラス Default = Yes または Default = No に該当するかどうかということです。

将来の住宅価格

再帰

年齢、平方メートル、郵便番号、間取り、浴室・トイレの数などの特長に基づいて、将来の住宅の販売価格を予測します。

自動機械学習

Analytics の機械学習は「自動」です。2 つの関連するコマンドである学習と予測は、予測モデルの学習と、予測モデルをラベルがないデータセットに適用することに関連するすべての演算作業を実行します。 Analytics の自動化によって、専門的なデータ科学技術を必要とせずに、自社データに対する機械学習を実行できます。

学習および予測ワークフロー

学習および予測ワークフローは 2 つの関連するプロセス、および 2 つの関連するデータセットから成ります。

学習プロセスは学習データセット（ラベル付き）を使用します
予測プロセスは新しいデータセット（ラベルなし）を使用します

学習プロセス

学習プロセスが先に実行され、ラベル付きフィールド（対象フィールド）を含む学習データセットを使用します。

ラベル付きフィールドには、学習データセットの各レコードに関連付けられる、既知のクラス、既知の数値が含まれます。たとえば、借り手が融資で債務不履行になったかどうか（Y/N）、や住宅の販売価格です。

機械学習アルゴリズムを使用して、学習プロセスが予測モデルを生成します。学習プロセスは、実行している予測タスクに最適なモデルを検出するために、さまざまな異なるモデル順列を生成します。詳細については、クラスと数値の予測を参照してください。

予測プロセス

予測プロセスは 2 番目に実行されます。学習プロセスによって生成される予測モデルが、学習データセットのデータに似ているデータを含む新しいラベルがないデータセットに適用されます。

融資の債務不履行情報や住宅販売価格などのラベル値は、将来のイベントであるため、新しいデータセットに存在します。

予測モデルを使用して、予測プロセスは、新しいデータセットの各ラベルがないレコードに関連付けられたクラスまたは数値を予測します。

学習および予測ワークフローの詳細

	プロセス	説明	データセットの例
1	トレーニング（学習コマンド）	学習コマンド学習データセットに対して学習コマンドを実行し、予測モデルを学習します。コマンドは、予測タスクに最適な単一のモデルを選択する前に、複数の異なる機械学習アルゴリズムを使用して、さまざまなモデルを生成します（「ウィニングモデル」）。学習データセットデータセットにはキーフィールド（機能）とラベル付きフィールド（対象フィールド）があります。学習学習プロセスは、キーフィールドとラベル付きフィールドとの関係を表す数学モデルを作成するものです。例たとえば、すべての他の機能が同等の場合、学習プロセスは、4 部屋あると、住宅の販売価格が $35,000 増加したことを検出するとします。 "Number of bedrooms" はキーフィールドで "sale price" はラベル付きフィールドです。予測モデル学習プロセスは、予測モデルを出力ファイルに保存します。	融資データ融資債務不履行情報 (Y/N) を含む履歴融資データ "Default" ラベル付きフィールドです。住宅データ販売価格を含む最近の住宅販売データ "Sale price" はラベル付きフィールドです。
2	予測（予測コマンド）	予測コマンド予測コマンドを使用して、学習コマンドで生成された予測モデルを適用します。新しいデータ学習データセットと同じキーフィールド（機能）があり、ラベル付きフィールドがない、新しいデータセットにモデルを適用します。予測予測プロセスは、予測モデルに保存された数学的関係を使用して、新しいデータセット内にある同様の関係を持つキーフィールド同士の関係に対するラベル値を予測します。例たとえば、他のすべての機能が等しい場合、予測プロセスは 3 ベッドルームの部屋の販売価格を $400,000 と予測し、4 ベッドルームの場合 $435,000 と予測します。確率（分類のみ）各予測された値に対して、予測出力には、予測が正確である確率または信頼度が含まれます。	融資データ現在の融資申請者データ融資債務不履行情報は存在しません。融資は申請段階だからです。住宅データ住宅価格評価データ最近の販売データは存在しません。住宅はまだ販売されていないためです。

プロセス

説明

データセットの例

トレーニング

（学習コマンド）

学習コマンド学習データセットに対して学習コマンドを実行し、予測モデルを学習します。
コマンドは、予測タスクに最適な単一のモデルを選択する前に、複数の異なる機械学習アルゴリズムを使用して、さまざまなモデルを生成します（「ウィニングモデル」）。
学習データセットデータセットにはキーフィールド（機能）とラベル付きフィールド（対象フィールド）があります。
学習学習プロセスは、キーフィールドとラベル付きフィールドとの関係を表す数学モデルを作成するものです。
例たとえば、すべての他の機能が同等の場合、学習プロセスは、4 部屋あると、住宅の販売価格が $35,000 増加したことを検出するとします。
"Number of bedrooms" はキーフィールドで "sale price" はラベル付きフィールドです。
予測モデル学習プロセスは、予測モデルを出力ファイルに保存します。

融資データ融資債務不履行情報 (Y/N) を含む履歴融資データ
"Default" ラベル付きフィールドです。
住宅データ販売価格を含む最近の住宅販売データ
"Sale price" はラベル付きフィールドです。

予測

（予測コマンド）

予測コマンド予測コマンドを使用して、学習コマンドで生成された予測モデルを適用します。
新しいデータ学習データセットと同じキーフィールド（機能）があり、ラベル付きフィールドがない、新しいデータセットにモデルを適用します。
予測予測プロセスは、予測モデルに保存された数学的関係を使用して、新しいデータセット内にある同様の関係を持つキーフィールド同士の関係に対するラベル値を予測します。
例たとえば、他のすべての機能が等しい場合、予測プロセスは 3 ベッドルームの部屋の販売価格を $400,000 と予測し、4 ベッドルームの場合 $435,000 と予測します。
確率（分類のみ）各予測された値に対して、予測出力には、予測が正確である確率または信頼度が含まれます。

融資データ現在の融資申請者データ
融資債務不履行情報は存在しません。融資は申請段階だからです。
住宅データ住宅価格評価データ
最近の販売データは存在しません。住宅はまだ販売されていないためです。

処理時間

機械学習で必要な演算は時間がかかり、プロセッサーの負荷が高くなります。多数のフィールドを含む大きいデータセットを使用して予測モデルを学習するには数時間かかることがあり、通常は夜間に実行するタスクです。

ヒント

Analytics の機械学習に慣れる場合は、小さいデータセットを使用し、処理時間を管理可能に保つと、結果が比較的速く表示されます。

学習データセットのサイズを削減するためのストラテジー

さまざまなストラテジーを使用して、結果の予測モデルの精度に大幅な影響を与えずに、学習データセットのサイズ、関連付けられた処理時間を減らすことができます。

予測精度に影響せずに学習プロセスからフィールドを除外する関連のないフィールドと冗長なフィールドを除外します。
学習データセットを抽出し、学習プロセスの入力として、抽出されたデータを使用します。考えられるサンプリングアプローチ：
- 大半のクラスをサンプリングしてデータクラスのサイズのバランスを保ち、平均的な少数のクラスサイズを近似する
- 学習データセット全体のランダムサンプリング
- 機能に基づく階層化サンプリング
- クラスターに基づく階層化サンプリング

予測モデルの学習

メモ

学習プロセスで使用されるデータセットのサポートされる最大サイズは 1 GB です。

手順

学習プロセスの基本設定を指定する

学習データセットがある Analytics テーブルを開きます。
Analytics メインメニューで、［機械学習 > 学習］を選択します。

学習プロセスに割り当てられた時間を指定します。

最適なモデルを検索する時間

予測モデルの生成とテスト、およびウィニングモデルの選択にかかる合計時間（分）。

モデルごとに、最大評価時間の 10 倍の検索時間を指定します。

モデル評価の最大時間

モデル評価ごとの最大実行時間（分）。

100 MB の学習データごとに 45 分を割り当てます。

メモ

学習プロセスの合計実行時間は、検索時間と最大モデル評価時間を最大で 2 倍した値の合計です。

これらの提案された時間割り当ては、処理時間と多様なモデルタイプの評価を可能にすることの間で、合理的なバランスを取っています。

使用する予測タイプを指定する：
- 分類分類アルゴリズムを使用して、モデルを学習します
  レコードが属するクラスまたはカテゴリを予測する場合は分類を使用します。
- 回帰回帰アルゴリズムを使用して、モデルを学習します
  ラベルがないデータセットのレコードに関連付けられた数値を予測する場合は回帰を使用します。
分類と回帰で使用される特定のアルゴリズムについては、学習アルゴリズムを参照してください。
［モデルスコアラー］ドロップダウンリストで、学習プロセス中に生成されたモデルのスコアを決定するときに使用するメトリクスを選択します。
生成されたモデルのうち、このメトリクスの最善値を有するモデルが保持され、そうでないモデルは破棄されます。
使用している予測タイプによって、異なるサブセットのメトリクスを使用できます。
分類ログ損失 | AUC | 正確度 | F1 | 適合率 | 再現率
再帰平均二乗誤差 | 平均絶対誤差 | R2
メモ
分類メトリクス AUC は、バイナリデータ（Yes/No、True/False などの 2 つのクラス）が含まれるターゲットフィールドで使用されるときにのみ有効です。

フィールドの選択

［学習対象］リストで、モデルを学習するときに入力として使用する 1 つ以上のキーフィールドを選択します。
キーフィールドは、ラベルがないデータセットで対象フィールド値を予測する基礎となる機能です。キーフィールドは、文字、数値、または論理型を使用できます。
メモ
文字フィールドは「分類的」である必要があります。つまり、カテゴリまたはクラスを特定し、最大数の一意の値を含む必要があります。
最大値は［最大カテゴリ］オプション（［ツール > オプション > コマンド）で指定されます。
ヒント
隣接する複数のフィールドを選択するには、Shift キー + クリックを、隣接していない複数のフィールドを選択するには、Ctrl キー + クリックを利用できます。
［対象フィールド］リストから、対象フィールドを選択します。
対象フィールドは、入力キーフィールドに基づいて予測するようにモデルが学習されているフィールドです。
分類と回帰はさまざまな対象フィールドデータ型で機能します。
- 分類文字または論理対象フィールド
- 回帰数値対象フィールド

モデルファイルと出力 ACL テーブルの名前を指定する

［モデル名］テキストボックスで、学習プロセスで出力されたモデルファイル出力の名前を指定します。
モデルファイルには、学習データセットに最適なモデルが含まれます。モデルファイルを予測プロセスに入力し、新しい未確認のデータセットに関する予測を生成します。
［保存先］テキストボックスで、学習プロセスで出力されたモデル評価テーブル出力の名前を指定します。
モデル評価テーブルには、以下の 2 つの異なるタイプの情報が格納されています。
- スコアラー/メトリクス。これらは、学習プロセスによって生成されたモデルファイルの予測パフォーマンスの定量的な推定、分類メトリクスまたは回帰メトリクスを意味します。
- 重要性/係数（降順）：モデルによって生成された予測に対する各機能（予測印子）の寄与度を示す値。
現在のビューの中に処理から除外したいレコードがある場合は、［If］テキストボックスに条件を指定します。直接入力するか、または［If］ボタンをクリックし、式ビルダーを利用して IF ステートメントを作成します。

メモ

If 条件は、任意の範囲オプション（First、Next、While）が適用された後に、テーブルに残るレコードに対してのみ評価されます。

IF ステートメントは、ビュー内のすべてのレコードを判断し、指定された条件を満たさないレコードを除外します。

学習データセットのサブセットのみが使用されることを指定する（任意）

［詳細］タブで、［範囲］パネルのオプションのいずれかを選択します。

すべて（デフォルト）	テーブルのすべてのレコードが処理されます。
先頭	このオプションを選択してテキストボックスに数を入力すると、テーブル内の先頭レコードから処理が開始され、指定した件数のレコードのみが処理対象とされます。
次へ	このオプションを選択してテキストボックスに数を入力すると、テーブルビュー内で現在選択されているレコードから処理が開始され、指定した件数のレコードのみが処理対象とされます。行内のデータではなく、左端の列の実際のレコード番号が選択されている必要があります。
While	WHILE ステートメントを使用して、条件に基づいてテーブル内のレコードの処理を制限するには、このオプションを選択します。

学習プロセスの詳細設定を指定する

［詳細］タブ［交差検証分割数］を指定します。
既定の数値の 5 を使用するか、別の数値を指定します。有効な数値は 2 ～ 10 です。
分割は学習データセットの下位分割であり、モデル評価と最適化中に、交差検証プロセスで使用されます。
一般的に、モデルの学習時に、5 ～ 10 分割を使用すると、適切な結果が得られます。
ヒント
分割数が増えると、モデルの予測性能の推定値が改善されることがありますが、全体的な実行時間も長くなります。
省略可能。［シード］を選択し、数値を入力します。
Analytics の乱数ジェネレーターを初期化するために使用するシード値。
シードを省略した場合は、シード値がランダムに選択されます。
明示的にシード値を指定し、将来に学習プロセスを同じデータセットで複製したい場合は、それを記録します。
省略可能。線形モデルのみを学習し、スコアを決定するには、［線形モデルのみを評価する］を選択します。
このオプションを未選択にする場合、分類または再帰に関連するすべてのモデルタイプが評価されます。
メモ
データセットが大きくなると、一般的に、線形モデルのみが含まれている場合に、学習プロセスがより短い時間で完了します。
線形モデルのみを含めると、出力の係数が保証されます。
省略可能。学習プロセスからこれらの下位プロセスを除外するには、［機能選択と前処理を無効にする］を選択します。
機能選択は、予測モデルを最適化する際に最も有用な学習データセットで、自動化されたフィールドの選択です。自動化された選択は予測性能を改善することがありますが、モデル最適化に関連するデータ量が減ります。
データ前処理は、学習データセットでの調整や標準化などの変換を実行し、学習アルゴリズムにより適したものにします。
注意
理由がある場合にかぎり、機能選択とデータ前処理を無効にしてください。
［OK］をクリックします。
学習プロセスが開始し、指定した入力設定と経過した処理時間を示すダイアログボックスが表示されます。

予測モデルをラベルがないデータセットに適用する

手順

ラベルがないデータセットがある Analytics テーブルを開きます。
Analytics メインメニューで、［機械学習 > 予測］を選択します。
［モデル］をクリックし、［ファイルを選択］ダイアログボックスで、前の学習プロセスによって生成されたモデルファイルを選択し、［開く］をクリックします。
モデルファイルのファイル拡張子は *.model です。
メモ
モデルファイルは、ラベルのないデータセットと同じフィールドまたはほぼ同じフィールドのデータセットで学習されている必要があります。
［保存先］テキストボックスで、予測プロセスで出力された Analytics テーブル出力の名前を指定します。
この出力テーブルには、学習プロセス中に指定したキーフィールドと、予測プロセスで生成された、以下の 1 つまたは 2 つのフィールドが含まれます。
- 予測ラベルがないデータセットの各レコードに関連付けられた予測されたクラスまたは数値
- 確率（分類のみ）予測されたクラスが正しい確率
現在のビューの中に処理から除外したいレコードがある場合は、［If］テキストボックスに条件を指定します。直接入力するか、または［If］ボタンをクリックし、式ビルダーを利用して IF ステートメントを作成します。

メモ

If 条件は、任意の範囲オプション（First、Next、While）が適用された後に、テーブルに残るレコードに対してのみ評価されます。

IF ステートメントは、ビュー内のすべてのレコードを判断し、指定された条件を満たさないレコードを除外します。
省略可能。ラベルがないデータセットのサブセットのみを処理するには、［詳細］タブで、［範囲］パネルのオプションのいずれかを選択します。
［OK］をクリックします。

学習アルゴリズム

3 つの学習コマンドオプションは、予測モデルを学習するために使用される機械学習アルゴリズムを指示します。

オプション	学習ダイアログボックスタブ
分類または再帰	［メイン］タブ
線形モデルのみを評価	［詳細］タブ
機能選択と前処理を無効にする	［詳細］タブ

次のセクションでは、使用されるアルゴリズムを制御するオプションを要約します。

アルゴリズム名は、Analytics ユーザーインターフェイスに表示されません。学習コマンドによって最終的に選択されたモデルを生成するために使用されるアルゴリズムの生がログに表示されます。

分類アルゴリズム

詳しく表示

使用されるアルゴリズム 使用されないアルゴリズム

			"線形モデルのみを評価"		"機能選択と前処理を無効にする"
アルゴリズムタイプ	アルゴリズム	常に含まれる	選択されていないオプション（デフォルト）	選択されたオプション	選択されていないオプション（デフォルト）	選択されたオプション
分類化	ロジスティック回帰
	線形サポートベクターマシン
	ランダムフォレスト
	Extremely Randomized Trees
	勾配ブースティングマシン
機能プリプロセッサー	ワンホットエンコーディング（カテゴリ特徴量）
	Fast 独立成分分析
	Feature Agglomeration
	主成分分析（特異値分解）
	Second Degree Polynomial Features
	Binarizer
	ロバストスカラー
	標準スカラー
	最大絶対スカラー
	最小最大スカラー
	Normalizer
	ニューストレムカーネル近似
	RBF カーネル近似
	ゼロカウンター
特徴選択	ファミリーワイズエラー率
	最高スコア百分位
	差異しきい値
	再帰的特徴消去
	重要度重み

再帰アルゴリズム

詳しく表示

使用されるアルゴリズム 使用されないアルゴリズム

			"線形モデルのみを評価"		"機能選択と前処理を無効にする"
アルゴリズムタイプ	アルゴリズム	常に含まれる	選択されていないオプション（デフォルト）	選択されたオプション	選択されていないオプション（デフォルト）	選択されたオプション
リグレッサー	Elastic Net
	Lasso
	Ridge
	線形サポートベクターマシン
	ランダムフォレスト
	Extremely Randomized Trees
	勾配ブースティングマシン
機能プリプロセッサー	ワンホットエンコーディング（カテゴリ特徴量）
	Fast 独立成分分析
	Feature Agglomeration
	主成分分析（特異値分解）
	Second Degree Polynomial Features
	Binarizer
	ロバストスカラー
	標準スカラー
	最大絶対スカラー
	最小最大スカラー
	Normalizer
	ニューストレムカーネル近似
	RBF カーネル近似
	ゼロカウンター
特徴選択	ファミリーワイズエラー率
	最高スコア百分位
	差異しきい値
	重要度重み

クラスと数値の予測

自動機械学習