TRAIN コマンド

自動的な機械学習を使用して、トレーニング データ セットに対する最適の予測モデルを作成します。

メモ

Analytics を 32 ビット コンピューターで実行する場合は、TRAIN コマンドはサポートされません。 このコマンドに必要な演算は、プロセッサーの負荷が高いため、64 ビット コンピューターの方が適しています。

構文

TRAIN {CLASSIFIER|REGRESSOR} <ON> キー フィールド <...n> TARGET ラベル付きフィールド SCORER {ACCURACY|AUC|F1|LOGLOSS|PRECISION|RECALL|MAE|MSE|R2} SEARCHTIME  MAXEVALTIME  MODEL モデル名 TO テーブル名 <IF テスト> <WHILE テスト> <FIRST 範囲|NEXT 範囲> FOLDS 分割数 <SEED シード値> <LINEAR> <NOFP>

メモ

TRAIN コマンドで使用されるデータセットのサポートされる最大サイズは 1 GB です。

パラメーター

名前 説明
CLASSIFIER | REGRESSOR

予測モデルを学習するときに使用する予測タイプ。

  • CLASSIFIER 分類アルゴリズムを使用して、モデルを学習します

    レコードが属するクラスまたはカテゴリを予測する場合は分類を使用します。

  • REGRESSOR 回帰アルゴリズムを使用して、モデルを学習します

    レコードに関連付けられた数値を予測する場合は回帰を使用します。

ON キー フィールド <...n>

1 つ以上学習入力フィールド。

フィールドは、文字、数値、または論理型を使用できます。 複数のフィールドはスペースで区切る必要があります。

メモ

文字フィールドは「分類的」である必要があります。 つまり、カテゴリまたはクラスを特定し、最大数の一意の値を含む必要があります。

最大値は[最大カテゴリ]オプション([ツール > オプション > コマンド)で指定されます。

TARGET ラベル付きフィールド

学習入力フィールドに基づいて予測するようにモデルが学習されているフィールド。

別の予測タイプ(分類または回帰)は別のフィールド データ型で動作します。

CLASSIFIER で有効 文字または論理対象フィールド
REGRESSOR で有効 数値対象フィールド
SCORER ACCURACY | AUC | F1 | LOGLOSS | PRECISION | RECALL | MAE | MSE | R2

生成されたモデルのスコアを決定(調整およびランク付け)するときに使用するメトリクス。

生成されたモデルのうち、このメトリクスの最善値を有するモデルが保持され、そうでないモデルは破棄されます。

使用している予測タイプ(分類または回帰)に応じて、メトリクスの別のサブセットが有効となります。

CLASSIFIER で有効 SCORER ACCURACY | AUC | F1 | LOGLOSS | PRECISION | RECALL | MAE | MSE | R2
REGRESSOR で有効 MAE | MSE | R2

メモ

分類メトリクス AUC は、ラベル付きフィールドにバイナリ データ(Yes/No、True/False などの 2 つのクラス)が含まれるときにのみ有効です。

SEARCHTIME

予測モデルの学習および最適化にかかる合計時間(分)。

学習および最適化は、異なるパイプライン構成の検索を伴います(異なるモデル、プリプロセッサー、およびハイパーパラメーターの組み合わせ)。

メモ

TRAIN コマンドの合計実行時間は SEARCHTIME と最大で MAXEVALTIME の 2 倍です。

ヒント

MAXEVALTIME の 10 倍以上である SEARCHTIME を指定します。

この時間割り当ては、処理時間と多様なモデル タイプの評価を可能にすることの間で、合理的なバランスを取っています。

MAXEVALTIME

最大実行時間は、モデル評価ごとの分数です。

ヒント

100 MB の学習データごとに 45 分を割り当てます。

この時間割り当ては、処理時間と多様なモデル タイプの評価を可能にすることの間で、合理的なバランスを取っています。

MODEL モデル名

学習プロセスで生成されたモデル ファイル。

モデル ファイルには、学習データセットに最適なモデルが含まれます。 モデルを PREDICT コマンドに入力し、新しい未確認のデータセットに関する予測を生成します。

引用された文字列としてモデル名を指定します。 例:TO "Loan_default_prediction"

ファイル拡張子 *.model を指定するか、それを Analytics で自動で指定させます。

デフォルトでは、モデル ファイルは、Analytics プロジェクトが入っているフォルダーに保存されます。

既存の異なるフォルダーにモデル ファイルを保存するには、絶対または相対ファイル パスを指定します。

  • TO "C:\Loan_default_prediction"
  • TO "ML Train output\Loan_default_prediction.model"
TO テーブル名

学習プロセスで生成されたモデル評価テーブルの名前。

モデル評価テーブルには、以下の 2 つの異なるタイプの情報が格納されています。

  • スコアラー/メトリクス。これらは、学習プロセスによって生成されたモデル ファイルの予測パフォーマンスの定量的な推定、分類メトリクスまたは回帰メトリクスを意味します。

    メトリクスが異なれば、提供される推定のタイプも異なります。 スコアラーには、SCORER に指定したメトリクスが表示されます。 メトリクスには、指定しなかったメトリクスが表示されます。

  • 重要性/係数(降順):モデルによって生成された予測に対する各機能(予測印子)の寄与度を示す値。

テーブル名、.FIL ファイル拡張子を持つ引用符で囲まれた文字列として指定します。 例:TO "Model_evaluation.FIL"

デフォルトでは、テーブル データ ファイル(.FIL)は、Analytics プロジェクトが入っているフォルダーに保存されます。

既存の異なるフォルダーにデータ ファイルを保存するには、絶対または相対ファイル パスを指定します。

  • TO "C:\Model_evaluation.FIL"
  • TO "ML Train output\Model_evaluation.FIL"

メモ

テーブル名は 64 文字の英数字(.FIL 拡張子を含まない)に制限されています。 名前にはアンダースコア文字(_)を使用できますが、他の特殊文字やスペースは使用できません。 名前の先頭を数字にすることはできません。

IF テスト

省略可能

各レコードを処理するために真である必要がある条件式。 コマンドは、その条件を満たすレコードに対してのみ実行されます。

メモ

IF パラメーターは、任意の範囲パラメーター(WHILE、FIRST、NEXT)が適用された後に、テーブルに残るレコードに対してのみ評価されます。

WHILE テスト

省略可能

各レコードを処理するために真である必要がある条件式。 条件が false と評価するか、テーブルの最後に達したら、コマンドは実行を中止します。

メモ

WHILE を FIRST または NEXT とともに使用する場合は、1 つの制限に達するとすぐに、レコードの処理が停止します。

FIRST 範囲 | NEXT 範囲

省略可能

処理するレコード数:

  • FIRST 指定されたレコード数に達するまで、最初のレコードから処理を開始します
  • NEXT 指定されたレコード数に達するまで、現在選択されているレコードから処理を開始します

範囲は処理するレコード数を指定します。

FIRST と NEXT を省略すると、すべてのレコードがデフォルトで処理されます。

FOLDS 分割数

モデルを評価および最適化するときに使用する交差検証分割数。

分割は学習データセットの下位分割であり、交差検証プロセスで使用されます。

一般的に、モデルの学習時に、5 ~ 10 分割を使用すると、適切な結果が得られます。 許可された最小分割数は 2 です。最大数は 10 です。

ヒント

分割数が増えると、モデルの予測性能の推定値が改善されることがありますが、全体的な実行時間も長くなります。

SEED シード値

省略可能

Analytics の乱数ジェネレーターを初期化するために使用するシード値。

SEED を省略した場合は、シード値がランダムに選択されます。

明示的にシード値を指定し、将来に学習プロセスを同じデータセットで複製したい場合は、それを記録します。

LINEAR

省略可能

学習して、線形モデルのみのスコアを決定します。

LINEAR が省略される場合、分類または再帰に関連するすべてのモデル タイプが評価されます。

メモ

データ セットが大きくなると、一般的に、線形モデルのみが含まれている場合に、学習プロセスがより短い時間で完了します。

線形モデルのみを含めると、出力の係数が保証されます。

NOFP

省略可能

機能選択とデータ前処理を学習プロセスから除外します。

機能選択は、予測モデルを最適化する際に最も有用な学習データセットで、自動化されたフィールドの選択です。 自動化された選択は予測性能を改善することがありますが、モデル最適化に関連するデータ量が減ります。

データ前処理は、学習データセットでの調整や標準化などの変換を実行し、学習アルゴリズムにより適したものにします。

注意

理由がある場合にかぎり、機能選択とデータ前処理を除外してください。

分類モデルの学習

債務不履行になる融資申請者を予測するために後続のプロセスで使用できる分類モデルに学習させる必要があるとします。

顧客が債務不履行になったかどうかなど各融資の確認済みの結果が含まれる、融資データ履歴セットに関する学習をモデルに行わせます。

直後の予測プロセスで、TRAIN コマンドで生成されたモデルを使用して、現在の融資申請者データを処理します。

OPEN "Loan_applicants_historical"
TRAIN CLASSIFIER ON Age Job_Category Salary Account_Balance Loan_Amount Loan_Period Refinanced Credit_Score TARGET Default SCORER LOGLOSS SEARCHTIME 960 MAXEVALTIME 90 MODEL "Loan_default_prediction.model" TO "Model_evaluation.FIL" FOLDS 5

回帰モデルに学習させる

将来の住宅販売価格を予測するために後続のプロセス内で使用できる回帰モデルに学習させる必要があるとします。

販売価格を含む最近の住宅販売データのセットを当該のモデルに学習させます。

直後の予測プロセスで、TRAIN コマンドで生成されたモデルを使って住宅価格評価を生成します。

OPEN "House_sales"
TRAIN REGRESSOR ON Lot_Size Bedrooms Bathrooms Stories Driveway Recroom Full_Basement Gas_HW Air_conditioning Garage_Places Preferred_Area TARGET Price SCORER MSE SEARCHTIME 960 MAXEVALTIME 90 MODEL "House_price_prediction.model" TO "Model_evaluation.FIL" FOLDS 5

備考

メモ

このコマンドの動作の詳細については、Analytics のヘルプを参照してください。