TRAIN コマンド
自動的な機械学習を使用して、トレーニング データ セットに対する最適の予測モデルを作成します。
メモ
Analytics を 32 ビット コンピューターで実行する場合は、TRAIN コマンドはサポートされません。 このコマンドに必要な演算は、プロセッサーの負荷が高いため、64 ビット コンピューターの方が適しています。
構文
TRAIN {CLASSIFIER|REGRESSOR} <ON> キー フィールド <...n> TARGET ラベル付きフィールド SCORER {ACCURACY|AUC|F1|LOGLOSS|PRECISION|RECALL|MAE|MSE|R2} SEARCHTIME 分 MAXEVALTIME 分 MODEL モデル名 TO テーブル名 <IF テスト> <WHILE テスト> <FIRST 範囲|NEXT 範囲> FOLDS 分割数 <SEED シード値> <LINEAR> <NOFP>
メモ
TRAIN コマンドで使用されるデータセットのサポートされる最大サイズは 1 GB です。
パラメーター
名前 | 説明 | ||||
---|---|---|---|---|---|
CLASSIFIER | REGRESSOR |
予測モデルを学習するときに使用する予測タイプ。
|
||||
ON キー フィールド <...n> |
1 つ以上学習入力フィールド。 フィールドは、文字、数値、または論理型を使用できます。 複数のフィールドはスペースで区切る必要があります。 メモ 文字フィールドは「分類的」である必要があります。 つまり、カテゴリまたはクラスを特定し、最大数の一意の値を含む必要があります。 最大値は[最大カテゴリ]オプション([ツール > オプション > コマンド)で指定されます。 |
||||
TARGET ラベル付きフィールド |
学習入力フィールドに基づいて予測するようにモデルが学習されているフィールド。 別の予測タイプ(分類または回帰)は別のフィールド データ型で動作します。
|
||||
SCORER ACCURACY | AUC | F1 | LOGLOSS | PRECISION | RECALL | MAE | MSE | R2 |
生成されたモデルのスコアを決定(調整およびランク付け)するときに使用するメトリクス。 生成されたモデルのうち、このメトリクスの最善値を有するモデルが保持され、そうでないモデルは破棄されます。 使用している予測タイプ(分類または回帰)に応じて、メトリクスの別のサブセットが有効となります。
メモ 分類メトリクス AUC は、ラベル付きフィールドにバイナリ データ(Yes/No、True/False などの 2 つのクラス)が含まれるときにのみ有効です。 |
||||
SEARCHTIME 分 |
予測モデルの学習および最適化にかかる合計時間(分)。 学習および最適化は、異なるパイプライン構成の検索を伴います(異なるモデル、プリプロセッサー、およびハイパーパラメーターの組み合わせ)。 メモ TRAIN コマンドの合計実行時間は SEARCHTIME と最大で MAXEVALTIME の 2 倍です。 ヒント MAXEVALTIME の 10 倍以上である SEARCHTIME を指定します。 この時間割り当ては、処理時間と多様なモデル タイプの評価を可能にすることの間で、合理的なバランスを取っています。 |
||||
MAXEVALTIME 分 |
最大実行時間は、モデル評価ごとの分数です。 ヒント 100 MB の学習データごとに 45 分を割り当てます。 この時間割り当ては、処理時間と多様なモデル タイプの評価を可能にすることの間で、合理的なバランスを取っています。 |
||||
MODEL モデル名 |
学習プロセスで生成されたモデル ファイル。 モデル ファイルには、学習データセットに最適なモデルが含まれます。 モデルを PREDICT コマンドに入力し、新しい未確認のデータセットに関する予測を生成します。 引用された文字列としてモデル名を指定します。 例:TO "Loan_default_prediction" ファイル拡張子 *.model を指定するか、それを Analytics で自動で指定させます。 デフォルトでは、モデル ファイルは、Analytics プロジェクトが入っているフォルダーに保存されます。 既存の異なるフォルダーにモデル ファイルを保存するには、絶対または相対ファイル パスを指定します。
|
||||
TO テーブル名 |
学習プロセスで生成されたモデル評価テーブルの名前。 モデル評価テーブルには、以下の 2 つの異なるタイプの情報が格納されています。
テーブル名、.FIL ファイル拡張子を持つ引用符で囲まれた文字列として指定します。 例:TO "Model_evaluation.FIL" デフォルトでは、テーブル データ ファイル(.FIL)は、Analytics プロジェクトが入っているフォルダーに保存されます。 既存の異なるフォルダーにデータ ファイルを保存するには、絶対または相対ファイル パスを指定します。
メモ テーブル名は 64 文字の英数字(.FIL 拡張子を含まない)に制限されています。 名前にはアンダースコア文字(_)を使用できますが、他の特殊文字やスペースは使用できません。 名前の先頭を数字にすることはできません。 |
||||
IF テスト 省略可能 |
各レコードを処理するために真である必要がある条件式。 コマンドは、その条件を満たすレコードに対してのみ実行されます。 メモ IF パラメーターは、任意の範囲パラメーター(WHILE、FIRST、NEXT)が適用された後に、テーブルに残るレコードに対してのみ評価されます。 |
||||
WHILE テスト 省略可能 |
各レコードを処理するために真である必要がある条件式。 条件が false と評価するか、テーブルの最後に達したら、コマンドは実行を中止します。 メモ WHILE を FIRST または NEXT とともに使用する場合は、1 つの制限に達するとすぐに、レコードの処理が停止します。 |
||||
FIRST 範囲 | NEXT 範囲 省略可能 |
処理するレコード数:
範囲は処理するレコード数を指定します。 FIRST と NEXT を省略すると、すべてのレコードがデフォルトで処理されます。 |
||||
FOLDS 分割数 |
モデルを評価および最適化するときに使用する交差検証分割数。 分割は学習データセットの下位分割であり、交差検証プロセスで使用されます。 一般的に、モデルの学習時に、5 ~ 10 分割を使用すると、適切な結果が得られます。 許可された最小分割数は 2 です。最大数は 10 です。 ヒント 分割数が増えると、モデルの予測性能の推定値が改善されることがありますが、全体的な実行時間も長くなります。 |
||||
SEED シード値 省略可能 |
Analytics の乱数ジェネレーターを初期化するために使用するシード値。 SEED を省略した場合は、シード値がランダムに選択されます。 明示的にシード値を指定し、将来に学習プロセスを同じデータセットで複製したい場合は、それを記録します。 |
||||
LINEAR 省略可能 |
学習して、線形モデルのみのスコアを決定します。 LINEAR が省略される場合、分類または再帰に関連するすべてのモデル タイプが評価されます。 メモ データ セットが大きくなると、一般的に、線形モデルのみが含まれている場合に、学習プロセスがより短い時間で完了します。 線形モデルのみを含めると、出力の係数が保証されます。 |
||||
NOFP 省略可能 |
機能選択とデータ前処理を学習プロセスから除外します。 機能選択は、予測モデルを最適化する際に最も有用な学習データセットで、自動化されたフィールドの選択です。 自動化された選択は予測性能を改善することがありますが、モデル最適化に関連するデータ量が減ります。 データ前処理は、学習データセットでの調整や標準化などの変換を実行し、学習アルゴリズムにより適したものにします。 注意 理由がある場合にかぎり、機能選択とデータ前処理を除外してください。 |
例
分類モデルの学習
債務不履行になる融資申請者を予測するために後続のプロセスで使用できる分類モデルに学習させる必要があるとします。
顧客が債務不履行になったかどうかなど各融資の確認済みの結果が含まれる、融資データ履歴セットに関する学習をモデルに行わせます。
直後の予測プロセスで、TRAIN コマンドで生成されたモデルを使用して、現在の融資申請者データを処理します。
OPEN "Loan_applicants_historical" TRAIN CLASSIFIER ON Age Job_Category Salary Account_Balance Loan_Amount Loan_Period Refinanced Credit_Score TARGET Default SCORER LOGLOSS SEARCHTIME 960 MAXEVALTIME 90 MODEL "Loan_default_prediction.model" TO "Model_evaluation.FIL" FOLDS 5
回帰モデルに学習させる
将来の住宅販売価格を予測するために後続のプロセス内で使用できる回帰モデルに学習させる必要があるとします。
販売価格を含む最近の住宅販売データのセットを当該のモデルに学習させます。
直後の予測プロセスで、TRAIN コマンドで生成されたモデルを使って住宅価格評価を生成します。
OPEN "House_sales" TRAIN REGRESSOR ON Lot_Size Bedrooms Bathrooms Stories Driveway Recroom Full_Basement Gas_HW Air_conditioning Garage_Places Preferred_Area TARGET Price SCORER MSE SEARCHTIME 960 MAXEVALTIME 90 MODEL "House_price_prediction.model" TO "Model_evaluation.FIL" FOLDS 5
備考
メモ
このコマンドの動作の詳細については、Analytics のヘルプを参照してください。