TRAIN-Befehl
Verwendet maschinelles Lernen, um ein optimales Vorhersagemodell mit einem Trainingsdataset zu erstellen.
Hinweis
Der TRAIN-Befehl wird nicht unterstützt, falls Sie Analytics auf einem 32-Bit-Computer ausführen. Die für den Befehl benötigten Berechnungen sind rechenintensiv und für 64-Bit-Computer besser geeignet.
Syntax
TRAIN {CLASSIFIER|REGRESSOR} <ON> Schlüsselfeld <...n> TARGET Feld_mit_Labels SCORER {ACCURACY|AUC|F1|LOGLOSS|PRECISION|RECALL|MAE|MSE|R2} SEARCHTIME Minuten MAXEVALTIME Minuten MODEL Modellname TO Tabellenname <IF Test> <WHILE Test> <FIRST Bereich|NEXT Bereich> FOLDS Anzahl_Folds <SEED Grundwert> <LINEAR> <NOFP>
Hinweis
Der TRAIN-Befehl unterstützt ein Dataset mit maximaler Größe von 1 GB.
Parameter
Name | Beschreibung | ||||
---|---|---|---|---|---|
CLASSIFIER | REGRESSOR |
Der zu verwendende Vorhersagetyp, wenn ein Vorhersagemodell trainiert wird:
|
||||
ON Schlüsselfeld <...n> |
Ein oder mehrere Eingabefelder für das Training. Unterstützt werden Felder vom Typ Zeichen, numerisch oder logisch. Mehrere Felder müssen durch Leerzeichen getrennt werden. Hinweis Zeichenfelder müssen Kategorien darstellen. Sie müssen also Kategorien oder Klassen identifizieren und eine maximale Anzahl eindeutiger Werte enthalten. Der Maximalwert wird durch die Option Maximalwert der Kategorien festgelegt (Extras > Optionen > Befehl). |
||||
TARGET Feld_mit_Labels |
Das Feld, für welches das Modell Vorhersagen auf Basis der Trainingseingabefelder trainiert. Die unterschiedlichen Vorhersagetypen (Klassifizierung oder Regression) funktionieren mit unterschiedlichen Felddatentypen:
|
||||
SCORER ACCURACY | AUC | F1 | LOGLOSS | PRECISION | RECALL | MAE | MSE | R2 |
Die zu verwendende Metrik für die Einstufung der erstellten Modelle (Anpassung und Rangfolge) Das erstellte Modell mit dem besten Wert für diese Metrik wird behalten, die restlichen Modelle werden gelöscht. Eine unterschiedliche Teilmenge von Metriken ist in Abhängigkeit von Ihrem verwendeten Vorhersagetyp (Klassifizierung oder Regression) gültig:
Hinweis Die Klassifizierungsmetrik AUC ist nur gültig, wenn das Label-Feld binäre Daten enthält, also zwei Klassen wie Ja/Nein oder Wahr/Falsch. |
||||
SEARCHTIME Minuten |
Die Gesamtzeit in Minuten, die für das Trainieren und die Optimierung eines Vorhersagemodells verwendet werden soll. Das Training und die Optimierung beinhaltet eine Durchsuchung unterschiedlicher Pipeline-Konfigurationen (unterschiedliche Modell-, Präprozessor- und Hyperparameter-Kombinationen). Hinweis Die gesamte Laufzeit des TRAIN-Befehls beläuft sich auf SEARCHTIME sowie bis zu der doppelten MAXEVALTIME. Tipp Legen Sie eine SEARCHTIME fest, die mindestens das Zehnfache der MAXEVALTIME beträgt. Diese Zeitzuteilung stellt ein vernünftiges Gleichgewicht zwischen Verarbeitungszeit und der möglichen Auswertung zahlreicher Modelltypen sicher. |
||||
MAXEVALTIME Minuten |
Maximale Laufzeit pro Modellauswertung in Minuten. Tipp Planen Sie pro 100 MB an Trainingsdaten 45 Minuten ein. Diese Zeitzuteilung stellt ein vernünftiges Gleichgewicht zwischen Verarbeitungszeit und der möglichen Auswertung zahlreicher Modelltypen sicher. |
||||
MODEL Modellname |
Der Name der Modelldateiausgabe des Trainings. Die Modelldatei beinhaltet das Modell, das für das Trainingsdataset am besten geeignet ist. Sie werden das Modell als Eingabe des PREDICT-Befehls verwenden, um Vorhersagen für neue, noch unbekannte Datasets zu erstellen. Geben Sie Modellname als in Anführungszeichen gesetzte Zeichenfolge an. Beispiel: TO "Vorhersage_Kreditausfälle" Sie können die *.model-Dateierweiterung verwenden oder sie durch Analytics automatisch angeben lassen. Standardmäßig wird die Modelldatei in den Ordner mit dem Analytics-Projekt gespeichert. Verwenden Sie entweder einen absoluten oder relativen Dateipfad, um die Modelldatei in einen anderen bestehenden Ordner zu speichern:
|
||||
TO Tabellenname |
Der Name der Modellauswertungstabelle, die durch das Training ausgegeben wird. Die Modellauswertungstabelle beinhaltet zwei unterschiedliche Informationstypen:
Geben Sie Tabellenname als in Anführungszeichen gesetzte Zeichenfolge mit der Dateierweiterung „.FIL“ an. Zum Beispiel: TO "Modellauswertung.FIL" Standardmäßig wird die Tabellendatendatei (.fil) im Ordner des Analytics-Projekts gespeichert. Verwenden Sie entweder einen absoluten oder relativen Dateipfad, um die Datendatei in einen anderen bestehenden Ordner zu speichern:
Hinweis Tabellennamen sind auf 64 alphanumerische Zeichen beschränkt, was die .FIL- Dateierweiterung nicht einbezieht. Der Name kann den Unterstrich beinhalten ( _ ), aber keine anderen Sonderzeichen oder Leerzeichen. Er kann nicht mit einer Ziffer beginnen. |
||||
IF Test Optional |
Ein bedingter Ausdruck, der wahr sein muss, damit ein Datensatz verarbeitet wird. Der Befehl wird nur für Datensätze ausgeführt, welche die Bedingung erfüllen. Hinweis Der IF-Parameter wird nur für Datensätze ausgewertet, die nach Anwendung von Bereichsparametern (WHILE, FIRST, NEXT) in einer Tabelle übrig sind. |
||||
WHILE Test Optional |
Ein bedingter Ausdruck, der wahr sein muss, damit ein Datensatz verarbeitet wird. Der Befehl wird ausgeführt, bis die Bedingung falsch ist oder das Tabellenende erreicht wurde. Hinweis Wenn Sie WHILE zusammen mit FIRST oder NEXT verwenden, endet die Datensatzverarbeitung, sobald eine Grenze erreicht wird. |
||||
FIRST Bereich | NEXT Bereich Optional |
Die Anzahl der zu verarbeitenden Datensätze:
Verwenden Sie Bereich, um die Anzahl der zu verarbeitenden Datensätze anzugeben. Wenn Sie FIRST und NEXT nicht angeben, werden standardmäßig alle Datensätze verarbeitet. |
||||
FOLDS Anzahl_Folds |
Die Anzahl der Folds für Kreuzvalidierung, die zur Auswertung und Optimierung des Modells verwendet werden soll. Folds sind Unterbereiche des Trainingsdatasets und werden zur Kreuzvalidierung verwendet. In der Regel werden im Modelltraining gute Ergebnisse durch die Verwendung von 5 bis 10 Folds erreicht. Die Mindestanzahl der Folds beträgt 2 und der Höchstwert 10. Tipp Durch eine höhere Anzahl von Folds kann die Vorhersageleistung eines Modells besser geschätzt werden. Dadurch steigt aber auch die Gesamtlaufzeit. |
||||
SEED Grundwert Optional |
Der Grundwert, der verwendet wird, um den Zufallszahlen-Generator in Analytics zu initialisieren. Wenn Sie SEED auslassen, wird Analytics den Grundwert zufällig auswählen. Legen Sie einen Grundwert explizit fest und speichern Sie diesen, wenn Sie das Training zukünftig mit demselben Dataset replizieren möchten. |
||||
LINEAR Optional |
Nur lineare Modelle trainieren und einstufen. Wenn LINEAR ausgelassen wird, werden alle relevanten Modelltypen der Klassifizierung oder der Regression ausgewertet. Hinweis Bei größeren Datasets wird das Training in der Regel schneller abgeschlossen, wenn Sie nur lineare Modelle einschließen. Wenn nur lineare Modelle einbezogen werden, sind Koeffizienten in der Ausgabe garantiert. |
||||
NOFP Optional |
Feature-Auswahl und Datenvorverarbeitung vom Training ausschließen. Feature-Auswahl ist die automatische Auswahl von Feldern im Trainingsdataset, die für die Optimierung des Vorhersagemodells am nützlichsten sind. Eine automatisierte Auswahl kann die Vorhersageleistung steigern und die Datenmenge der Modelloptimierung verringern. Die Datenvorverarbeitung führt Transformationen wie Skalierung und Standardisierung des Trainingsdatasets durch, damit dieses für die Trainingsalgorithmen besser geeignet ist. Achtung Sie sollten die Feature-Auswahl und die Datenvorverarbeitung nur ausschließen, falls es dafür einen guten Grund gibt. |
Beispiele
Klassifizierungsmodelle trainieren
Sie möchten ein Klassifizierungsmodell trainieren, das Sie später zur Vorhersage verwenden können, welche Kreditantragsteller säumig sein werden.
Sie trainieren das Modell mit historischen Kreditdaten, deren Ergebnis für jeden Kredit bekannt ist, bei denen Sie also wissen, ob der Kunde säumig wurde oder nicht.
In einer späteren Vorhersage werden Sie das durch den TRAIN-Befehl erstellte Modell verwenden, um aktuelle Daten von Kreditantragstellern zu bearbeiten.
OPEN "vergangene_Kreditantragsteller" TRAIN CLASSIFIER ON Alter Berufskategorie Gehalt Kontosaldo Kreditbetrag Kreditlaufzeit Refinanziert Kreditwürdigkeit TARGET Standard SCORER LOGLOSS SEARCHTIME 960 MAXEVALTIME 90 MODEL "Vorhersage_Kreditausfälle.model" TO "Modellauswertung.FIL" FOLDS 5
Regressionsmodell trainieren
Sie möchten ein Regressionsmodell trainieren, das Sie später zur Vorhersage zukünftiger Hausverkaufspreise verwenden können.
Sie trainieren das Modell mit historischen Daten über Hausverkäufe (einschließlich Verkaufspreisen).
In einer späteren Vorhersage werden Sie das durch den TRAIN-Befehl erstellte Modell verwenden, um Hauspreisauswertungen zu erstellen.
OPEN "Hausverkäufe" TRAIN REGRESSOR ON Grundstücksgröße Schlafzimmer Badezimmer Etagen Auffahrt Gemeinschaftsraum Vollkeller Gasheizung Klimaanlage Garagenplätze Bevorzugte_Gegend TARGET Preis SCORER MSE SEARCHTIME 960 MAXEVALTIME 90 MODEL "Hauspreisvorhersage.model" TO "Modellauswertung.FIL" FOLDS 5
Bemerkungen
Hinweis
Weitere Informationen über die Funktion dieses Befehls finden Sie in Hilfe für Analytics.