TRAIN-Befehl

Verwendet maschinelles Lernen, um ein optimales Vorhersagemodell mit einem Trainingsdataset zu erstellen.

Hinweis

Der TRAIN-Befehl wird nicht unterstützt, falls Sie Analytics auf einem 32-Bit-Computer ausführen. Die für den Befehl benötigten Berechnungen sind rechenintensiv und für 64-Bit-Computer besser geeignet.

Syntax

TRAIN {CLASSIFIER|REGRESSOR} <ON> Schlüsselfeld <...n> TARGET Feld_mit_Labels SCORER {ACCURACY|AUC|F1|LOGLOSS|PRECISION|RECALL|MAE|MSE|R2} SEARCHTIME Minuten MAXEVALTIME Minuten MODEL Modellname TO Tabellenname <IF Test> <WHILE Test> <FIRST Bereich|NEXT Bereich> FOLDS Anzahl_Folds <SEED Grundwert> <LINEAR> <NOFP>

Hinweis

Der TRAIN-Befehl unterstützt ein Dataset mit maximaler Größe von 1 GB.

Parameter

Name Beschreibung
CLASSIFIER | REGRESSOR

Der zu verwendende Vorhersagetyp, wenn ein Vorhersagemodell trainiert wird:

  • CLASSIFIER Klassifizierungsalgorithmen verwenden, um ein Modell zu trainieren

    Verwenden Sie die Klassifizierung, wenn Sie vorhersagen möchten, welcher Klasse oder Kategorie Datensätze angehören.

  • REGRESSOR Regressionsalgorithmen verwenden, um ein Modell zu trainieren

    Verwenden Sie die Regression, wenn Sie numerische Werte für Datensätze vorhersagen möchten.

ON Schlüsselfeld <...n>

Ein oder mehrere Eingabefelder für das Training.

Unterstützt werden Felder vom Typ Zeichen, numerisch oder logisch. Mehrere Felder müssen durch Leerzeichen getrennt werden.

Hinweis

Zeichenfelder müssen Kategorien darstellen. Sie müssen also Kategorien oder Klassen identifizieren und eine maximale Anzahl eindeutiger Werte enthalten.

Der Maximalwert wird durch die Option Maximalwert der Kategorien festgelegt (Extras > Optionen > Befehl).

TARGET Feld_mit_Labels

Das Feld, für welches das Modell Vorhersagen auf Basis der Trainingseingabefelder trainiert.

Die unterschiedlichen Vorhersagetypen (Klassifizierung oder Regression) funktionieren mit unterschiedlichen Felddatentypen:

Gültig für CLASSIFIER ein Zielfeld mit Zeichentyp oder logischem Typ
Gültig für REGRESSOR ein numerisches Zielfeld
SCORER ACCURACY | AUC | F1 | LOGLOSS | PRECISION | RECALL | MAE | MSE | R2

Die zu verwendende Metrik für die Einstufung der erstellten Modelle (Anpassung und Rangfolge)

Das erstellte Modell mit dem besten Wert für diese Metrik wird behalten, die restlichen Modelle werden gelöscht.

Eine unterschiedliche Teilmenge von Metriken ist in Abhängigkeit von Ihrem verwendeten Vorhersagetyp (Klassifizierung oder Regression) gültig:

Gültig für CLASSIFIER ACCURACY | AUC | F1 | LOGLOSS | PRECISION | RECALL
Gültig für REGRESSOR MAE | MSE | R2

Hinweis

Die Klassifizierungsmetrik AUC ist nur gültig, wenn das Label-Feld binäre Daten enthält, also zwei Klassen wie Ja/Nein oder Wahr/Falsch.

SEARCHTIME Minuten

Die Gesamtzeit in Minuten, die für das Trainieren und die Optimierung eines Vorhersagemodells verwendet werden soll.

Das Training und die Optimierung beinhaltet eine Durchsuchung unterschiedlicher Pipeline-Konfigurationen (unterschiedliche Modell-, Präprozessor- und Hyperparameter-Kombinationen).

Hinweis

Die gesamte Laufzeit des TRAIN-Befehls beläuft sich auf SEARCHTIME sowie bis zu der doppelten MAXEVALTIME.

Tipp

Legen Sie eine SEARCHTIME fest, die mindestens das Zehnfache der MAXEVALTIME beträgt.

Diese Zeitzuteilung stellt ein vernünftiges Gleichgewicht zwischen Verarbeitungszeit und der möglichen Auswertung zahlreicher Modelltypen sicher.

MAXEVALTIME Minuten

Maximale Laufzeit pro Modellauswertung in Minuten.

Tipp

Planen Sie pro 100 MB an Trainingsdaten 45 Minuten ein.

Diese Zeitzuteilung stellt ein vernünftiges Gleichgewicht zwischen Verarbeitungszeit und der möglichen Auswertung zahlreicher Modelltypen sicher.

MODEL Modellname

Der Name der Modelldateiausgabe des Trainings.

Die Modelldatei beinhaltet das Modell, das für das Trainingsdataset am besten geeignet ist. Sie werden das Modell als Eingabe des PREDICT-Befehls verwenden, um Vorhersagen für neue, noch unbekannte Datasets zu erstellen.

Geben Sie Modellname als in Anführungszeichen gesetzte Zeichenfolge an. Beispiel: TO "Vorhersage_Kreditausfälle"

Sie können die *.model-Dateierweiterung verwenden oder sie durch Analytics automatisch angeben lassen.

Standardmäßig wird die Modelldatei in den Ordner mit dem Analytics-Projekt gespeichert.

Verwenden Sie entweder einen absoluten oder relativen Dateipfad, um die Modelldatei in einen anderen bestehenden Ordner zu speichern:

  • TO "C:\Vorhersage_Kreditausfälle"
  • TO "ML-Trainingausgabe\Vorhersage_Kreditausfälle.model"
TO Tabellenname

Der Name der Modellauswertungstabelle, die durch das Training ausgegeben wird.

Die Modellauswertungstabelle beinhaltet zwei unterschiedliche Informationstypen:

  • Scorer/Metrik Quantitative Schätzungen für die Klassifizierungs- oder Regressionsmetriken, welche Vorhersageleistung die Modelldatei aufweist, die durch das Training ausgegeben wurde

    Unterschiedliche Metriken liefern unterschiedliche Schätzungstypen. Scorer Gibt die Metrik an, die Sie mit SCORER festgelegt haben. Metrik Gibt die Metriken an, die Sie nicht festgelegt haben.

  • Bedeutung/Koeffizient Die Werte geben in absteigender Reihenfolge an, wie sehr jedes Feature (Vorhersage) zu den Vorhersagen des Modells beiträgt.

Geben Sie Tabellenname als in Anführungszeichen gesetzte Zeichenfolge mit der Dateierweiterung „.FIL“ an. Zum Beispiel: TO "Modellauswertung.FIL"

Standardmäßig wird die Tabellendatendatei (.fil) im Ordner des Analytics-Projekts gespeichert.

Verwenden Sie entweder einen absoluten oder relativen Dateipfad, um die Datendatei in einen anderen bestehenden Ordner zu speichern:

  • TO "C:\Modellauswertung.FIL"
  • TO "ML-Trainingausgabe\Modellauswertung.FIL"

Hinweis

Tabellennamen sind auf 64 alphanumerische Zeichen beschränkt, was die .FIL- Dateierweiterung nicht einbezieht. Der Name kann den Unterstrich beinhalten ( _ ), aber keine anderen Sonderzeichen oder Leerzeichen. Er kann nicht mit einer Ziffer beginnen.

IF Test

Optional

Ein bedingter Ausdruck, der wahr sein muss, damit ein Datensatz verarbeitet wird. Der Befehl wird nur für Datensätze ausgeführt, welche die Bedingung erfüllen.

Hinweis

Der IF-Parameter wird nur für Datensätze ausgewertet, die nach Anwendung von Bereichsparametern (WHILE, FIRST, NEXT) in einer Tabelle übrig sind.

WHILE Test

Optional

Ein bedingter Ausdruck, der wahr sein muss, damit ein Datensatz verarbeitet wird. Der Befehl wird ausgeführt, bis die Bedingung falsch ist oder das Tabellenende erreicht wurde.

Hinweis

Wenn Sie WHILE zusammen mit FIRST oder NEXT verwenden, endet die Datensatzverarbeitung, sobald eine Grenze erreicht wird.

FIRST Bereich | NEXT Bereich

Optional

Die Anzahl der zu verarbeitenden Datensätze:

  • FIRST Verarbeitung beim ersten Datensatz beginnen, bis die angegebene Datensatzanzahl erreicht wird
  • NEXT Verarbeitung beim aktuell ausgewählten Datensatz beginnen, bis die angegebene Datensatzanzahl erreicht wird

Verwenden Sie Bereich, um die Anzahl der zu verarbeitenden Datensätze anzugeben.

Wenn Sie FIRST und NEXT nicht angeben, werden standardmäßig alle Datensätze verarbeitet.

FOLDS Anzahl_Folds

Die Anzahl der Folds für Kreuzvalidierung, die zur Auswertung und Optimierung des Modells verwendet werden soll.

Folds sind Unterbereiche des Trainingsdatasets und werden zur Kreuzvalidierung verwendet.

In der Regel werden im Modelltraining gute Ergebnisse durch die Verwendung von 5 bis 10 Folds erreicht. Die Mindestanzahl der Folds beträgt 2 und der Höchstwert 10.

Tipp

Durch eine höhere Anzahl von Folds kann die Vorhersageleistung eines Modells besser geschätzt werden. Dadurch steigt aber auch die Gesamtlaufzeit.

SEED Grundwert

Optional

Der Grundwert, der verwendet wird, um den Zufallszahlen-Generator in Analytics zu initialisieren.

Wenn Sie SEED auslassen, wird Analytics den Grundwert zufällig auswählen.

Legen Sie einen Grundwert explizit fest und speichern Sie diesen, wenn Sie das Training zukünftig mit demselben Dataset replizieren möchten.

LINEAR

Optional

Nur lineare Modelle trainieren und einstufen.

Wenn LINEAR ausgelassen wird, werden alle relevanten Modelltypen der Klassifizierung oder der Regression ausgewertet.

Hinweis

Bei größeren Datasets wird das Training in der Regel schneller abgeschlossen, wenn Sie nur lineare Modelle einschließen.

Wenn nur lineare Modelle einbezogen werden, sind Koeffizienten in der Ausgabe garantiert.

NOFP

Optional

Feature-Auswahl und Datenvorverarbeitung vom Training ausschließen.

Feature-Auswahl ist die automatische Auswahl von Feldern im Trainingsdataset, die für die Optimierung des Vorhersagemodells am nützlichsten sind. Eine automatisierte Auswahl kann die Vorhersageleistung steigern und die Datenmenge der Modelloptimierung verringern.

Die Datenvorverarbeitung führt Transformationen wie Skalierung und Standardisierung des Trainingsdatasets durch, damit dieses für die Trainingsalgorithmen besser geeignet ist.

Achtung

Sie sollten die Feature-Auswahl und die Datenvorverarbeitung nur ausschließen, falls es dafür einen guten Grund gibt.

Beispiele

Klassifizierungsmodelle trainieren

Sie möchten ein Klassifizierungsmodell trainieren, das Sie später zur Vorhersage verwenden können, welche Kreditantragsteller säumig sein werden.

Sie trainieren das Modell mit historischen Kreditdaten, deren Ergebnis für jeden Kredit bekannt ist, bei denen Sie also wissen, ob der Kunde säumig wurde oder nicht.

In einer späteren Vorhersage werden Sie das durch den TRAIN-Befehl erstellte Modell verwenden, um aktuelle Daten von Kreditantragstellern zu bearbeiten.

OPEN "vergangene_Kreditantragsteller"
TRAIN CLASSIFIER ON Alter Berufskategorie Gehalt Kontosaldo Kreditbetrag Kreditlaufzeit Refinanziert Kreditwürdigkeit TARGET Standard SCORER LOGLOSS SEARCHTIME 960 MAXEVALTIME 90 MODEL "Vorhersage_Kreditausfälle.model" TO "Modellauswertung.FIL" FOLDS 5

Regressionsmodell trainieren

Sie möchten ein Regressionsmodell trainieren, das Sie später zur Vorhersage zukünftiger Hausverkaufspreise verwenden können.

Sie trainieren das Modell mit historischen Daten über Hausverkäufe (einschließlich Verkaufspreisen).

In einer späteren Vorhersage werden Sie das durch den TRAIN-Befehl erstellte Modell verwenden, um Hauspreisauswertungen zu erstellen.

OPEN "Hausverkäufe"
TRAIN REGRESSOR ON Grundstücksgröße Schlafzimmer Badezimmer Etagen Auffahrt Gemeinschaftsraum Vollkeller Gasheizung Klimaanlage Garagenplätze Bevorzugte_Gegend TARGET Preis SCORER MSE SEARCHTIME 960 MAXEVALTIME 90 MODEL "Hauspreisvorhersage.model" TO "Modellauswertung.FIL" FOLDS 5

Bemerkungen

Hinweis

Weitere Informationen über die Funktion dieses Befehls finden Sie in Hilfe für Analytics.