Commande TRAIN

Utilise le Machine Learning automatisé pour créer un modèle prédictif optimal à l'aide d'un jeu de données d'entraînement.

Syntaxe

TRAIN {CLASSIFIER|REGRESSOR} <ON> champ_clé <...n> TARGET champ_libellé SCORER {ACCURACY|AUC|F1|LOGLOSS|PRECISION|RECALL|MAE|MSE|R2} SEARCHTIME minutes MAXEVALTIME minutes MODEL nom_modèle TO nom_table <IF test> <WHILE test> <FIRST plage|NEXT plage> FOLDS nombre_de_replis <SEED valeur_départ> <LINEAR> <NOFP>

Remarque

La taille maximale prise en charge pour le jeu de données utilisé avec la commande TRAIN est de 1 Go.

Paramètres

Nom

Description

CLASSIFIER | REGRESSOR

Type de prédiction à utiliser lors de l'entraînement d'apprentissage d'un modèle prédictif :

CLASSIFIER utiliser des algorithmes de classification pour entraîner un modèle
Utilisez la classification si vous souhaitez prédire à quelle classe ou catégorie appartiennent les enregistrements.
REGRESSOR utiliser des algorithmes de régression pour entraîner un modèle
Utilisez la régression si vous souhaitez prédire les valeurs numériques associées aux enregistrements
.

ON champ_clé <...n>

Un ou plusieurs champs d'entrée d'entraînement de l'apprentissage.

Les champs peuvent être de type caractère, numérique ou logique. Les champs multiples doivent être séparés par des espaces.

Remarque

Les champs de type caractère doivent être « catégoriques ». Cela signifie qu'ils doivent identifier des catégories ou des classes et contenir un nombre maximal de valeurs uniques.

Ce maximum est spécifié par l'option Valeurs max des catégories (Outils > Options > Commande).

TARGET champ_libellé

Champ que le modèle est en train d'apprendre à prédire en se basant sur les champs d'entrée de l'entraînement de l'apprentissage.

Les différents types de prédiction (classification ou régression) fonctionnent avec différents types de données de champs :

Valide avec CLASSIFIER	champ cible de type caractère ou logique
Valide avec REGRESSOR	champ cible numérique

SCORER ACCURACY | AUC | F1 | LOGLOSS | PRECISION | RECALL | MAE | MSE | R2

Mesure à utiliser lors de la notation (calibrage et classement) des modèles générés.

Le modèle généré ayant la meilleure valeur pour cette mesure est conservé, et les autres modèles sont abandonnés.

Un sous-ensemble différent de mesures est valide selon le type de prédiction que vous utilisez (classification ou régression) :

Valide avec CLASSIFIER	ACCURACY \| AUC \| F1 \| LOGLOSS \| PRECISION \| RECALL
Valide avec REGRESSOR	MAE \| MSE \| R2

Remarque

La mesure de classification AUC est seulement valide lorsque champ_libellé contient des données binaires, c'est-à-dire deux classes telles que Oui/Non ou Vrai/Faux.

SEARCHTIME minutes

Temps total en minutes à consacrer à l'entraînement de l'apprentissage et à l'optimisation d'un modèle prédictif.

L'entraînement de l'apprentissage et l'optimisation impliquent de rechercher dans différentes configurations de pipeline (différentes combinaisons de modèles, de préprocesseurs et d'hyperparamètres).

Remarque

La durée totale d'exécution de la commande TRAIN est SEARCHTIME plus jusqu'à deux fois MAXEVALTIME.

Astuce

Spécifiez une valeur pour SEARCHTIME égale à au moins 10 fois la valeur de MAXEVALTIME

Cette durée établit un équilibre raisonnable entre le temps de traitement et la possibilité d'évaluer une variété de types de modèles.

MAXEVALTIME minutes

Durée d'exécution maximale en minutes par évaluation de modèle.

Astuce

Allouez 45 minutes pour 100 Mo de données d'entraînement de l'apprentissage.

Cette durée établit un équilibre raisonnable entre le temps de traitement et la possibilité d'évaluer une variété de types de modèles.

MODEL nom_modèle

Nom du fichier de modèle sorti par le processus d'entraînement de l'apprentissage.

Le fichier de modèle contient le modèle le mieux adapté au jeu de données d'entraînement de l'apprentissage. Vous saisirez le modèle dans la commande PREDICT pour générer des prédictions sur un nouvel ensemble de données inédit.

Indiquez le nom_modèle sous forme de chaîne entre guillemets. Par exemple : TO "Prédiction_par_défaut_prêt"

Vous pouvez spécifier l'extension de fichier *.model ou laisser Analytics l'indiquer automatiquement.

Par défaut, le fichier de modèle est enregistré dans le dossier contenant le projet Analytics.

Utilisez un chemin de fichier absolu ou relatif pour enregistrer le fichier de modèle dans un autre dossier existant :

TO "C:\Prédiction_par_défaut_prêt"
TO "Sortie Entraînement ML\Prédiction_par_défaut_prêt.model"

TO nom_table

Nom de la table d'évaluation du modèle sortie par le processus d'entraînement de l'apprentissage.

La table d'évaluation du modèle contient deux types d'informations différentes :

Indicateur de performance/Mesure pour les mesures de classification ou de régression, estimations quantitatives des performances prédictives du fichier de modèle sorti par le processus d'entraînement
Des mesures différentes fournissent différents types d'estimations. Indicateur de performance identifie la mesure que vous avez indiquée avec SCORER. Mesure identifie les mesures que vous n'avez pas indiquées.
Importance/Coefficient dans l'ordre décroissant : valeurs indiquant dans quelle mesure chaque caractéristique (prédicteur) contribue aux prédictions effectuées par le modèle

Indiquez nom_table sous forme de chaîne entre guillemets avec une extension de fichier .FIL. Par exemple : TO "Evaluation_modèle.FIL"

Par défaut, le fichier de données de table (.FIL) est enregistré dans le dossier contenant le projet Analytics.

Utilisez un chemin de fichier absolu ou relatif pour enregistrer le fichier de données dans un autre dossier existant :

TO "C:\Evaluation_modèle.FIL"
TO "Sortie Entraînement ML\Evaluation_modèle.FIL"

Remarque

La longueur des noms des tables est limitée à 64 caractères alphanumériques, sans l'extension .FIL. Le nom peut inclure le caractère de soulignement ( _ ), mais aucun autre caractère spécial ni espace. Le nom ne peut pas commencer par un chiffre.

IF test

optionnel

Expression conditionnelle qui doit être vraie afin de traiter chaque enregistrement. La commande est exécutée uniquement sur les enregistrements remplissant la condition.

Remarque

La condition IF est évaluée uniquement par rapport aux enregistrements restant dans une table après application des options relevant du champ d'application (WHILE, FIRST, NEXT).

WHILE test

optionnel

Expression conditionnelle qui doit être vraie afin de traiter chaque enregistrement. La commande est exécutée jusqu'à ce que la condition soit évaluée comme fausse ou lorsque la fin de la table est atteinte.

Remarque

Si vous utilisez WHILE conjointement avec FIRST ou NEXT, le traitement des enregistrements s'arrête dès qu'une limite est atteinte.

FIRST plage | NEXT plage

optionnel

Le nombre d'enregistrements à traiter :

FIRST pour commencer le traitement à partir du premier enregistrement jusqu'à ce que le nombre d'enregistrements spécifié soit atteint
NEXT pour commencer le traitement à partir de l'enregistrement actuellement sélectionné jusqu'à ce que le nombre d'enregistrements spécifié soit atteint

Utilisez plage pour indiquer le nombre d'enregistrements à traiter.

Si vous ignorez FIRST et NEXT, tous les enregistrements sont traités par défaut.

FOLDS nombre_de_replis

Nombre de replis de validation croisée à utiliser pour évaluer et optimiser le modèle.

Les replis correspondent aux sous-divisions du jeu de données d'entraînement de l'apprentissage ; ils sont utilisés dans un processus de validation croisée.

Généralement, l'utilisation de 5 à 10 replis donne de bons résultats lors de l'entraînement d'apprentissage d'un modèle. Le nombre minimum de replis autorisé est 2 ; le nombre maximum est 10.

Astuce

L'augmentation du nombre de replis peut produire une meilleure estimation des performances prédictives d'un modèle, mais elle augmente également la durée d'exécution globale.

SEED valeur_départ

optionnel

Valeur de départ à utiliser pour lancer le générateur de nombres aléatoires dans Analytics.

Si vous omettez SEED, Analytics sélectionne aléatoirement la valeur de départ.

Spécifiez explicitement une valeur de départ et enregistrez-la si vous souhaitez reproduire le processus d'entraînement de l'apprentissage avec le même jeu de données à l'avenir.

LINEAR

optionnel

Entraînez et notez seulement les modèles linéaires.

Si LINEAR est omis, tous les types de modèles pertinents pour la classification ou la régression sont évalués.

Remarque

Avec des jeux de données plus volumineux, le processus d'entraînement de l'apprentissage s'achève plus rapidement si vous incluez uniquement des modèles linéaires.

Le fait de n'inclure que des modèles linéaires garantit des constantes dans la sortie.

NOFP

optionnel

Excluez la sélection des caractéristiques et le prétraitement des données du processus d'entraînement de l'apprentissage.

La sélection des caractéristiques est la sélection automatisée des champs du jeu de données de l'entraînement qui sont les plus utiles pour optimiser le modèle prédictif. La sélection automatisée peut améliorer les performances prédictives et réduire la quantité de données nécessaires à l'optimisation des modèles.

Le prétraitement des données effectue des transformations telles que la mise à l'échelle et la normalisation du jeu de données d'entraînement afin de le rendre mieux adapté aux algorithmes d'apprentissage.

Attention

Vous ne devez exclure la sélection de caractéristiques et le prétraitement des données que si vous avez une raison de le faire.

Exemples

Entraîner un modèle de classification

Vous souhaitez entraîner un modèle de classification que vous pourrez utiliser dans un processus ultérieur pour prédire les demandeurs de prêt par défaut.

Vous entraînez le modèle sur un jeu de données historiques sur les prêts avec un résultat connu pour chaque prêt, y compris si le client a fait défaut.

Dans le processus de prévision ultérieur, vous utiliserez le modèle produit par la commande TRAIN pour traiter les données actuelles sur les demandeurs de prêts.

OPEN "Historique_demandeurs_prêt"
TRAIN CLASSIFIER ON Age Catégorie_emploi Salaire Solde_compte Montant_prêt Période_prêt Refinancé Cote_crédit TARGET Valeur_par_défaut SCORER LOGLOSS SEARCHTIME 960 MAXEVALTIME 90 MODEL "Prédiction_prêt_par_défaut.model" TO "Evaluation_modèle.FIL" FOLDS 5

Entraîner un modèle de régression

Vous souhaitez entraîner un modèle de régression que vous pouvez utiliser ultérieurement pour prédire le futur prix de vente des maisons.

Vous entraînez le modèle à l'aide de la commande TRAIN à l'aide d'un ensemble de données concernant les dernières ventes de maison, y compris le prix de vente.

Dans le processus de prévision ultérieur, vous utiliserez le modèle produit par la commande TRAIN pour générer les évaluations des prix des maisons.

OPEN "Ventes_maisons"
TRAIN REGRESSOR ON Taille_terrain Chambres SDB Etages Allée Salle_jeux Plainpied Chauffage_gaz Climatisation Garage_Stationnement Quartier_préféré TARGET Prix SCORER MSE SEARCHTIME 960 MAXEVALTIME 90 MODEL "Prédiction_prix_maison.model" TO "Evaluation_modèle.FIL" FOLDS 5

Remarques

Remarque

Pour plus d'informations sur le fonctionnement de cette commande, consultez le Aide d'Analytics.

[ Retour au début ]

Guide de création de scripts ACL 14.1