Commande TRAIN
Utilise le Machine Learning automatisé pour créer un modèle prédictif optimal à l'aide d'un jeu de données d'entraînement.
Syntaxe
TRAIN {CLASSIFIER|REGRESSOR} <ON> champ_clé <...n> TARGET champ_libellé SCORER {ACCURACY|AUC|F1|LOGLOSS|PRECISION|RECALL|MAE|MSE|R2} SEARCHTIME minutes MAXEVALTIME minutes MODEL nom_modèle TO nom_table <IF test> <WHILE test> <FIRST plage|NEXT plage> FOLDS nombre_de_replis <SEED valeur_départ> <LINEAR> <NOFP>
Remarque
La taille maximale prise en charge pour le jeu de données utilisé avec la commande TRAIN est de 1 Go.
Paramètres
Nom | Description | ||||
---|---|---|---|---|---|
CLASSIFIER | REGRESSOR |
Type de prédiction à utiliser lors de l'entraînement d'apprentissage d'un modèle prédictif :
|
||||
ON champ_clé <...n> |
Un ou plusieurs champs d'entrée d'entraînement de l'apprentissage. Les champs peuvent être de type caractère, numérique ou logique. Les champs multiples doivent être séparés par des espaces. Remarque Les champs de type caractère doivent être « catégoriques ». Cela signifie qu'ils doivent identifier des catégories ou des classes et contenir un nombre maximal de valeurs uniques. Ce maximum est spécifié par l'option Valeurs max des catégories (Outils > Options > Commande). |
||||
TARGET champ_libellé |
Champ que le modèle est en train d'apprendre à prédire en se basant sur les champs d'entrée de l'entraînement de l'apprentissage. Les différents types de prédiction (classification ou régression) fonctionnent avec différents types de données de champs :
|
||||
SCORER ACCURACY | AUC | F1 | LOGLOSS | PRECISION | RECALL | MAE | MSE | R2 |
Mesure à utiliser lors de la notation (calibrage et classement) des modèles générés. Le modèle généré ayant la meilleure valeur pour cette mesure est conservé, et les autres modèles sont abandonnés. Un sous-ensemble différent de mesures est valide selon le type de prédiction que vous utilisez (classification ou régression) :
Remarque La mesure de classification AUC est seulement valide lorsque champ_libellé contient des données binaires, c'est-à-dire deux classes telles que Oui/Non ou Vrai/Faux. |
||||
SEARCHTIME minutes |
Temps total en minutes à consacrer à l'entraînement de l'apprentissage et à l'optimisation d'un modèle prédictif. L'entraînement de l'apprentissage et l'optimisation impliquent de rechercher dans différentes configurations de pipeline (différentes combinaisons de modèles, de préprocesseurs et d'hyperparamètres). Remarque La durée totale d'exécution de la commande TRAIN est SEARCHTIME plus jusqu'à deux fois MAXEVALTIME. Astuce Spécifiez une valeur pour SEARCHTIME égale à au moins 10 fois la valeur de MAXEVALTIME Cette durée établit un équilibre raisonnable entre le temps de traitement et la possibilité d'évaluer une variété de types de modèles. |
||||
MAXEVALTIME minutes |
Durée d'exécution maximale en minutes par évaluation de modèle. Astuce Allouez 45 minutes pour 100 Mo de données d'entraînement de l'apprentissage. Cette durée établit un équilibre raisonnable entre le temps de traitement et la possibilité d'évaluer une variété de types de modèles. |
||||
MODEL nom_modèle |
Nom du fichier de modèle sorti par le processus d'entraînement de l'apprentissage. Le fichier de modèle contient le modèle le mieux adapté au jeu de données d'entraînement de l'apprentissage. Vous saisirez le modèle dans la commande PREDICT pour générer des prédictions sur un nouvel ensemble de données inédit. Indiquez le nom_modèle sous forme de chaîne entre guillemets. Par exemple : TO "Prédiction_par_défaut_prêt" Vous pouvez spécifier l'extension de fichier *.model ou laisser Analytics l'indiquer automatiquement. Par défaut, le fichier de modèle est enregistré dans le dossier contenant le projet Analytics. Utilisez un chemin de fichier absolu ou relatif pour enregistrer le fichier de modèle dans un autre dossier existant :
|
||||
TO nom_table |
Nom de la table d'évaluation du modèle sortie par le processus d'entraînement de l'apprentissage. La table d'évaluation du modèle contient deux types d'informations différentes :
Indiquez nom_table sous forme de chaîne entre guillemets avec une extension de fichier .FIL. Par exemple : TO "Evaluation_modèle.FIL" Par défaut, le fichier de données de table (.FIL) est enregistré dans le dossier contenant le projet Analytics. Utilisez un chemin de fichier absolu ou relatif pour enregistrer le fichier de données dans un autre dossier existant :
Remarque La longueur des noms des tables est limitée à 64 caractères alphanumériques, sans l'extension .FIL. Le nom peut inclure le caractère de soulignement ( _ ), mais aucun autre caractère spécial ni espace. Le nom ne peut pas commencer par un chiffre. |
||||
IF test optionnel |
Expression conditionnelle qui doit être vraie afin de traiter chaque enregistrement. La commande est exécutée uniquement sur les enregistrements remplissant la condition. Remarque La condition IF est évaluée uniquement par rapport aux enregistrements restant dans une table après application des options relevant du champ d'application (WHILE, FIRST, NEXT). |
||||
WHILE test optionnel |
Expression conditionnelle qui doit être vraie afin de traiter chaque enregistrement. La commande est exécutée jusqu'à ce que la condition soit évaluée comme fausse ou lorsque la fin de la table est atteinte. Remarque Si vous utilisez WHILE conjointement avec FIRST ou NEXT, le traitement des enregistrements s'arrête dès qu'une limite est atteinte. |
||||
FIRST plage | NEXT plage optionnel |
Le nombre d'enregistrements à traiter :
Utilisez plage pour indiquer le nombre d'enregistrements à traiter. Si vous ignorez FIRST et NEXT, tous les enregistrements sont traités par défaut. |
||||
FOLDS nombre_de_replis |
Nombre de replis de validation croisée à utiliser pour évaluer et optimiser le modèle. Les replis correspondent aux sous-divisions du jeu de données d'entraînement de l'apprentissage ; ils sont utilisés dans un processus de validation croisée. Généralement, l'utilisation de 5 à 10 replis donne de bons résultats lors de l'entraînement d'apprentissage d'un modèle. Le nombre minimum de replis autorisé est 2 ; le nombre maximum est 10. Astuce L'augmentation du nombre de replis peut produire une meilleure estimation des performances prédictives d'un modèle, mais elle augmente également la durée d'exécution globale. |
||||
SEED valeur_départ optionnel |
Valeur de départ à utiliser pour lancer le générateur de nombres aléatoires dans Analytics. Si vous omettez SEED, Analytics sélectionne aléatoirement la valeur de départ. Spécifiez explicitement une valeur de départ et enregistrez-la si vous souhaitez reproduire le processus d'entraînement de l'apprentissage avec le même jeu de données à l'avenir. |
||||
LINEAR optionnel |
Entraînez et notez seulement les modèles linéaires. Si LINEAR est omis, tous les types de modèles pertinents pour la classification ou la régression sont évalués. Remarque Avec des jeux de données plus volumineux, le processus d'entraînement de l'apprentissage s'achève plus rapidement si vous incluez uniquement des modèles linéaires. Le fait de n'inclure que des modèles linéaires garantit des constantes dans la sortie. |
||||
NOFP optionnel |
Excluez la sélection des caractéristiques et le prétraitement des données du processus d'entraînement de l'apprentissage. La sélection des caractéristiques est la sélection automatisée des champs du jeu de données de l'entraînement qui sont les plus utiles pour optimiser le modèle prédictif. La sélection automatisée peut améliorer les performances prédictives et réduire la quantité de données nécessaires à l'optimisation des modèles. Le prétraitement des données effectue des transformations telles que la mise à l'échelle et la normalisation du jeu de données d'entraînement afin de le rendre mieux adapté aux algorithmes d'apprentissage. Attention Vous ne devez exclure la sélection de caractéristiques et le prétraitement des données que si vous avez une raison de le faire. |
Exemples
Entraîner un modèle de classification
Vous souhaitez entraîner un modèle de classification que vous pourrez utiliser dans un processus ultérieur pour prédire les demandeurs de prêt par défaut.
Vous entraînez le modèle sur un jeu de données historiques sur les prêts avec un résultat connu pour chaque prêt, y compris si le client a fait défaut.
Dans le processus de prévision ultérieur, vous utiliserez le modèle produit par la commande TRAIN pour traiter les données actuelles sur les demandeurs de prêts.
OPEN "Historique_demandeurs_prêt" TRAIN CLASSIFIER ON Age Catégorie_emploi Salaire Solde_compte Montant_prêt Période_prêt Refinancé Cote_crédit TARGET Valeur_par_défaut SCORER LOGLOSS SEARCHTIME 960 MAXEVALTIME 90 MODEL "Prédiction_prêt_par_défaut.model" TO "Evaluation_modèle.FIL" FOLDS 5
Entraîner un modèle de régression
Vous souhaitez entraîner un modèle de régression que vous pouvez utiliser ultérieurement pour prédire le futur prix de vente des maisons.
Vous entraînez le modèle à l'aide de la commande TRAIN à l'aide d'un ensemble de données concernant les dernières ventes de maison, y compris le prix de vente.
Dans le processus de prévision ultérieur, vous utiliserez le modèle produit par la commande TRAIN pour générer les évaluations des prix des maisons.
OPEN "Ventes_maisons" TRAIN REGRESSOR ON Taille_terrain Chambres SDB Etages Allée Salle_jeux Plainpied Chauffage_gaz Climatisation Garage_Stationnement Quartier_préféré TARGET Prix SCORER MSE SEARCHTIME 960 MAXEVALTIME 90 MODEL "Prédiction_prix_maison.model" TO "Evaluation_modèle.FIL" FOLDS 5
Remarques
Remarque
Pour plus d'informations sur le fonctionnement de cette commande, consultez le Aide d'Analytics.