Comando TRAIN
Utiliza el aprendizaje automático para crear un modelo predictivo óptimo utilizando un conjunto de datos de entrenamiento.
Sintaxis
TRAIN {CLASSIFIER|REGRESSOR} <ON> campo_clave <...n> TARGET campo_etiquetado SCORER {ACCURACY|AUC|F1|LOGLOSS|PRECISION|RECALL|MAE|MSE|R2} SEARCHTIME minutos MAXEVALTIME minutos MODEL nombre_modelo TO nombre_tabla <IF prueba> <WHILE prueba> <FIRST rango|NEXT rango> FOLDS número_de_iteraciones <SEED valor_semilla> <LINEAR> <NOFP>
Nota
El tamaño máximo admitido del conjunto de datos que se utiliza con el comando TRAIN es 1 GB.
Parámetros
Nombre | Descripción | ||||
---|---|---|---|---|---|
CLASSIFIER | REGRESSOR |
El tipo de predicción que se debe usar al entrenar un modelo predictivo:
|
||||
ON campo_clave <...n> |
Uno o más campos de entrada de entrenamiento. Los campos pueden ser de caracteres, numéricos o lógicos. Múltiples campos se deben separar con espacios. Nota Los campos de caracteres debe ser "de categorías". Es decir, deben identificar categorías o clases, y contener una cantidad máxima de valores exclusivos. El máximo se especifica en la opción Categorías máximas (Herramientas > Opciones > Comando). |
||||
TARGET campo_etiquetado |
El campo que se desea predecir y para el cual se está entrenando el modelo sobre la base de los campos de entrada de entrenamiento. Los diferentes tipos de predicción (clasificación o regresión) trabajan con distintos tipos de datos de campos:
|
||||
SCORER ACCURACY | AUC | F1 | LOGLOSS | PRECISION | RECALL | MAE | MSE | R2 |
La medida que se debe usar al calificar (ajustar y clasificar) los modelos generados. Se conserva el modelo que se haya generado y tenga el mejor valor para esta medida; el resto de los modelos se descartan. Un subconjunto diferente de medidas es válido según el tipo de predicción que esté utilizando (clasificación o regresión):
Nota La métrica de clasificación AUC solo es válida cuando el campo_etiquetado contiene datos binarios; es decir, dos clases, como Sí/No o Verdadero/Falso. |
||||
SEARCHTIME minutos |
El tiempo total, expresado en minutos, que se debe dedicar al entrenamiento y la optimización del modelo predictivo. El entrenamiento y la optimización implican realizar búsquedas en diferentes configuraciones de cadenas de procesamiento (diferentes combinaciones de modelo, preprocesador e hiperparámetro). Nota El tiempo de ejecución total del comando TRAIN es SEARCHTIME más hasta el doble de MAXEVALTIME. Consejo Especifique un valor de SEARCHTIME que sea al menos 10 veces el MAXEVALTIME. Esta asignación de tiempo logra un equilibrio razonable entre el tiempo de procesamiento y la evaluación de una variedad de tipos de modelos. |
||||
MAXEVALTIME minutos |
El tiempo de ejecución máximo en minutos por evaluación de modelo. Consejo Asigne 45 minutos por cada 100 MB de datos de entrenamiento. Esta asignación de tiempo logra un equilibrio razonable entre el tiempo de procesamiento y la evaluación de una variedad de tipos de modelos. |
||||
MODEL nombre_modelo |
El nombre del archivo modelo generado por el proceso de entrenamiento. El archivo modelo contiene el modelo que mejor se ajusta al conjunto de datos de entrenamiento. Usted introduce el modelo en el comando PREDICT para generar predicciones sobre un nuevo conjunto de datos que no ha visto. Especifique nombre_modelo como una cadena entre comillas. Por ejemplo: TO "Predicción_préstamo_impago" Puede especificar la extensión de archivo *.model o dejar que Analytics la especifique automáticamente. Por valor predeterminado, el archivo modelo se guarda en la carpeta que contiene el proyecto de Analytics. Utilice una ruta de archivo absoluta o relativa para guardar el archivo modelo en otra carpeta existente:
|
||||
TO nombre_tabla |
El nombre de la tabla de evaluación del modelo generada por el proceso de entrenamiento. La tabla de evaluación del modelo contiene dos tipos de información bien diferenciados:
Especifique nombre_tabla como una cadena entre comillas con una extensión de archivo .FIL. Por ejemplo: TO "Evaluación_modelo.FIL" Por valor predeterminado, la archivo de datos de la tabla (.FIL) se guarda en la carpeta que contiene el proyecto de Analytics. Utilice una ruta de archivo absoluta o relativa para guardar el archivo de datos en una carpeta existente o una diferente:
Nota Los nombres de las tablas tienen un límite de 64 caracteres alfanuméricos, sin incluir la extensión .FIL. El nombre puede incluir un guión bajo ( _ ), pero no puede incluir ningún otro carácter especial ni espacios. El nombre no puede comenzar con un número. |
||||
IF prueba opcional |
Una expresión condicional que debe ser verdadera para procesar cada registro. El comando se ejecuta únicamente en los registros que cumplen la condición. Nota El parámetro IF se evalúa únicamente con los registros que quedan en la tabla después de aplicar los parámetros de alcance (WHILE, FIRST, NEXT). |
||||
WHILE prueba opcional |
Una expresión condicional que debe ser verdadera para procesar cada registro. El comando se ejecuta hasta que la condición se evalúa como falsa o hasta que se llega al final de la tabla. Nota Si usa WHILE junto con FIRST o NEXT, el procesamiento de registros se detiene al llegar a un límite. |
||||
FIRST rango | NEXT rango opcional |
La cantidad de registros que se procesarán:
Utilice intervalo para especificar la cantidad de registros que se deben procesar. Si omite FIRST y NEXT, se procesan todos los registros de forma predeterminada. |
||||
FOLDS cantidad_de_iteraciones |
La cantidad de iteraciones de validación cruzada que se deben usar al evaluar y optimizar el modelo. Las iteraciones son subdivisiones del conjunto de datos de entrenamiento y se utilizan en un proceso de validación cruzada. En general, el uso de 5 a 10 iteraciones ofrece buenos resultados al entrenar un modelo. La cantidad mínima de iteraciones permitida es 2 y la máxima, 10. Consejo Incrementar la cantidad de iteraciones puede ofrecer un cálculo más preciso del desempeño predictivo de un modelo, pero también se incrementa el tiempo de ejecución total. |
||||
SEED valor_semilla opcional |
El valor semilla que se debe usar para inicializar el generador de números aleatorios en Analytics. Si omite SEED, Analytics selecciona de manera aleatoria el valor semilla. Especifique explícitamente un valor semilla y regístrelo si desea replicar el proceso de entrenamiento con el mismo conjunto de datos en el futuro. |
||||
LINEAR opcional |
Entrenar y calificar únicamente modelos lineales. Si se omite LINEAR, se evalúan todos los tipos de modelos pertinentes para clasificación o regresión. Nota Con conjuntos de datos más grandes, el proceso de entrenamiento se suele completar más rápidamente si se incluyen exclusivamente modelos lineales. Al incluir únicamente modelos lineales se garantizan los coeficientes en la salida. |
||||
NOFP opcional |
Excluya la selección de funciones y el preprocesamiento de datos del proceso de entrenamiento. La selección de funciones es la selección automatizada de campos del conjunto de datos de entrenamiento que son los más útiles para optimizar el modelo predictivo. La selección automatizada puede mejorar la exactitud predictiva y reducir la cantidad de datos que se utilizan en la optimización del modelo. El preprocesamiento de datos realiza transformaciones, como escalar y estandarizar el conjunto de datos de entrenamiento, para que los datos sean más adecuados para los algoritmos de entrenamiento. ¡Precaución! Solo debe excluir la selección de funciones y el preprocesamiento de datos si tiene un motivo para hacerlo. |
Ejemplos
Entrenar un modelo de clasificación
Desea entrenar un modelo de clasificación que se puede usar en un proceso posterior para predecir qué solicitantes de préstamos no pagarán.
Entrena el modelo utilizando un conjunto de datos de préstamos históricos con un resultado conocido para cada préstamo, inclusive si el cliente no pagó.
En el proceso de predicción posterior, utilizará el modelo generado por el comando TRAIN para procesar los datos de solicitantes de préstamos actuales.
OPEN "Solicitantes_préstamos_históricos" TRAIN CLASSIFIER ON Edad Categoría_trabajo Salario Saldo_cuenta Importe_préstamo Período_préstamo Calificación_crediticia TARGET Impago SCORER LOGLOSS SEARCHTIME 960 MAXEVALTIME 90 MODEL "Predicción_préstamos_impagos.model" TO "Evaluación_modelo.FIL" FOLDS 5
Entrenar un modelo de regresión
Usted desea entrenar un modelo de regresión que pueda utilizar en un proceso posterior para predecir el futuro precio de venta de viviendas.
Usted entrena el modelo utilizando un conjunto de datos de ventas recientes de viviendas, que incluye el precio de venta.
En el proceso de predicción posterior, utilizará el modelo generado por el comando TRAIN para generar evaluaciones de precios de viviendas.
OPEN "Venta_viviendas" TRAIN REGRESSOR ON Medida_lote Habitaciones Baños Pisos Entrada_automóvil Sala_recreación Sótano Agua_caliente_gas Aire_acondicionado Capacidad_garage Zona_preferida TARGET Precio SCORER MSE SEARCHTIME 960 MAXEVALTIME 90 MODEL "Predicción_precio_vivienda.model" TO "Evaluación_modelo.FIL" FOLDS 5
Observaciones
Nota
Si desea obtener más información sobre la forma en la que funciona este comando, consulte Guía de ayuda.