Comando TRAIN

Utiliza el aprendizaje automático para crear un modelo predictivo óptimo utilizando un conjunto de datos de entrenamiento.

Sintaxis

TRAIN {CLASSIFIER|REGRESSOR} <ON> campo_clave <...n> TARGET campo_etiquetado SCORER {ACCURACY|AUC|F1|LOGLOSS|PRECISION|RECALL|MAE|MSE|R2} SEARCHTIME minutos MAXEVALTIME minutos MODEL nombre_modelo TO nombre_tabla <IF prueba> <WHILE prueba> <FIRST rango|NEXT rango> FOLDS número_de_iteraciones <SEED valor_semilla> <LINEAR> <NOFP>

Nota

El tamaño máximo admitido del conjunto de datos que se utiliza con el comando TRAIN es 1 GB.

Parámetros

Nombre Descripción
CLASSIFIER | REGRESSOR

El tipo de predicción que se debe usar al entrenar un modelo predictivo:

  • CLASSIFIER use los algoritmos de clasificación para entrenar un modelo

    Utilice la clasificación si desea predecir a qué clase o categoría pertenecen los registros.

  • REGRESSOR use los algoritmos de regresión para entrenar un modelo

    Utilice regresión si desea predecir los valores numéricos que se asocian con los registros.

ON campo_clave <...n>

Uno o más campos de entrada de entrenamiento.

Los campos pueden ser de caracteres, numéricos o lógicos. Múltiples campos se deben separar con espacios.

Nota

Los campos de caracteres debe ser "de categorías". Es decir, deben identificar categorías o clases, y contener una cantidad máxima de valores exclusivos.

El máximo se especifica en la opción Categorías máximas (Herramientas > Opciones > Comando).

TARGET campo_etiquetado

El campo que se desea predecir y para el cual se está entrenando el modelo sobre la base de los campos de entrada de entrenamiento.

Los diferentes tipos de predicción (clasificación o regresión) trabajan con distintos tipos de datos de campos:

Válido con CLASSIFIER un campo de destino de caracteres o lógico
Válido con REGRESSOR un campo de destino numérico
SCORER ACCURACY | AUC | F1 | LOGLOSS | PRECISION | RECALL | MAE | MSE | R2

La medida que se debe usar al calificar (ajustar y clasificar) los modelos generados.

Se conserva el modelo que se haya generado y tenga el mejor valor para esta medida; el resto de los modelos se descartan.

Un subconjunto diferente de medidas es válido según el tipo de predicción que esté utilizando (clasificación o regresión):

Válido con CLASSIFIER ACCURACY | AUC | F1 | LOGLOSS | PRECISION | RECALL
Válido con REGRESSOR MAE | MSE | R2

Nota

La métrica de clasificación AUC solo es válida cuando el campo_etiquetado contiene datos binarios; es decir, dos clases, como Sí/No o Verdadero/Falso.

SEARCHTIME minutos

El tiempo total, expresado en minutos, que se debe dedicar al entrenamiento y la optimización del modelo predictivo.

El entrenamiento y la optimización implican realizar búsquedas en diferentes configuraciones de cadenas de procesamiento (diferentes combinaciones de modelo, preprocesador e hiperparámetro).

Nota

El tiempo de ejecución total del comando TRAIN es SEARCHTIME más hasta el doble de MAXEVALTIME.

Consejo

Especifique un valor de SEARCHTIME que sea al menos 10 veces el MAXEVALTIME.

Esta asignación de tiempo logra un equilibrio razonable entre el tiempo de procesamiento y la evaluación de una variedad de tipos de modelos.

MAXEVALTIME minutos

El tiempo de ejecución máximo en minutos por evaluación de modelo.

Consejo

Asigne 45 minutos por cada 100 MB de datos de entrenamiento.

Esta asignación de tiempo logra un equilibrio razonable entre el tiempo de procesamiento y la evaluación de una variedad de tipos de modelos.

MODEL nombre_modelo

El nombre del archivo modelo generado por el proceso de entrenamiento.

El archivo modelo contiene el modelo que mejor se ajusta al conjunto de datos de entrenamiento. Usted introduce el modelo en el comando PREDICT para generar predicciones sobre un nuevo conjunto de datos que no ha visto.

Especifique nombre_modelo como una cadena entre comillas. Por ejemplo: TO "Predicción_préstamo_impago"

Puede especificar la extensión de archivo *.model o dejar que Analytics la especifique automáticamente.

Por valor predeterminado, el archivo modelo se guarda en la carpeta que contiene el proyecto de Analytics.

Utilice una ruta de archivo absoluta o relativa para guardar el archivo modelo en otra carpeta existente:

  • TO "C:\Predicción_préstamo_impago"
  • TO "ML Train output\Predicción_préstamo_impago.model"
TO nombre_tabla

El nombre de la tabla de evaluación del modelo generada por el proceso de entrenamiento.

La tabla de evaluación del modelo contiene dos tipos de información bien diferenciados:

  • Medida/Métrica para las métricas de clasificación o regresión, cálculos cuantitativos del desempeño predictivo del archivo modelo generado por el proceso de entrenamiento

    Las diferentes métricas ofrecen diferentes tipos de cálculos. Medida identifica la métrica que especificó con SCORER. Métrica identifica la métrica que usted no especificó.

  • Importancia/Coeficiente en orden descendente, valores que indican el grado de contribución de cada función (predictor) a las predicciones hechas por el modelo

Especifique nombre_tabla como una cadena entre comillas con una extensión de archivo .FIL. Por ejemplo: TO "Evaluación_modelo.FIL"

Por valor predeterminado, la archivo de datos de la tabla (.FIL) se guarda en la carpeta que contiene el proyecto de Analytics.

Utilice una ruta de archivo absoluta o relativa para guardar el archivo de datos en una carpeta existente o una diferente:

  • TO "C:\Evaluación_modelo.FIL"
  • TO "ML Train output\Evaluación_modelo.FIL"

Nota

Los nombres de las tablas tienen un límite de 64 caracteres alfanuméricos, sin incluir la extensión .FIL. El nombre puede incluir un guión bajo ( _ ), pero no puede incluir ningún otro carácter especial ni espacios. El nombre no puede comenzar con un número.

IF prueba

opcional

Una expresión condicional que debe ser verdadera para procesar cada registro. El comando se ejecuta únicamente en los registros que cumplen la condición.

Nota

El parámetro IF se evalúa únicamente con los registros que quedan en la tabla después de aplicar los parámetros de alcance (WHILE, FIRST, NEXT).

WHILE prueba

opcional

Una expresión condicional que debe ser verdadera para procesar cada registro. El comando se ejecuta hasta que la condición se evalúa como falsa o hasta que se llega al final de la tabla.

Nota

Si usa WHILE junto con FIRST o NEXT, el procesamiento de registros se detiene al llegar a un límite.

FIRST rango | NEXT rango

opcional

La cantidad de registros que se procesarán:

  • FIRST comienza a procesar desde el primer registro hasta que se llega al número de registros especificado
  • NEXT comienza a procesar desde el registro seleccionado actualmente hasta que se llega al número de registros especificado

Utilice intervalo para especificar la cantidad de registros que se deben procesar.

Si omite FIRST y NEXT, se procesan todos los registros de forma predeterminada.

FOLDS cantidad_de_iteraciones

La cantidad de iteraciones de validación cruzada que se deben usar al evaluar y optimizar el modelo.

Las iteraciones son subdivisiones del conjunto de datos de entrenamiento y se utilizan en un proceso de validación cruzada.

En general, el uso de 5 a 10 iteraciones ofrece buenos resultados al entrenar un modelo. La cantidad mínima de iteraciones permitida es 2 y la máxima, 10.

Consejo

Incrementar la cantidad de iteraciones puede ofrecer un cálculo más preciso del desempeño predictivo de un modelo, pero también se incrementa el tiempo de ejecución total.

SEED valor_semilla

opcional

El valor semilla que se debe usar para inicializar el generador de números aleatorios en Analytics.

Si omite SEED, Analytics selecciona de manera aleatoria el valor semilla.

Especifique explícitamente un valor semilla y regístrelo si desea replicar el proceso de entrenamiento con el mismo conjunto de datos en el futuro.

LINEAR

opcional

Entrenar y calificar únicamente modelos lineales.

Si se omite LINEAR, se evalúan todos los tipos de modelos pertinentes para clasificación o regresión.

Nota

Con conjuntos de datos más grandes, el proceso de entrenamiento se suele completar más rápidamente si se incluyen exclusivamente modelos lineales.

Al incluir únicamente modelos lineales se garantizan los coeficientes en la salida.

NOFP

opcional

Excluya la selección de funciones y el preprocesamiento de datos del proceso de entrenamiento.

La selección de funciones es la selección automatizada de campos del conjunto de datos de entrenamiento que son los más útiles para optimizar el modelo predictivo. La selección automatizada puede mejorar la exactitud predictiva y reducir la cantidad de datos que se utilizan en la optimización del modelo.

El preprocesamiento de datos realiza transformaciones, como escalar y estandarizar el conjunto de datos de entrenamiento, para que los datos sean más adecuados para los algoritmos de entrenamiento.

¡Precaución!

Solo debe excluir la selección de funciones y el preprocesamiento de datos si tiene un motivo para hacerlo.

Ejemplos

Entrenar un modelo de clasificación

Desea entrenar un modelo de clasificación que se puede usar en un proceso posterior para predecir qué solicitantes de préstamos no pagarán.

Entrena el modelo utilizando un conjunto de datos de préstamos históricos con un resultado conocido para cada préstamo, inclusive si el cliente no pagó.

En el proceso de predicción posterior, utilizará el modelo generado por el comando TRAIN para procesar los datos de solicitantes de préstamos actuales.

OPEN "Solicitantes_préstamos_históricos"
TRAIN CLASSIFIER ON Edad Categoría_trabajo Salario Saldo_cuenta Importe_préstamo Período_préstamo Calificación_crediticia TARGET Impago SCORER LOGLOSS SEARCHTIME 960 MAXEVALTIME 90 MODEL "Predicción_préstamos_impagos.model" TO "Evaluación_modelo.FIL" FOLDS 5

Entrenar un modelo de regresión

Usted desea entrenar un modelo de regresión que pueda utilizar en un proceso posterior para predecir el futuro precio de venta de viviendas.

Usted entrena el modelo utilizando un conjunto de datos de ventas recientes de viviendas, que incluye el precio de venta.

En el proceso de predicción posterior, utilizará el modelo generado por el comando TRAIN para generar evaluaciones de precios de viviendas.

OPEN "Venta_viviendas"
TRAIN REGRESSOR ON Medida_lote Habitaciones Baños Pisos Entrada_automóvil Sala_recreación Sótano Agua_caliente_gas Aire_acondicionado Capacidad_garage Zona_preferida TARGET Precio SCORER MSE SEARCHTIME 960 MAXEVALTIME 90 MODEL "Predicción_precio_vivienda.model" TO "Evaluación_modelo.FIL" FOLDS 5

Observaciones

Nota

Si desea obtener más información sobre la forma en la que funciona este comando, consulte Guía de ayuda.

Guía de creación de scripts de ACL 14.1