Comando TRAIN

Usa aprendizado de máquina automatizado para criar um modelo preditivo ideal usando um conjunto de dados de treinamento.

Sintaxe

TRAIN {CLASSIFIER|REGRESSOR} <ON> campo_chave <...n> TARGET campo_rotulado SCORER {ACCURACY|AUC|F1|LOGLOSS|PRECISION|RECALL|MAE|MSE|R2} SEARCHTIME minutos MAXEVALTIME minutos MODEL nome_modelo TO nome_tabela <IF teste> <WHILE teste> <FIRST intervalo|NEXT intervalo> FOLDS número_partições <SEED valor_de_origem> <LINEAR> <NOFP>

Nota

O tamanho máximo permitido para o conjunto de dados usados com o comando TRAIN é 1 GB.

Parâmetros

Nome Descrição
CLASSIFIER | REGRESSOR

O tipo de previsão a ser usado durante o treinamento de um modelo preditivo:

  • CLASSIFIER use algoritmos de classificação para treinar um modelo

    Use a classificação se quiser prever a que classe ou categoria os registros pertencem.

  • REGRESSOR use algoritmos de regressão para treinar um modelo

    Use regressão se quiser prever valores numéricos associados aos registros.

ON campo_chave <...n>

Um ou mais campos de entrada de treinamento.

Os campos podem ser de caracteres, numéricos ou lógicos. Vários campos devem ser separados por espaço.

Nota

Os campos de caracteres devem ser "categóricos". Ou seja, devem identificar categorias ou classes e conter um número máximo de valores únicos.

O máximo é especificado pela opção Máximo das categorias (Ferramentas > Opções > Comando).

TARGET campo_rotulado

O campo que o modelo é treinado para prever com base nos campos de entrada de treinamento.

Os tipos diferentes de previsão (classificação ou regressão) funcionam com tipos de dados de campos diferentes:

Válidos com CLASSIFIER um campo de destino de caracteres ou lógico
Válidos com REGRESSOR um campo de destino numérico
SCORER ACCURACY | AUC | F1 | LOGLOSS | PRECISION | RECALL | MAE | MSE | R2

A métrica a ser usada para pontuar (ajustar e classificar) os modelos gerados.

O modelo gerado com o melhor valor para essa métrica é mantido e os demais são descartados.

Um subconjunto diferente de métricas é válido dependendo do tipo de previsão que você está usando (classificação ou regressão):

Válidos com CLASSIFIER ACCURACY | AUC | F1 | LOGLOSS | PRECISION | RECALL
Válidos com REGRESSOR MAE | MSE | R2

Nota

A métrica de classificação AUC somente é válida quando campo_rotulado contém dados binários – ou seja, duas classes, como Sim/Não ou Verdadeiro/Falso.

SEARCHTIME minutos

O tempo total, em minutos, do treinamento e da otimização de um modelo preditivo.

O treinamento e a otimização envolvem pesquisas entre diferentes configurações de fluxo (diferentes combinações de modelo, pré-processador e hiperparâmetros).

Nota

O tempo de execução total do comando TRAIN é SEARCHTIME adicionado a até o dobro de MAXEVALTIME.

Dica

Especifique um SEARCHTIME pelo menos 10 vezes o valor de MAXEVALTIME

Essa alocação de tempo obtém um equilíbrio razoável entre o tempo de processamento e permitir que diversos tipos de modelos sejam avaliados.

MAXEVALTIME minutos

Tempo de execução máximo em minutos por avaliação de modelo.

Dica

Aloque 45 minutos para cada 100 MB de dados de treinamento.

Essa alocação de tempo obtém um equilíbrio razoável entre o tempo de processamento e permitir que diversos tipos de modelos sejam avaliados.

MODEL nome_modelo

O nome do arquivo de modelo gerado pelo processo de treinamento.

O arquivo de modelo contém o modelo mais adequado ao conjunto de dados de treinamento. Você informará o modelo ao comando PREDICT para gerar previsões sobre um conjunto de dados novo e desconhecido.

Especifique nome_modelo como uma cadeia entre aspas. Por exemplo: TO "Previsão_inadimplência_empréstimo.model"

Você pode especificar a extensão de arquivo *.model ou permitir que seja especificada automaticamente pelo Analytics.

Por padrão, o arquivo de modelo é salvo na pasta que contém o projeto do Analytics.

Use um caminho de arquivo absoluto ou relativo para salvar o arquivo de modelo em uma pasta diferente já existente:

  • TO "C:\Previsão_inadimplência_empréstimo"
  • TO "Saída treinamento ML\Previsão_inadimplência_empréstimo.model"
TO nome_tabela

O nome da tabela de avaliação de modelos gerada pelo processo de treinamento.

A tabela de avaliação de modelos contém dois tipos distintos de informações:

  • Pontuador/métrica para a classificação ou as métricas de regressão, estimativas quantitativas do desempenho preditivo do arquivo de modelo gerado pelo processo de treinamento

    Métricas diferentes fornecem tipos diferentes de estimativas. Pontuador identifica a métrica especificada com SCORER. Métrica identifica as métricas que você não especificou.

  • Importância/coeficiente em ordem decrescente, valores que indicam quanto cada recurso (previsor) contribui para as previsões efetuadas pelo modelo

Especifique nome_tabela como uma cadeia entre aspas com uma extensão de arquivo .FIL. Por exemplo: TO "=Avaliação_modelo.FIL"

Por padrão, o arquivo de dados da tabela (.FIL) é salvo na pasta que contém o projeto do Analytics.

Use um caminho de arquivo absoluto ou relativo para salvar o arquivo de dados em uma pasta diferente já existente:

  • TO "C:\Avaliação_modelo.FIL"
  • TO "Saída treinamento ML\Avaliação_modelo.FIL"

Nota

Os nomes de tabela são limitados a 64 caracteres alfanuméricos, sem contar a extensão .FIL. O nome pode incluir o caractere de sublinhado ( _ ) mas nenhum outro caractere especial e nenhum espaço. O nome não pode começar com um número.

IF teste

opcional

Uma expressão condicional que deve ser verdadeira para processar cada registro. O comando é executado apenas nos registros que atendem à condição.

Nota

O parâmetro IF é avaliado apenas em relação aos registros restantes em uma tabela depois da aplicação dos parâmetros de escopo (WHILE, FIRST, NEXT).

WHILE teste

opcional

Uma expressão condicional que deve ser verdadeira para processar cada registro. O comando é executado até que a condição seja avaliada como falsa ou o fim da tabela seja alcançado.

Nota

Se você usar WHILE juntamente com FIRST ou NEXT, o processamento de registros será interrompido assim que um limite for alcançado.

FIRST intervalo | NEXT intervalo

opcional

O número de registros a ser processado:

  • FIRST iniciar o processamento a partir do primeiro registro até alcançar o número de registros especificado
  • NEXT iniciar o processamento a partir do registro selecionado no momento até alcançar o número de registros especificado

Use intervalo para especificar o número de registros a serem processados.

Se você omitir FIRST e NEXT, todos os registros serão processados por padrão.

FOLDS número_de_partições

O número de partições de validação cruzada a usar na avaliação e na otimização do modelo.

As partições são subdivisões do conjunto de dados de treinamento e são usadas em um processo de validação cruzada.

Normalmente, o uso de 5 a 10 partições gera bons resultados no treinamento de um modelo. O número mínimo de partições permitido é 2 e o máximo é 10.

Dica

O aumento do número de partições pode gerar uma estimativa melhor do desempenho preditivo de um modelo, mas também aumenta o tempo de execução geral.

SEED valor_de_origem

opcional

O valor de origem usado para inicializar o gerador de números aleatórios no Analytics.

Se você omitir SEED, o Analytics selecionará aleatoriamente o valor de origem.

Especifique explicitamente um valor de origem, e o registre, se quiser replicar o processo de treinamento com o mesmo conjunto de dados no futuro.

LINEAR

opcional

Treine e pontue apenas modelos lineares.

Se LINEAR for omitido, todos os tipos de modelo relevantes à classificação ou à regressão serão avaliados.

Nota

Com conjuntos de dados maiores, o processo de treinamento normalmente é concluído em menos tempo se você inclui apenas modelos lineares.

A inclusão de modelos lineares garante coeficientes na saída.

NOFP

opcional

Exclua a seleção de recursos e o pré-processamento de dados do processo de treinamento.

A seleção de recursos é a seleção automatizada de campos no conjunto de dados de treinamento que são os mais úteis na otimização do modelo preditivo. A seleção automatizada pode aprimorar o desempenho preditivo e reduzir a quantidade de dados envolvidos na otimização do modelo.

O pré-processamento de dados executa transformações como alteração de escala e padronização do conjunto de dados de treinamento para aumentar sua adequação aos algoritmos de treinamento.

Cuidado

Você deve excluir a seleção de recursos e o pré-processamento de dados somente se tiver um motivo para isso.

Exemplos

Treine um modelo de classificação

Você quer treinar um modelo de classificação que possa ser usado em um processo posterior para prever quais solicitantes de empréstimo ficarão inadimplentes.

Você treina o modelo usando um conjunto de dados de empréstimo históricos com um resultado conhecido para cada empréstimo, incluindo se o cliente ficou inadimplente.

Em um processo de previsão posterior, você usará o modelo produzido pelo comando TRAIN para processar os dados de solicitantes de empréstimo atuais.

OPEN "Histórico_solicitantes_empréstimo"
TRAIN CLASSIFIER ON Idade Categoria_cargo Salário Saldo_conta Valor_empréstimo Período_empréstimo Refinanciado Pontuação_crédito TARGET Padrão SCORER LOGLOSS SEARCHTIME 960 MAXEVALTIME 90 MODEL "Previsão_inadimplência_empréstimo.model" TO "Avaliação_modelo.FIL" FOLDS 5

Treine um modelo de regressão

Você quer treinar um modelo de regressão que possa ser usado em um processo posterior para prever o preço futuro de venda de residências.

Você treina o modelo usando um conjunto de dados de vendas recentes de residências, incluindo o preço da venda.

Em um processo de previsão posterior, você usará o modelo produzido pelo comando TRAIN para gerar avaliações de preços de residências.

OPEN "Vendas_residências"
TRAIN REGRESSOR ON Tamanho_terreno Quartos Banheiros Andares Entrada_garagem Sala_recreação Porão_completo Aquecedor_gás Ar_condicionado Vagas_garagem Área_preferida TARGET Preço SCORER MSE SEARCHTIME 960 MAXEVALTIME 90 MODEL "Previsão_preços_residências.model" TO "Avaliação_modelo.FIL" FOLDS 5

Observações

Nota

Para obter mais informações sobre o funcionamento desse comando, consulte a Ajuda do Analytics.

Guia de scripting do ACL 14.1