Comando TRAIN
Usa aprendizado de máquina automatizado para criar um modelo preditivo ideal usando um conjunto de dados de treinamento.
Sintaxe
TRAIN {CLASSIFIER|REGRESSOR} <ON> campo_chave <...n> TARGET campo_rotulado SCORER {ACCURACY|AUC|F1|LOGLOSS|PRECISION|RECALL|MAE|MSE|R2} SEARCHTIME minutos MAXEVALTIME minutos MODEL nome_modelo TO nome_tabela <IF teste> <WHILE teste> <FIRST intervalo|NEXT intervalo> FOLDS número_partições <SEED valor_de_origem> <LINEAR> <NOFP>
Nota
O tamanho máximo permitido para o conjunto de dados usados com o comando TRAIN é 1 GB.
Parâmetros
Nome | Descrição | ||||
---|---|---|---|---|---|
CLASSIFIER | REGRESSOR |
O tipo de previsão a ser usado durante o treinamento de um modelo preditivo:
|
||||
ON campo_chave <...n> |
Um ou mais campos de entrada de treinamento. Os campos podem ser de caracteres, numéricos ou lógicos. Vários campos devem ser separados por espaço. Nota Os campos de caracteres devem ser "categóricos". Ou seja, devem identificar categorias ou classes e conter um número máximo de valores únicos. O máximo é especificado pela opção Máximo das categorias (Ferramentas > Opções > Comando). |
||||
TARGET campo_rotulado |
O campo que o modelo é treinado para prever com base nos campos de entrada de treinamento. Os tipos diferentes de previsão (classificação ou regressão) funcionam com tipos de dados de campos diferentes:
|
||||
SCORER ACCURACY | AUC | F1 | LOGLOSS | PRECISION | RECALL | MAE | MSE | R2 |
A métrica a ser usada para pontuar (ajustar e classificar) os modelos gerados. O modelo gerado com o melhor valor para essa métrica é mantido e os demais são descartados. Um subconjunto diferente de métricas é válido dependendo do tipo de previsão que você está usando (classificação ou regressão):
Nota A métrica de classificação AUC somente é válida quando campo_rotulado contém dados binários – ou seja, duas classes, como Sim/Não ou Verdadeiro/Falso. |
||||
SEARCHTIME minutos |
O tempo total, em minutos, do treinamento e da otimização de um modelo preditivo. O treinamento e a otimização envolvem pesquisas entre diferentes configurações de fluxo (diferentes combinações de modelo, pré-processador e hiperparâmetros). Nota O tempo de execução total do comando TRAIN é SEARCHTIME adicionado a até o dobro de MAXEVALTIME. Dica Especifique um SEARCHTIME pelo menos 10 vezes o valor de MAXEVALTIME Essa alocação de tempo obtém um equilíbrio razoável entre o tempo de processamento e permitir que diversos tipos de modelos sejam avaliados. |
||||
MAXEVALTIME minutos |
Tempo de execução máximo em minutos por avaliação de modelo. Dica Aloque 45 minutos para cada 100 MB de dados de treinamento. Essa alocação de tempo obtém um equilíbrio razoável entre o tempo de processamento e permitir que diversos tipos de modelos sejam avaliados. |
||||
MODEL nome_modelo |
O nome do arquivo de modelo gerado pelo processo de treinamento. O arquivo de modelo contém o modelo mais adequado ao conjunto de dados de treinamento. Você informará o modelo ao comando PREDICT para gerar previsões sobre um conjunto de dados novo e desconhecido. Especifique nome_modelo como uma cadeia entre aspas. Por exemplo: TO "Previsão_inadimplência_empréstimo.model" Você pode especificar a extensão de arquivo *.model ou permitir que seja especificada automaticamente pelo Analytics. Por padrão, o arquivo de modelo é salvo na pasta que contém o projeto do Analytics. Use um caminho de arquivo absoluto ou relativo para salvar o arquivo de modelo em uma pasta diferente já existente:
|
||||
TO nome_tabela |
O nome da tabela de avaliação de modelos gerada pelo processo de treinamento. A tabela de avaliação de modelos contém dois tipos distintos de informações:
Especifique nome_tabela como uma cadeia entre aspas com uma extensão de arquivo .FIL. Por exemplo: TO "=Avaliação_modelo.FIL" Por padrão, o arquivo de dados da tabela (.FIL) é salvo na pasta que contém o projeto do Analytics. Use um caminho de arquivo absoluto ou relativo para salvar o arquivo de dados em uma pasta diferente já existente:
Nota Os nomes de tabela são limitados a 64 caracteres alfanuméricos, sem contar a extensão .FIL. O nome pode incluir o caractere de sublinhado ( _ ) mas nenhum outro caractere especial e nenhum espaço. O nome não pode começar com um número. |
||||
IF teste opcional |
Uma expressão condicional que deve ser verdadeira para processar cada registro. O comando é executado apenas nos registros que atendem à condição. Nota O parâmetro IF é avaliado apenas em relação aos registros restantes em uma tabela depois da aplicação dos parâmetros de escopo (WHILE, FIRST, NEXT). |
||||
WHILE teste opcional |
Uma expressão condicional que deve ser verdadeira para processar cada registro. O comando é executado até que a condição seja avaliada como falsa ou o fim da tabela seja alcançado. Nota Se você usar WHILE juntamente com FIRST ou NEXT, o processamento de registros será interrompido assim que um limite for alcançado. |
||||
FIRST intervalo | NEXT intervalo opcional |
O número de registros a ser processado:
Use intervalo para especificar o número de registros a serem processados. Se você omitir FIRST e NEXT, todos os registros serão processados por padrão. |
||||
FOLDS número_de_partições |
O número de partições de validação cruzada a usar na avaliação e na otimização do modelo. As partições são subdivisões do conjunto de dados de treinamento e são usadas em um processo de validação cruzada. Normalmente, o uso de 5 a 10 partições gera bons resultados no treinamento de um modelo. O número mínimo de partições permitido é 2 e o máximo é 10. Dica O aumento do número de partições pode gerar uma estimativa melhor do desempenho preditivo de um modelo, mas também aumenta o tempo de execução geral. |
||||
SEED valor_de_origem opcional |
O valor de origem usado para inicializar o gerador de números aleatórios no Analytics. Se você omitir SEED, o Analytics selecionará aleatoriamente o valor de origem. Especifique explicitamente um valor de origem, e o registre, se quiser replicar o processo de treinamento com o mesmo conjunto de dados no futuro. |
||||
LINEAR opcional |
Treine e pontue apenas modelos lineares. Se LINEAR for omitido, todos os tipos de modelo relevantes à classificação ou à regressão serão avaliados. Nota Com conjuntos de dados maiores, o processo de treinamento normalmente é concluído em menos tempo se você inclui apenas modelos lineares. A inclusão de modelos lineares garante coeficientes na saída. |
||||
NOFP opcional |
Exclua a seleção de recursos e o pré-processamento de dados do processo de treinamento. A seleção de recursos é a seleção automatizada de campos no conjunto de dados de treinamento que são os mais úteis na otimização do modelo preditivo. A seleção automatizada pode aprimorar o desempenho preditivo e reduzir a quantidade de dados envolvidos na otimização do modelo. O pré-processamento de dados executa transformações como alteração de escala e padronização do conjunto de dados de treinamento para aumentar sua adequação aos algoritmos de treinamento. Cuidado Você deve excluir a seleção de recursos e o pré-processamento de dados somente se tiver um motivo para isso. |
Exemplos
Treine um modelo de classificação
Você quer treinar um modelo de classificação que possa ser usado em um processo posterior para prever quais solicitantes de empréstimo ficarão inadimplentes.
Você treina o modelo usando um conjunto de dados de empréstimo históricos com um resultado conhecido para cada empréstimo, incluindo se o cliente ficou inadimplente.
Em um processo de previsão posterior, você usará o modelo produzido pelo comando TRAIN para processar os dados de solicitantes de empréstimo atuais.
OPEN "Histórico_solicitantes_empréstimo" TRAIN CLASSIFIER ON Idade Categoria_cargo Salário Saldo_conta Valor_empréstimo Período_empréstimo Refinanciado Pontuação_crédito TARGET Padrão SCORER LOGLOSS SEARCHTIME 960 MAXEVALTIME 90 MODEL "Previsão_inadimplência_empréstimo.model" TO "Avaliação_modelo.FIL" FOLDS 5
Treine um modelo de regressão
Você quer treinar um modelo de regressão que possa ser usado em um processo posterior para prever o preço futuro de venda de residências.
Você treina o modelo usando um conjunto de dados de vendas recentes de residências, incluindo o preço da venda.
Em um processo de previsão posterior, você usará o modelo produzido pelo comando TRAIN para gerar avaliações de preços de residências.
OPEN "Vendas_residências" TRAIN REGRESSOR ON Tamanho_terreno Quartos Banheiros Andares Entrada_garagem Sala_recreação Porão_completo Aquecedor_gás Ar_condicionado Vagas_garagem Área_preferida TARGET Preço SCORER MSE SEARCHTIME 960 MAXEVALTIME 90 MODEL "Previsão_preços_residências.model" TO "Avaliação_modelo.FIL" FOLDS 5
Observações
Nota
Para obter mais informações sobre o funcionamento desse comando, consulte a Ajuda do Analytics.