Clusterização de dados

A clusterização agrupa os registros de uma tabela de acordo com valores similares em um ou mais campos-chave numéricos. Valores similares são valores próximos ou semelhantes entre si no contexto de todo o conjunto de dados. Esses valores similares representam clusters que, uma vez identificados, revelam padrões nos dados.

A diferença entre a clusterização e outros comandos de agrupamento do Analytics

A clusterização é diferente dos outros comandos de agrupamento do Analytics:

  • A clusterização não exige agrupamento por valores exatos ou estratos predefinidos com limites numéricos fixos. Em vez disso, a clusterização agrupa os dados de acordo com valores numérico similares, ou seja, valores próximos ou semelhantes entre si.
  • A clusterização não exige categorias de dados pré-existentes.
  • A clusterização baseada em mais de um campo gera resultados que não são aninhados (não hierárquicos).

Como funciona o algoritmo de clusterização

A clusterização no Analytics usa o algoritmo de clusterização K-means, que é um algoritmo popular de aprendizado de máquina. Você pode encontrar descrições detalhadas de clusterização K-means na Internet.

Veja a seguir um resumo do algoritmo.

Escolha do número de clusters (valor de K)

A determinação do número ideal de clusters para a clusterização de dados pode exigir alguns testes e experimentos. Não existe uma resposta exata para qualquer conjunto de dados específico.

Escolha dos campos usados para a clusterização

A clusterização permite descobrir agrupamentos orgânicos nos dados que você desconhecia. Você pode criar clusters com base em vários campos numéricos. Nesse sentido, a clusterização é exploratória e um exemplo de aprendizado de máquina não supervisionado.

No entanto, para que os clusters gerados façam sentido, você precisa compreender a relação entre os campos selecionados para clusterização.

Posso clusterizar com base em campos de caracteres ou datahora?

De forma geral, não é possível clusterizar por campos de caracteres ou datahora. O algoritmo de clusterização aceita apenas números e executa os cálculos com os números (distância euclidiana, média).

Avaliação de clusters de saída

O algoritmo de clusterização geral sempre uma tabela com o número especificado de clusters. Cada registro na tabela de saída estará em um cluster.

Nesse ponto, você precisa avaliar se algum dos clusters tem significado analítico. O agrupamento de registros em um cluster pelo algoritmo não significa necessariamente que o agrupamento tem significado.

Duas características que podem ser avaliadas são a coerência e o tamanho do cluster.

Dica

O uso de uma ferramenta de relatórios para gerar um gráfico de dispersão com base na tabela de saída de clusters, com cada cluster representado com uma cor diferente, é a forma mais fácil de avaliar rapidamente a natureza dos clusters de saída.

Etapas

Especificar configurações para o algoritmo de clusterização

  1. Abra a tabela com a dados que deseja clusterizar.
  2. No menu principal do Analytics, selecione Aprendizado de máquina > Cluster.
  3. Em Número de clusters (valor de K), especifique o número de clusters a usar para agrupar os dados.
  4. Em Número máximo de iterações, especifique um limite superior para o número de iterações executadas pelo algoritmo de clusterização.
  5. Em Número de inicializações, especifique quantas vezes um conjunto inicial de centróides aleatórios será gerado.
  6. Opcional. Selecione Origem e insira um número.

Especificar um método de pré-processamento de dados

Na lista suspensa Pré-processamento, selecione o método para pré-processar os dados antes de clusterizá-los:

Padronizar Centralizar os valores do campo-chave em volta de zero (0) e alterar a escala dos valores para a variação de unidade quando calcular os clusters
Variação da escala para a unidade Alterar a escala de valores do campo-chave para a variação da unidade quando calcular os clusters, mas não centralizar os valores em volta de zero (0)
Nenhum Usar os valores brutos do campo-chave, sem escala, quando calcular os clusters

Selecionar campos

  1. Na lista Clusterizar por, selecione um ou mais campos-chave para usar na clusterização dos registros na tabela.

    Os campos-chave devem ser numéricos.

  2. Opcional. Na lista Outros campos, selecione um ou mais campos adicionais a incluir na tabela de saída.

Dica

Você pode usar Shift+clique para selecionar vários cabeçalhos de colunas adjacentes e Ctrl+clique para selecionar vários cabeçalhos de colunas adjacentes.

Finalizar entradas de comando

  1. Se existirem registros na exibição atual que você desejar excluir do processamento, insira uma condição na caixa de texto Se ou clique em Se para criar uma instrução IF usando o Construtor de expressões.

    Nota

    A condição If é avaliada apenas em relação aos registros restantes em uma tabela depois da aplicação das opções de escopo (Primeiros, Próximos, Enquanto).

    A instrução IF considera todos os registros na exibição e filtra aqueles que não atendem à condição especificada.

  2. Na caixa de texto Para, especifique o nome da tabela de saída.
  3. Opcional. Na guia Mais:
    1. Para especificar o processamento de apenas um subconjunto de registros, selecione uma das opções no painel Escopo.
    2. Selecione Usar tabela de saída se você quiser que a tabela de saída seja aberta automaticamente.
  4. Clique em OK.
Ajuda do Analytics 14.1