Clusterização de dados
A clusterização agrupa os registros de uma tabela de acordo com valores similares em um ou mais campos-chave numéricos. Valores similares são valores próximos ou semelhantes entre si no contexto de todo o conjunto de dados. Esses valores similares representam clusters que, uma vez identificados, revelam padrões nos dados.
A diferença entre a clusterização e outros comandos de agrupamento do Analytics
A clusterização é diferente dos outros comandos de agrupamento do Analytics:
- A clusterização não exige agrupamento por valores exatos ou estratos predefinidos com limites numéricos fixos. Em vez disso, a clusterização agrupa os dados de acordo com valores numérico similares, ou seja, valores próximos ou semelhantes entre si.
- A clusterização não exige categorias de dados pré-existentes.
- A clusterização baseada em mais de um campo gera resultados que não são aninhados (não hierárquicos).
Como funciona o algoritmo de clusterização
A clusterização no Analytics usa o algoritmo de clusterização K-means, que é um algoritmo popular de aprendizado de máquina. Você pode encontrar descrições detalhadas de clusterização K-means na Internet.
Veja a seguir um resumo do algoritmo.

O algoritmo de clusterização K-means usa um processo interativo para otimizar clusters:
1 | Especifique o número de clusters |
|
---|---|---|
2 | Inicialize os centróides do cluster |
|
3 | Atribua cada ponto de dados ao centróide mais próximo |
|
4 | Recalcule os centróides |
|
5 | Itere |
|
Escolha do número de clusters (valor de K)
A determinação do número ideal de clusters para a clusterização de dados pode exigir alguns testes e experimentos. Não existe uma resposta exata para qualquer conjunto de dados específico.

Orientações para determinação do número ideal de clusters:
- Conheça os dados Familiarize-se previamente com o conjunto de dados para ter uma ideia geral do perfil dos dados e de quaisquer concentrações de valores óbvias.
- Comece com valores altos Inicialmente, escolha um número relativamente alto de clusters, de 8 a 10.
- Experimente um número diferente de clusters Execute a clusterização várias vezes, especificando um valor de K diferente a cada vez. Uma análise dos resultados de saída pode ajudar a considerar se você precisa de mais ou menos clusters.
- Método do cotovelo Use o método do cotovelo, que compara distâncias internas de valores nos clusters gerados para valores de K diferentes.
Você pode plotar os resultados do método do cotovelo para identificar o "cotovelo", ou o ponto de inflexão, em que o aumento do número de clusters não reduz significativamente as distâncias internas dos valores nos clusters. O método do cotovelo pode ser incluído em um script do Analytics.
Escolha dos campos usados para a clusterização
A clusterização permite descobrir agrupamentos orgânicos nos dados que você desconhecia. Você pode criar clusters com base em vários campos numéricos. Nesse sentido, a clusterização é exploratória e um exemplo de aprendizado de máquina não supervisionado.
No entanto, para que os clusters gerados façam sentido, você precisa compreender a relação entre os campos selecionados para clusterização.

Clusterizar com base em um único campo
A clusterização com base em um único campo numérico é relativamente simples. Você tem um único conjunto de valores e a clusterização agrupa os valores de acordo com a proximidade ou semelhança dos valores. Por exemplo, você pode clusterizar um campo de quantidade para descobrir onde as quantidades estão concentradas no intervalo de valores.
A vantagem da clusterização sobre uma abordagem tradicional, como estratificação, é que você não precisa supor previamente onde as concentrações podem existir, nem criar limites numéricos arbitrários. A clusterização descobre onde estão os limites de qualquer número de clusters específico.
Clusterizar com base em vários campos
Quando você clusteriza com base em dois ou mais campos, precisa se perguntar como os campos podem estar relacionados. Você pode usar a clusterização para testar uma hipótese. Por exemplo, uma empresa pode estar preocupada com a taxa de rotatividade dos funcionários que, segundo a gerência, está concentrada em funcionários jovens com menor salário.
Você pode usar a clusterização para descobrir se há uma relação forte entre:
- duração da retenção de funcionários e idade dos funcionários (clusterização bidimensional)
- duração da retenção de funcionários, idade dos funcionários e salário (clusterização tridimensional)
Para essa análise, você precisa evitar a inclusão de qualquer campo que não esteja claramente relacionado à hipótese, como o número de dias em licença médica.
Posso clusterizar com base em campos de caracteres ou datahora?
De forma geral, não é possível clusterizar por campos de caracteres ou datahora. O algoritmo de clusterização aceita apenas números e executa os cálculos com os números (distância euclidiana, média).

Dados de caracteres categóricos
Você pode ter dados de caracteres categóricos, como IDs de locais, no formato de números. Ou você pode usar um campo calculado para mapear categorias de caracteres a um conjunto de códigos numéricos que você criou. Esses dados podem ser convertidos para o tipo de dados numérico e usados para clusterização. No entanto, os clusters resultantes não seriam válidos, pois você estaria realizando cálculos matemáticos em números que representam algo não numérico.
Por exemplo, o cálculo de uma posição de centróide com base na média de uma lista de IDs de localização resulta em um número sem significado. O cálculo é baseado na suposição inválida de que a distância matemática entre dois números de localização equivale a alguma distância mensurável do mundo real.
Se considerarmos a distância física, não faz sentido afirmar que a distância entre as localizações 1 e 9 é o dobro da distância entre as localizações 1 e 5. As localizações 1 e 9 podem estar uma ao lado da outra e a localização 5 pode estar a quilômetros de distância.
Para uma análise de cluster envolvendo localização e distância física, os dados válidos que deveriam ser usados são coordenadas geográficas.
Dados categóricos que representam uma escala
Você pode clusterizar por dados categóricos que representam uma escala. Por exemplo, uma escala de avaliação de Ruim a Excelente, com códigos numéricos correspondentes de 1 a 5. Nesse caso, uma média dos códigos numéricos faz sentido.
Dados de datahora
Você pode usar funções do Analytics para converter dados datahora em dados numéricos. No entanto, os dados numéricos resultantes não são contínuos, o que é um problema para análises de cluster, que assumem conjuntos de números contínuos.
Por exemplo, os três números a seguir, como datas, têm todos um dia de diferença entre si. No entanto, como números, há uma lacuna, ou distância, considerável entre o primeiro e o segundo números.
- 20181130
- 20181201
- 20181202
Você pode usar valores de data serial nas análises de cluster. As datas seriais são um conjunto de inteiros contínuos que representam o número de dias decorridos desde 1º de janeiro de 1900.
Avaliação de clusters de saída
O algoritmo de clusterização geral sempre uma tabela com o número especificado de clusters. Cada registro na tabela de saída estará em um cluster.
Nesse ponto, você precisa avaliar se algum dos clusters tem significado analítico. O agrupamento de registros em um cluster pelo algoritmo não significa necessariamente que o agrupamento tem significado.
Duas características que podem ser avaliadas são a coerência e o tamanho do cluster.
Dica
O uso de uma ferramenta de relatórios para gerar um gráfico de dispersão com base na tabela de saída de clusters, com cada cluster representado com uma cor diferente, é a forma mais fácil de avaliar rapidamente a natureza dos clusters de saída.
Etapas
Especificar configurações para o algoritmo de clusterização
- Abra a tabela com a dados que deseja clusterizar.
- No menu principal do Analytics, selecione Aprendizado de máquina > Cluster.
- Em Número de clusters (valor de K), especifique o número de clusters a usar para agrupar os dados.
- Em Número máximo de iterações, especifique um limite superior para o número de iterações executadas pelo algoritmo de clusterização.
- Em Número de inicializações, especifique quantas vezes um conjunto inicial de centróides aleatórios será gerado.
- Opcional. Selecione Origem e insira um número.
Especificar um método de pré-processamento de dados
Na lista suspensa Pré-processamento, selecione o método para pré-processar os dados antes de clusterizá-los:
Padronizar | Centralizar os valores do campo-chave em volta de zero (0) e alterar a escala dos valores para a variação de unidade quando calcular os clusters |
---|---|
Variação da escala para a unidade | Alterar a escala de valores do campo-chave para a variação da unidade quando calcular os clusters, mas não centralizar os valores em volta de zero (0) |
Nenhum | Usar os valores brutos do campo-chave, sem escala, quando calcular os clusters |
Selecionar campos
- Na lista Clusterizar por, selecione um ou mais campos-chave para usar na clusterização dos registros na tabela.
Os campos-chave devem ser numéricos.
- Opcional. Na lista Outros campos, selecione um ou mais campos adicionais a incluir na tabela de saída.
Dica
Você pode usar Shift+clique para selecionar vários cabeçalhos de colunas adjacentes e Ctrl+clique para selecionar vários cabeçalhos de colunas adjacentes.
Finalizar entradas de comando
-
Se existirem registros na exibição atual que você desejar excluir do processamento, insira uma condição na caixa de texto Se ou clique em Se para criar uma instrução IF usando o Construtor de expressões.
Nota
A condição If é avaliada apenas em relação aos registros restantes em uma tabela depois da aplicação das opções de escopo (Primeiros, Próximos, Enquanto).
A instrução IF considera todos os registros na exibição e filtra aqueles que não atendem à condição especificada.
- Na caixa de texto Para, especifique o nome da tabela de saída.
- Opcional. Na guia Mais:
- Para especificar o processamento de apenas um subconjunto de registros, selecione uma das opções no painel Escopo.
- Selecione Usar tabela de saída se você quiser que a tabela de saída seja aberta automaticamente.
- Clique em OK.