Comando CLUSTER

Concept Information

Clusterização de dados

Agrupa registros em clusters com base nos valores similares de um ou mais campos numéricos. Os clusters podem ser unidimensionais ou multidimensionais.

Nota

O comando CLUSTER não é permitido se você executa o Analytics em um computador de 32 bits. A computação necessária para o comando faz uso intenso dos processadores e é mais adequada para computadores de 64 bits.

Sintaxe

CLUSTER ON campo_chave <...n> KVALUE número_de_clusters ITERATIONS número_de_iterações INITIALIZATIONS número_de_inicializações <SEED valor_de_origem> <OTHER campo < ...n>|OTHER ALL> TO nome_tabela <IF teste> <WHILE teste> <FIRST intervalo|NEXT intervalo> OPEN {sem_palavra_chave|NOCENTER|NOSCALE}

Parâmetros

Nome Descrição
ON campo_chave <...n>

Um ou mais campos numéricos a serem clusterizados. Vários campos devem ser separados por espaço.

KVALUE número_de_clusters

O número de clusters gerados nos resultados de saída.

Para obter mais informações, consulte Escolha do número de clusters (valor de K).

ITERATIONS número_de_iterações O número máximo de vezes que o cálculo do cluster é executado novamente.
INITIALIZATIONS número_de_inicializações

O número de vezes para gerar um conjunto inicial de centróides aleatórios.

SEED valor_de_origem

opcional

O valor de origem usado para inicializar o gerador de números aleatórios no Analytics.

Se você omitir SEED, o Analytics selecionará aleatoriamente o valor de origem.

OTHER campo <...n> | OTHER ALL

opcional

Um ou mais campos adicionais a serem incluídos na saída.

  • OTHER campo <...n> inclua o campo ou os campos especificados

    Os campos são incluídos na ordem em que são listados.

  • OTHER ALL inclua todos os campos da tabela

    Os campos são incluídos na ordem em que aparecem no layout da tabela.

Nota

Os campos-chave são incluídos automaticamente na tabela de saída, embora os valores sejam dimensionados a menos que você especifique NOSCALE. Você pode usar OTHER para incluir uma segunda instância não dimensionada de um ou mais campos-chave.

TO nome_tabela

A localização para onde enviar os resultados do comando:

  • nome_tabela salva os resultados em uma tabela do Analytics

    Especifique nome_tabela como uma cadeia entre aspas com uma extensão de arquivo .FIL. For exemplo: TO "Saída.FIL"

    Por padrão, o arquivo de dados da tabela (.fil) é salvo na pasta que contém o projeto do Analytics.

    Use um caminho de arquivo absoluto ou relativo para salvar o arquivo de dados em uma pasta diferente já existente:

    • TO "C:\Saída.FIL"
    • TO "Resultados\Saída.FIL"

    Nota

    Os nomes de tabela são limitados a 64 caracteres alfanuméricos, sem contar a extensão .FIL. O nome pode incluir o caractere de sublinhado ( _ ) mas nenhum outro caractere especial e nenhum espaço. O nome não pode começar com um número.

IF teste

opcional

Uma expressão condicional que deve ser verdadeira para processar cada registro. O comando é executado apenas nos registros que atendem à condição.

Nota

O parâmetro IF é avaliado apenas em relação aos registros restantes em uma tabela depois da aplicação dos parâmetros de escopo (WHILE, FIRST, NEXT).

WHILE teste

opcional

Uma expressão condicional que deve ser verdadeira para processar cada registro. O comando é executado até que a condição seja avaliada como falsa ou o fim da tabela seja alcançado.

Nota

Se você usar WHILE juntamente com FIRST ou NEXT, o processamento de registros será interrompido assim que um limite for alcançado.

FIRST intervalo | NEXT intervalo

opcional

O número de registros a ser processado:

  • FIRST iniciar o processamento a partir do primeiro registro até alcançar o número de registros especificado
  • NEXT iniciar o processamento a partir do registro selecionado no momento até alcançar o número de registros especificado

Use intervalo para especificar o número de registros a serem processados.

Se você omitir FIRST e NEXT, todos os registros serão processados por padrão.

OPEN

opcional

Abre a tabela criada pelo comando após a execução do comando. Válido apenas se o comando criar uma tabela de saída.

sem_palavra_chave | NOCENTER | NOSCALE

O método de pré-processamento de valores numéricos de campo-chave antes do cálculo de clusters.

  • sem_palavra-chave centre os valores de campos-chave na média de 0 (zero) e ajuste sua escala dividindo-os pelo seu desvio padrão, um processo que converte os valores para seu equivalente em pontuação z (pontuação padrão)
  • NOCENTER ajuste a escala dos valores do campo-chave dividindo-os pelo seu desvio padrão, mas não centre os campos na média de 0 (zero)
  • NOSCALE use os valores brutos do campo-chave, não centrados e sem ajuste de escala

Para obter mais informações, consulte Especificar um método de pré-processamento de dados.

Exemplos

Clusterização em clusters por valor da fatura

Além de estratificar uma tabela de contas a receber com base no campo Valor_Fatura, você também decide agrupar em clusters com base no mesmo campo.

  • A estratificação agrupa os valores em estratos com limites numéricos predefinidos como, por exemplo, intervalos de US$ 1.000.
  • O agrupamento em clusters descobre qualquer agrupamento orgânico de valores existente nos dados, sem necessidade de definir previamente os limites numéricos.
OPEN Ar
CLUSTER ON Valor_Fatura KVALUE 8 ITERATIONS 30 INITIALIZATIONS 10 OTHER Tipo ref sem data venc TO "Faturas_agrupadas_em_cluster" NOSCALE

Como forma rápida de descobrir quantos registros estão contidos em cada cluster de saída, você classifica a tabela de saída Faturas_agrupadas_em_cluster pelo campo Cluster.

OPEN Faturas_agrupadas_em_cluster
CLASSIFY ON Cluster TO SCREEN

Observações

Para obter mais informações sobre o funcionamento desse comando, consulte Clusterização de dados.