Ordenar e indexar

Informações do conceito

Comando SORT

Comando INDEX

A ordenação e a indexação são dois métodos diferentes para ordenar dados sequencialmente em tabelas. Alguns comandos do Analytics exigem que a entrada seja antes ordenada ou indexada. A ordenação de dados também pode ser uma operação analítica útil por si só, evidenciando padrões e anomalias.

Operação Descrição
Ordenação

Ordenar uma tabela fisicamente reordena os dados em ordem sequencial e envia os resultados para uma nova tabela do Analytics.

Indexação

Indexar não altera a ordem física subjacente dos dados. Em vez disso, cria um arquivo de índice separado que faz referência aos registros em uma tabela, o que permite o acesso aos registros em ordem sequencial em vez de ordem física. Os dados em uma exibição são reordenados de acordo com um índice somente enquanto o índice está ativo.

Ordenação de dados como prerrequisito para outras operações

Como os computadores processam arquivos em sequência, iniciando pelo primeiro registro, a ordenação sequencial de dados é um pré-requisito para vários testes analíticos e outras operações no Analytics. Operações em várias tabelas, como associações ou relações, podem exigir a ordenação ou indexação de campos-chave.

Outros testes e operações do Analytics podem não precisar de dados ordenados, mas sua execução será muito mais rápida se os dados forem ordenados ou indexados antes.

Devo ordenar ou indexar?

A escolha entre ordenar ou indexar pode depender da tarefa específica que você quer executar. Por exemplo:

  • Ordenação pode ser uma opção melhor para trabalhos investigativos porque ela cria uma nova tabela que pode servir como base para a análise subsequente
  • Indexar pode ser uma opção melhor para realizar trabalhos informacionais ou preliminares porque permite alternar rapidamente entre diferentes representações dos dados na tabela ativa

Vantagens e as desvantagens da ordenação e da indexação

A tabela a seguir compara as vantagens e desvantagens da ordenação e da indexação e lista operações que exigem ordenação ou indexação como prerrequisito.

Área funcional

Ordenação

Indexação

Envia resultados para uma nova tabela do Analytics fisicamente

Sim

Não

Reorganiza os dados fisicamente

Sim

Não

Velocidade da operação

Mais lenta

Mais rápida

Espaço em disco necessário para o processamento

Mais

Menos

Tamanho de arquivo resultante

Maior

Menor

Processamento subsequente do arquivo ordenado ou indexado

Mais rápida

Mais lenta

Pesquisando campos de caracteres

Mais lenta

Mais rápida

Pré-requisito para

  • Associar

    (recomendado, mas não obrigatório para a tabela primária)

  • Mesclar
  • Duplicidades
  • Falhas
  • Definir Relação

    (indexação do campo-chave da tabela filha executado automaticamente pelo Analytics)

  • Associar

    (a aplicação de um índice à tabela secundária somente pode ser executada da linha de comando ou em um script).

  • Mesclar

    (a aplicação de um índice à tabela secundária somente pode ser executada da linha de comando ou em um script).

  • Duplicidades
  • Falhas
  • Encontrar
  • Opção de pesquisa Encontrar Literal
  • Buscar
  • Opção de pesquisa Buscar Expressão

A opção Critério de Ordenação e as sequências de ordenação

A opção Critério de Ordenação (Ferramentas > Opções > Tabela) especifica a sequência de ordenação (agrupamento) dos dados de caracteres. A opção especificada define a sequência de ordenação usada ao ordenar ou indexar registros, ou testar a ordem sequencial, usando um campo de caracteres.

O que é uma sequência de ordenação?

Uma sequência de ordenação é como um modelo usado pelo Analytics para comparar o primeiro ou os primeiros caracteres de um valor em um campo de caracteres ao ordenar, indexar, testar a ordem sequencial ou executar uma ordenação rápida.

A tabela abaixo mostra a configuração padrão do Critério de Ordenação do Analytics e a sequência de ordenação associada.

Edição do Analytics

Padrão do Critério de Ordenação

Sequência de ordenação associada

não unicode

Padrão do Sistema

(ASCII)

  • números, maiúscula e minúscula

    0, 1, 2...  A, B, C...  a, b, c...

    Por exemplo, ordenações de "Z" antes de "a".

  • Caracteres especiais ocorrem em diferentes pontos na sequência, dependendo do caractere.

  • Caracteres com marcas diacríticas ocorrem no final da sequência e usam as mesmas maiúsculas antes da sequência interna de minúsculas.

Unicode

Combinar linguagens (UCA)

(Algoritmo de colação Unicode)

  • números, minúsculas e maiúsculas combinadas

    0, 1, 2...  a, A, b, B, c, C...

    Por exemplo, ordenações de "a" antes de "Z".

  • Caracteres especiais ocorrem antes de números.

  • Caracteres com marcas diacríticas são combinados com caracteres sem marcas diacríticas.

    Por exemplo: e, E, é, É, f, F

Alteração do Critério de Ordenação

É possível alterar o Critério de ordenação para uma linguagem diferente se ela corresponder melhor aos dados analisados. Na edição para Unicode do Analytics, também é possível fazer essa alteração em uma base de comandos usando o parâmetro ISOLOCALE na linha de comando ou no script.

Modificação da sequência de ordenação

Na edição não Unicode do Analytics, ao selecionar um idioma diferente, é possível modificar a sequência de ordenação associada, alterando a ordem dos caracteres na caixa de texto Critério de Ordenação.

Existe a opção de criar uma sequência de ordenação personalizada, selecione Personalizar no campo Critério de Ordenação e especificando uma sequência, ou inserindo SET ORDER <TO> valores na linha de comando ou um script e especificando uma sequência. Sejam quais forem os caracteres especificados, serão ordenados antes de todos os outros caracteres e na sequência especificada. Por exemplo, é possível especificar que letras maiúsculas e minúsculas devem ser combinadas inserindo os valores aAbBcC.... Se SET ORDER for especificado, retornará a sequência da ordenação para a definição padrão.

Sequência de ordenação padrão baseada na ordem de bytes

A sequência de ordenação padrão para idiomas individuais é derivada da ordem de bytes de cada caractere em seu conjunto de caracteres. É possível exibir a ordem por bytes dos caracteres em conjuntos de caracteres usando o Windows Character Map.