Usando funções para limpar dados

Você pode usar uma função do Analytics para limpar dados. As diferentes funções permitem diversos tipos de limpeza de dados, dependendo de sua necessidade específica.

Por que preciso limpar dados?

Muitas vezes, os dados importados para o Analytics não estão limpos, ou seja, não estão formatados e padronizados perfeitamente. Os comandos do Analytics não funcionam ou geram resultados incorretos quando dados com formatação ou padronização insuficiente são inseridos.

Como funciona a limpeza de dados

Quando limpa dados, você não está limpando ou modificando os dados de origem reais. Os dados de origem permanecem sempre somente leitura.

Na verdade, você alimenta os dados de origem em uma função que processa esses dados e gera "dados virtuais" com formatação e padronização adequadas. Em seguida, os dados virtuais limpos são inseridos para um comando do Analytics, em vez dos dados de origem.

Ponto importante

Usando uma ou mais funções, você pode executar uma grande variedade de tarefas de limpeza de dados ou preparação de dados para poder trabalhar de forma eficaz e precisa, mesmo com dados de origem inconsistentes. A preparação de dados é uma tarefa preliminar fundamental para várias análises de dados.

Removendo espaços em branco

Espaços em branco inconsistentes nos dados são uma causa comum de resultados incorretos. Você pode usar a função ALLTRIM( ) para remover espaços em branco à esquerda e à direita e garantir resultados precisos.

Exemplo: espaços em branco

Você quer ordenar uma tabela de fornecedores por cidade, mas os espaços em branco à esquerda dos nomes das cidades estão causando uma classificação incorreta.

Cidade_Fornecedor classificada
[ ] [ ] [ ] [ ] Florianópolis
[ ] [ ] Porto Alegre
Manaus
Rio de Janeiro
Maceió
[ ] = espaço em branco

Você pode usar a função ALLTRIM( ) para remover espaços em branco à esquerda e garantir uma classificação precisa:

ALLTRIM(Cidade_Fornecedor)

ALLTRIM(Cidade_Fornecedor) classificada
Manaus
Rio de Janeiro
Porto Alegre
Maceió
Florianópolis

Nota

Para aplicar a função ALLTRIM( ) ao campo Cidade_Fornecedor, crie um campo calculado que usa ALLTRIM( ). Os campos calculados serão discutidos em um próximo tutorial.

Removendo caracteres indesejados

Caracteres inconsistentes ou não essenciais podem muitas vezes impedir a análise de dados. Você pode usar funções diferentes para incluir apenas determinados caracteres ou para excluir certos caracteres ou cadeias de caracteres antes de processar os dados com um comando do Analytics.

Experimentando você mesmo

Você pode copiar e colar qualquer um dos exemplos de função abaixo na linha de comando para verificar o valor de retorno ou para experimentar entradas diferentes.

Na linha de comando, é necessário acrescentar DISPLAY e um espaço antes do exemplo. Os experimentos na linha de comando são explicados nos tutoriais anteriores.

Exemplo: caracteres indesejados

Você quer executar um teste de duplicidades em uma tabela, mas a formação inconsistente dos dados está causando resultados incorretos.

Por exemplo, a execução do comando de duplicidades em um campo Número de Telefone com formatação inconsistente não relata estes dois números de telefone como duplicidades, embora eles sejam duplicidades óbvias:

  • (604) 555-1212
  • Num. Tel.: 604-555-1212

Para garantir que todas as duplicidades sejam encontradas, você pode usar funções para padronizar os dados antes de executar a operação de duplicidades.

Tarefa Exemplo de Função

Padronizar números de telefone

INCLUDE("(604) 555-1212"; "1234567890")

Retorna 6045551212

INCLUDE("Num. Tel.: 604-555-1212"; "1234567890")

Retorna 6045551212

A função INCLUDE( ) inclui apenas os caracteres especificados na saída; neste caso, inclui apenas os números 0 a 9

Dica

Use INCLUDE( ) se o conjunto de caracteres a incluir é pequeno e o conjunto de caracteres a excluir é grande.

Padronizar endereços

EXCLUDE("#1550-980 Howe St."; "#.")

Retorna 1550-980 Howe St

EXCLUDE("1550-980 Howe St"; "#.")

Retorna 1550-980 Howe St

A função EXCLUDE( ) exclui os caracteres especificados da saída; neste caso, a cerquilha (#) e o ponto (.)

Dica

Use EXCLUDE( ) se o conjunto de caracteres a excluir é pequeno e o conjunto de caracteres a incluir é grande.

Padronizar endereços e remover abreviações de rua

OMIT("#1550-980 Howe St."; " Street, St.,#")

Retorna 1550-980 Howe

OMIT("1550-980 Howe Street"; " Street, St.,#")

Retorna 1550-980 Howe

A função OMIT( ) exclui os caracteres e as cadeias de caracteres especificados da saída; neste caso, a cerquilha (#) e as cadeias St. e Street com formatação inconsistente

Dica

Use OMIT( ) se quiser excluir cadeias de caracteres específicas, mas não os caracteres individuais que compõem a cadeia.

Por exemplo, excluir Street quando ocorrer como uma unidade, mas não os caracteres S, t, r, e ou t quando ocorrerem em outras palavras.

O que fazer em seguida

Saiba como usar funções para executar várias tarefas simultaneamente: Limpando e filtrando dados ao mesmo tempo

Guia de scripting do ACL 14.1