Usando funções para limpar dados
Você pode usar uma função do Analytics para limpar dados. As diferentes funções permitem diversos tipos de limpeza de dados, dependendo de sua necessidade específica.
Por que preciso limpar dados?
Muitas vezes, os dados importados para o Analytics não estão limpos, ou seja, não estão formatados e padronizados perfeitamente. Os comandos do Analytics não funcionam ou geram resultados incorretos quando dados com formatação ou padronização insuficiente são inseridos.
Como funciona a limpeza de dados
Quando limpa dados, você não está limpando ou modificando os dados de origem reais. Os dados de origem permanecem sempre somente leitura.
Na verdade, você alimenta os dados de origem em uma função que processa esses dados e gera "dados virtuais" com formatação e padronização adequadas. Em seguida, os dados virtuais limpos são inseridos para um comando do Analytics, em vez dos dados de origem.
Ponto importante
Usando uma ou mais funções, você pode executar uma grande variedade de tarefas de limpeza de dados ou preparação de dados para poder trabalhar de forma eficaz e precisa, mesmo com dados de origem inconsistentes. A preparação de dados é uma tarefa preliminar fundamental para várias análises de dados.
Removendo espaços em branco
Espaços em branco inconsistentes nos dados são uma causa comum de resultados incorretos. Você pode usar a função ALLTRIM( ) para remover espaços em branco à esquerda e à direita e garantir resultados precisos.
Exemplo: espaços em branco
Você quer ordenar uma tabela de fornecedores por cidade, mas os espaços em branco à esquerda dos nomes das cidades estão causando uma classificação incorreta.
| Cidade_Fornecedor classificada |
|---|
| [ ] [ ] [ ] [ ] Florianópolis |
| [ ] [ ] Porto Alegre |
| Manaus |
| Rio de Janeiro |
| Maceió |
| [ ] = espaço em branco |
Você pode usar a função ALLTRIM( ) para remover espaços em branco à esquerda e garantir uma classificação precisa:
ALLTRIM(Cidade_Fornecedor)
| ALLTRIM(Cidade_Fornecedor) classificada |
|---|
| Manaus |
| Rio de Janeiro |
| Porto Alegre |
| Maceió |
| Florianópolis |
Nota
Para aplicar a função ALLTRIM( ) ao campo Cidade_Fornecedor, crie um campo calculado que usa ALLTRIM( ). Os campos calculados serão discutidos em um próximo tutorial.
Removendo caracteres indesejados
Caracteres inconsistentes ou não essenciais podem muitas vezes impedir a análise de dados. Você pode usar funções diferentes para incluir apenas determinados caracteres ou para excluir certos caracteres ou cadeias de caracteres antes de processar os dados com um comando do Analytics.
Experimentando você mesmo
Você pode copiar e colar qualquer um dos exemplos de função abaixo na linha de comando para verificar o valor de retorno ou para experimentar entradas diferentes.
Na linha de comando, é necessário acrescentar DISPLAY e um espaço antes do exemplo. Os experimentos na linha de comando são explicados nos tutoriais anteriores.
Exemplo: caracteres indesejados
Você quer executar um teste de duplicidades em uma tabela, mas a formação inconsistente dos dados está causando resultados incorretos.
Por exemplo, a execução do comando de duplicidades em um campo Número de Telefone com formatação inconsistente não relata estes dois números de telefone como duplicidades, embora eles sejam duplicidades óbvias:
- (604) 555-1212
- Num. Tel.: 604-555-1212
Para garantir que todas as duplicidades sejam encontradas, você pode usar funções para padronizar os dados antes de executar a operação de duplicidades.
| Tarefa | Exemplo de Função |
|---|---|
|
Padronizar números de telefone |
INCLUDE("(604) 555-1212"; "1234567890")
Retorna 6045551212 INCLUDE("Num. Tel.: 604-555-1212"; "1234567890")
Retorna 6045551212 A função INCLUDE( ) inclui apenas os caracteres especificados na saída; neste caso, inclui apenas os números 0 a 9 Dica Use INCLUDE( ) se o conjunto de caracteres a incluir é pequeno e o conjunto de caracteres a excluir é grande. |
|
Padronizar endereços |
EXCLUDE("#1550-980 Howe St."; "#.")
Retorna 1550-980 Howe St EXCLUDE("1550-980 Howe St"; "#.")
Retorna 1550-980 Howe St A função EXCLUDE( ) exclui os caracteres especificados da saída; neste caso, a cerquilha (#) e o ponto (.) Dica Use EXCLUDE( ) se o conjunto de caracteres a excluir é pequeno e o conjunto de caracteres a incluir é grande. |
|
Padronizar endereços e remover abreviações de rua |
OMIT("#1550-980 Howe St."; " Street, St.,#")
Retorna 1550-980 Howe OMIT("1550-980 Howe Street"; " Street, St.,#")
Retorna 1550-980 Howe A função OMIT( ) exclui os caracteres e as cadeias de caracteres especificados da saída; neste caso, a cerquilha (#) e as cadeias St. e Street com formatação inconsistente Dica Use OMIT( ) se quiser excluir cadeias de caracteres específicas, mas não os caracteres individuais que compõem a cadeia. Por exemplo, excluir Street quando ocorrer como uma unidade, mas não os caracteres S, t, r, e ou t quando ocorrerem em outras palavras. |
O que fazer em seguida
Saiba como usar funções para executar várias tarefas simultaneamente: Limpando e filtrando dados ao mesmo tempo