Visão geral das duplicidades parciais

Você pode usar o recurso de duplicidades parciais do Analytics para testar se um campo de caracteres contém valores quase idênticos que podem estar relacionados à mesma entidade real.

O teste de duplicidades parciais é um processo envolvido que identifica duplicidades exatas. Compreender as configurações que controlam o grau de diferença entre duplicidades parciais e como as duplicidades parciais são agrupadas nos resultados de saída otimizará o uso do recurso.

Além do recurso principal de duplicidades parciais, pode ser necessário usar uma ou ambas funções do ajudante de duplicidades parciais ou concatenar campos de teste para atingir seus objetivos.

Dica

O recurso de duplicidades parciais utiliza bastante o processador, pois cada valor em um campo de teste precisa ser comparado com cada valor subsequente no campo. Se sua análise permitir, use métodos como filtragem ou extração de subconjuntos de registros para limitar o tamanho do conjunto de dados testado. Conjuntos de dados menores melhoram a velocidade de execução e também ajudam a controlar o tamanho dos resultado.

Duplicidades parciais versus associação parcial

O recurso de duplicidades parciais analisa valores em um único campo de uma única tabela do Analytics. Para usar correspondência parcial para combinar campos de duas tabelas do Analytics em uma terceira nova tabela, consulte Associação parcial.

Sequência de tarefas na análise de duplicidades parciais

Dependendo da natureza dos dados testados e do objetivo de da análise de duplicidades parciais, pode ser necessário executar várias tarefas para gerar resultados úteis. A tabela oferece uma sequência para essas tarefas.

Nota

Com exceção do próprio recurso de duplicidades parciais, as tarefas são opcionais, mas executar uma ou mais delas pode melhorar a qualidade dos resultados.

 

Tarefa

Opcional

Recurso do Analytics

Detalhes

1

Limitar o tamanho do conjunto de dados

Sim

Filtros

Extrair subconjunto de dados

Melhorar o desempenho processando apenas registros que são significativos para sua análise

2

Remover elementos genéricos como "Corporação" ou "Inc." dos valores do campo

Sim

Função OMIT( )

Reduzir o tamanho e aumentar a precisão dos resultados focando apenas na parte do valor de caracteres onde uma diferença significativa pode ocorrer

3

Concatenar campos para melhorar a singularidade dos valores testados

Sim

uma expressão do Analytics usando o operador de Adição (+)

Reduzir o tamanho e aumentar a precisão dos resultados testando valores de maior singularidade, que são produzidos através da concatenação de dois ou mais campos de caracteres

4

Identificar todas as duplicidades parciais e produzir resultados não-exaustivos.

Não

Recurso de duplicidades parciais

O recurso principal de duplicidades parciais

5

Identificar uma lista exaustiva de duplicidades parciais para um valor único de caractere a partir dos resultados não-exaustivos.

Sim

Função ISFUZZYDUP( )

Produzir uma lista conveniente e exaustiva de duplicidades parciais para um valor de caractere de relevância específica para o objetivo da sua auditoria

Ajuda do Analytics 14.1