Visão geral das duplicidades parciais
Você pode usar o recurso de duplicidades parciais do Analytics para testar se um campo de caracteres contém valores quase idênticos que podem estar relacionados à mesma entidade real.
O teste de duplicidades parciais é um processo envolvido que identifica duplicidades exatas. Compreender as configurações que controlam o grau de diferença entre duplicidades parciais e como as duplicidades parciais são agrupadas nos resultados de saída otimizará o uso do recurso.
Além do recurso principal de duplicidades parciais, pode ser necessário usar uma ou ambas funções do ajudante de duplicidades parciais ou concatenar campos de teste para atingir seus objetivos.
Dica
O recurso de duplicidades parciais utiliza bastante o processador, pois cada valor em um campo de teste precisa ser comparado com cada valor subsequente no campo. Se sua análise permitir, use métodos como filtragem ou extração de subconjuntos de registros para limitar o tamanho do conjunto de dados testado. Conjuntos de dados menores melhoram a velocidade de execução e também ajudam a controlar o tamanho dos resultado.
Duplicidades parciais versus associação parcial
O recurso de duplicidades parciais analisa valores em um único campo de uma única tabela do Analytics. Para usar correspondência parcial para combinar campos de duas tabelas do Analytics em uma terceira nova tabela, consulte Associação parcial.
Sequência de tarefas na análise de duplicidades parciais
Dependendo da natureza dos dados testados e do objetivo de da análise de duplicidades parciais, pode ser necessário executar várias tarefas para gerar resultados úteis. A tabela oferece uma sequência para essas tarefas.
Nota
Com exceção do próprio recurso de duplicidades parciais, as tarefas são opcionais, mas executar uma ou mais delas pode melhorar a qualidade dos resultados.
|
Tarefa |
Opcional |
Recurso do Analytics |
Detalhes |
---|---|---|---|---|
1 |
Limitar o tamanho do conjunto de dados |
Sim |
Filtros Extrair subconjunto de dados |
Melhorar o desempenho processando apenas registros que são significativos para sua análise |
2 |
Remover elementos genéricos como "Corporação" ou "Inc." dos valores do campo |
Sim |
Função OMIT( ) |
Reduzir o tamanho e aumentar a precisão dos resultados focando apenas na parte do valor de caracteres onde uma diferença significativa pode ocorrer |
3 |
Concatenar campos para melhorar a singularidade dos valores testados |
Sim |
uma expressão do Analytics usando o operador de Adição (+) |
Reduzir o tamanho e aumentar a precisão dos resultados testando valores de maior singularidade, que são produzidos através da concatenação de dois ou mais campos de caracteres |
4 |
Identificar todas as duplicidades parciais e produzir resultados não-exaustivos. |
Não |
Recurso de duplicidades parciais |
O recurso principal de duplicidades parciais |
5 |
Identificar uma lista exaustiva de duplicidades parciais para um valor único de caractere a partir dos resultados não-exaustivos. |
Sim |
Função ISFUZZYDUP( ) |
Produzir uma lista conveniente e exaustiva de duplicidades parciais para um valor de caractere de relevância específica para o objetivo da sua auditoria |