Associação parcial

Uma associação parcial do Analytics usa a correspondência parcial de valores de campos-chave para combinar duas tabelas do Analytics em uma terceira tabela. Em muitos aspectos, uma associação parcial é como uma associação normal do Analytics (consulte Associar tabelas). A principal diferença é que, além de associar registros de acordo com a correspondência exata de valores de campos-chave, a associação parcial pode associar registros de acordo com correspondências aproximadas.

A associação parcial é útil quando chaves primárias e secundárias contém o mesmo tipo de dados, mas em formato ligeiramente diferente. Ou quando os dados nas chaves têm ligeiras irregularidades, como erros digitação, que evitam uma correspondência exata.

Exemplo

Cenário

Você deseja identificar qualquer fornecedor que também seja funcionário como um modo de analisar dados para possíveis pagamentos inadequados.

Abordagem

Você associa a tabela mestre de fornecedores com a tabela de funcionários, usando o campo de endereço em cada tabela como chave comum (Vendor_Street e Emp_Address). No entanto, o formato dos dados de endereço nos campos-chave varia ligeiramente. Portanto, você usa uma associação parcial em vez de uma associação normal.

Exame de alguns dados

Sem um trabalho considerável de limpeza e harmonização de dados, os valores-chave primários e secundários mostrados abaixo não seriam associados em uma associação normal do Analytics, embora sejam muito provavelmente endereços correspondentes.

Valores-chave primários Valores-chave secundários
605 3rd Avenue 605 Third Avenue
400 High St SE 400 High Street S.E.
2203 Rowan Street 2203 Rowen St

Mesmo após uma limpeza e harmonização de dados, valores-chave com pequenas diferenças ortográficas, como "Rowan" e "Rowen", provavelmente não seriam correspondidos.

Os valores-chave poderiam ser associados em uma associação parcial, dependendo das configurações dessa associação parcial.

Resultados de saída

No exemplo de tabela associada abaixo, as correspondências exatas de valores-chave estão realçadas em roxo e as correspondências parciais de valores-chave estão realçadas em verde.

Associação parcial versus duplicidades parciais

Uma associação parcial analisa valores em campos-chave de duas tabelas. Para testar a existência de valores praticamente idênticos em um único campo de uma única tabela do Analytics, consulte Visão geral das duplicidades parciais.

Tamanho da tabela de saída e desempenho dos comandos

Tamanho da tabela de saída

A associação parcial é semelhante à associação de muitos para muitos do Analytics. Todos os valores-chave primários podem ser correspondidos a todos os valores-chave secundários. O tamanho da tabela de saída pode ser muitas vezes maior que o tamanho das tabelas de entrada primária e secundária.

Desempenho dos comandos

Os algoritmos de correspondência parcial garantem que apenas valores-chave com um grau de parcialidade especificado, ou valores com correspondência exata, sejam realmente associados. No entanto, todas as possíveis correspondências primária-secundária devem ser testadas, o que significa que o processo de associação parcial pode ser demorado. O número de testes individuais que deve ser executado é igual ao número de registros na tabela primária multiplicado pelo número de registros na tabela secundária.

Práticas recomendadas

Considere o tamanho da tabela de saída e o desempenho dos comandos ao preparar tabelas de entrada primárias e secundárias e especifique o grau de parcialidade.

  • Personalize os dados Garanta que apenas os registros relevantes sejam incluídos nas tabelas primária e secundária. Se você sabe que alguns registros não serão correspondidos, filtre esses registros para eliminá-los antes da execução da correspondência parcial.
  • Execuções de teste Para conjuntos de dados grandes, execute testes em uma pequena parte dos dados como uma forma mais eficiente de determinar configurações adequadas para os algoritmos de correspondência parcial. Comece com configurações de parcialidade mais conservadoras e, se necessário, relaxe progressivamente as configurações.

Algoritmos de correspondência parcial

Quando você executa uma associação parcial, opta entre dois algoritmos de correspondência parcial diferentes:

  • Coeficiente de Dice
  • Distância de Levenshtein

Os algoritmos operam de forma completamente independente entre si e podem gerar resultados um pouco diferentes. Uma abordagem é executar a associação parcial duas vezes, uma com cada algoritmo, e comparar os resultados. Normalmente, várias correspondências parciais em cada conjunto de resultados se sobrepõem, mas algumas correspondências podem ser únicas em cada conjunto de resultados.

Grau de parcialidade

Você especifica o grau de parcialidade para cada algoritmo, o que pode alterar drasticamente o tamanho e a composição do conjunto de resultados. O "grau de parcialidade" indica o quanto dois valores correspondem.

Dependendo do algoritmo selecionado, você usa as seguintes configurações para controlar o grau de parcialidade:

Algoritmo Configuração

Coeficiente de Dice

  • Ngrama
  • Porcentagem

Distância de Levenshtein

  • Distância

Experimente graus de parcialidade diferentes. Comece com valores conservadores e gere conjuntos de resultados menores e relaxe progressivamente as configurações até começar a obter um número excessivo de valores associados que são obviamente não correspondentes (falsos positivos).

Coeficiente de Dice

O algoritmo do coeficiente de Dice opera medindo o grau de similaridade entre um valor-chave primário e secundário, em uma escala de 0,0000 a 1,0000. Quanto maior o coeficiente de Dice dos dois valores, maior a semelhança desses valores.

Distância de Levenshtein

O algoritmo da distância de Levenshtein opera medindo o grau de diferença entre um valor-chave primário e secundário, em uma escala de números inteiros iniciada em 0. A escala representa o número de edições de único caractere necessárias para tornar um valor idêntico ao outro. Quanto maior a distância de Levenshtein entre os dois valores, maior a diferença entre eles.

Como melhorar os resultados

O uso de funções do Analytics para executar limpeza e harmonização de dados dos campos-chave primários e secundários podem aumentar a eficácia da associação parcial. Por exemplo, se você harmonizar valores como "Rua", "R." e "R", ou simplesmente removê-los, poderá usar configurações de parcialidade mais restritas e ainda obter as mesmas correspondências parciais, mas reduzindo o número de falsos positivos correspondentes.

Remoção de elementos genéricos

Você pode usar as funções OMIT( ) e EXCLUDE( ) para remover elementos genéricos, como "Companhia" ou "Ltda.", ou caracteres como vírgulas, pontos e E comercial (&) dos valores do campo.

A remoção de elementos e pontuação genéricos concentra a comparação da associação parcial dos valores dos campos-chave na parte dos valores em que podem ocorrer diferenças significativas.

Etapas

Você pode usar a correspondência parcial de valores de campos-chave para combinar duas tabelas do Analytics em uma terceira tabela.

Ajuda do Analytics 14.1