Verificar duplicidades

Concept Information

Comando DUPLICATES

Valores duplicados em um ou mais campos, ou registros duplicados, podem ser resultado de erro de entrada de dados ou atividades fraudulentas como divisão de transação de cartões de crédito para evitar medidas de segurança.

Requisitos para valores únicos

Campos que jamais devem conter duplicidades são aqueles cujos valores identificam unicamente registros. Por exemplo, uma tabela de números de funcionário nunca deve ter números de funcionário duplicados, pois cada valor deve identificar um único funcionário.

Duplicidades válidas

Valores duplicados também podem ser válidos. Por exemplo, uma tabela de transações pode ter números de clientes duplicados decorrentes de um mesmo cliente ter várias transações.

Tipos diferentes de teste de duplicidades

Você pode utilizar o Analytics para testar a existência de duplicidades das seguintes formas:

Escopo do teste Use esse teste quando:
Um campo

Todos os valores de um determinado campo devem ser únicos, como números de funcionário ou de cheque.

Dois ou mais campos em combinação

A singularidade não é um requisito para nenhum dos campos considerados isoladamente, mas é necessária para os campos combinados.

Exemplo

Em um arquivo de folha de pagamento que cobre um ano, o campo de número de funcionário e o campo de data de pagamento conterão uma série de duplicidades. Funcionários são pagos a cada duas semanas, e muitos funcionários são pagos na mesma data.

No entanto, um funcionário individual deve constar apenas uma vez em uma data em particular. Se existe uma duplicidade nos campos de número de funcionário e data de pagamento combinados, esse funcionário pode ter sido pago duas vezes pelo mesmo período de pagamento.

Todos os campos de um registro

Verificar a existência de registros inteiro duplicados, em que todos os campos do registro são duplicados. Registros duplicados inteiros podem ser o resultado de entradas errada de dados, ou de outras irregularidades transacionais.

Ordenar e duplicidades

Normalmente, você somente deve testar a existência de duplicidades usando um ou mais campos-chave ordenados. Os valores duplicados em um campo-chave só serão encontrados se estiverem imediatamente adjacentes.

Se você verificar a existência de duplicidades usando um campo-chave não ordenado, os valores duplicados não adjacentes não serão relatados como duplicidades. Se existirem dois ou mais clusters do mesmo valor duplicado, eles são relatados como duplicidades, mas em grupos separados.

Dependendo do objetivo da análise, pode fazer sentido testar duplicidades usando um campo-chave não ordenado. Por exemplo, pode ser necessário encontrar apenas os valores duplicados imediatamente adjacentes na tabela de origem, e ignorar os valores duplicados não adjacentes.

Inclusão do campo Número do grupo na tabela de saída

Você pode incluir o campo Número do grupo na tabela de saída de duplicidades. O campo atribui um número incrementado sequencialmente a cada grupo único de duplicidades. A capacidade de fazer referência a grupos de duplicidades por número pode ser útil quando você analisa dados na tabela de saída.

Filtrar a tabela de saída de duplicidades por número de grupo

Você usa vários campos-chave combinados para testar a existência de registros duplicados em uma tabela de contas a pagar:

  • número do fornecedor
  • número da fatura
  • data da fatura
  • valor da fatura

Você quer filtrar a tabela de saída de duplicidades resultante para que apenas alguns dos grupos de duplicidades passem por processamento adicional.

Criar um filtro usando a combinação de campos-chave seria trabalhoso. Por exemplo:

SET FILTER TO ((Num_Fornecedor = "11475") AND (Num_Fatura = "8752512") AND (Data_Fatura = `20191021`) AND (Valor_Fatura = 7125,80)) OR ((Num_Fornecedor = "12130") AND (Num_Fatura = "589134") AND (Data_Fatura = `20191117`) AND (Valor_Fatura = 10531,71)) OR ((Num_Fornecedor = "13440") AND (Num_Fatura = "5518912") AND (Data_Fatura = `20191015`) AND (Valor_Fatura = 11068,20))

Em vez disso, você pode obter o mesmo resultado criando um filtro baseado no número do grupo:

SET FILTER TO MATCH(GROUP_NUM; 3 ;8; 11)

Etapas

Você pode testar um ou mais campos na tabela ativa para detectar se existem valores ou registros inteiros duplicados.

Remover duplicidades

A operação de sumarização pode ser utilizada para remover valores ou registros duplicados de um conjunto de dados e salvar os registros únicos remanescentes em uma nova tabela do Analytics.