Prüfen auf Duplikate

Konzept-Informationen

DUPLICATES-Befehl

Doppelte Werte in ein oder mehreren Feldern oder doppelte Datensätze können sich aus Dateneingabefehlern oder betrügerischen Aktivitäten ergeben, wie z.B. die Aufspaltung von Kreditkartentransaktionen zur Vermeidung einer genaueren Überprüfung.

Anforderung eindeutiger Werte

Felder, die niemals Duplikate enthalten sollten, kennzeichnen Datensätze durch ihre Werte eindeutig. Beispiel: Eine Mitarbeitertabelle sollte nie doppelte Mitarbeiternummern enthalten, da jeder Wert einen Mitarbeiter eindeutig kennzeichnen sollte.

Gültige Duplikate

Doppelte Werte können auch gültig sein. Beispiel: Eine Transaktionstabelle enthält möglicherweise doppelte Kundennummern aufgrund von wiederholten Transaktionen durch denselben Kunden.

Verschiedene Arten, auf Duplikate zu testen

Verwenden Sie Analytics, um auf die folgende Weise nach Duplikaten zu suchen:

Testbereich Verwenden Sie diesen Test in folgender Situation:
Ein Feld

Alle Werte eines bestimmten Felds sollten eindeutig sein, wie zum Beispiel Mitarbeiternummern oder Schecknummern.

Zwei oder mehr Felder kombiniert

Keines der Felder muss selbst eindeutige Werte aufweisen, dies ist jedoch für die Kombination bestimmter Felder notwendig.

Beispiel

In einer Lohnabrechnungsdatei eines Jahres enthält sowohl das Feld „Mitarbeiternummer“ als auch das Feld „Zahlungsdatum“ zahlreiche Duplikate. Mitarbeiter werden alle zwei Wochen bezahlt und viele Mitarbeiter erhalten ihre Zahlung an demselben Tag.

Ein einzelner Mitarbeiter sollte jedoch an einem bestimmten Datum nur einmal auftauchen. Wenn ein Duplikat für die Kombination aus Mitarbeiternummer und Zahlungsdatum vorhanden ist, wurde ein Mitarbeiter möglicherweise zweimal in derselben Zahlungsperiode bezahlt.

Alle Felder eines Datensatzes

Sie suchen nach doppelten Datensätzen, in denen also jedes Feld eines Datensatzes doppelt vorhanden ist. Doppelte Datensätze können aus Dateneingabefehlern oder sonstigen Unregelmäßigkeiten auf Transaktionsebene entstehen.

Sortieren und Duplikate

Allgemein sollten Sie nur mit einem oder mehreren sortierten Schlüsselfeldern auf Duplikate testen. Doppelte Werte in einem Schlüsselfeld werden nur gefunden, wenn sie unmittelbar aufeinanderfolgen.

Wenn Sie auf Duplikate mit einem unsortierten Schlüsselfeld testen, werden nicht aufeinanderfolgende doppelte Werte als Duplikate nicht gemeldet. Wenn zwei oder mehrere Cluster mit demselben doppelten Wert existieren, werden sie als Duplikate gemeldet, jedoch in unterschiedlichen Gruppen.

In Abhängigkeit von Ihrem Analyseziel könnte es sinnvoll sein, mit einem unsortierten Schlüsselfeld nach Duplikaten zu suchen. Es könnte beispielsweise sein, dass Sie nur doppelte Werte finden möchten, die in der Quelltabelle unmittelbar nebeneinanderliegen, also nicht aufeinanderfolgende doppelte Werte ignorieren möchten.

Feld „Gruppennummer“ in Ausgabetabelle aufnehmen

Sie haben die Möglichkeit, das Feld Gruppennummer in die Ausgabetabelle der Duplikate aufzunehmen. Das Feld weist jeder eindeutigen Gruppe von Duplikaten eine schrittweise erhöhte Zahl zu. Die Möglichkeit, Duplikatgruppen nach ihrer Zahl zu referenzieren, kann für die Analyse von Daten in der Ausgabetabelle hilfreich sein.

Duplikate nach Gruppennummer in Ausgabetabelle filtern

Sie verwenden mehrere kombinierte Schlüsselfelder, um eine Verbindlichkeitentabelle nach Duplikaten zu testen:

  • Lieferantennummer
  • Rechnungsnummer
  • Rechnungsdatum
  • Rechnungsbetrag

Sie möchten die entstehende Ausgabetabelle mit Duplikaten filtern, sodass nur einige Duplikatgruppen zusätzlich verarbeitet werden müssen.

Es wäre aufwendig, einen Filter mit der Kombination der Schlüsselfelder zu erstellen. Beispiel:

SET FILTER TO ((Lieferantennr = "11475") AND (Rechnungsnr = "8752512") AND (Rechnungsdatum = `20191021`) AND (Rechnungsbetrag = 7125,80)) OR ((Lieferantennr = "12130") AND (Rechnungsnr = "589134") AND (Rechnungsdatum = `20191117`) AND (Rechnungsbetrag = 10531,71)) OR ((Lieferantennr = "13440") AND (Rechnungsnr = "5518912") AND (Rechnungsdatum = `20191015`) AND (Rechnungsbetrag = 11068,20))

Dasselbe Ergebnis erreichen Sie, indem Sie einen Filter auf Basis der Gruppennummer erstellen:

SET FILTER TO MATCH(GROUP_NUM; 3; 8; 11)

Schritte

Sie können ein oder mehrere Felder in der aktiven Tabelle auf doppelte Werte oder doppelte Datensätze prüfen.

Duplikate entfernen

Sie können den Befehl „Summenstruktur“ verwenden, um doppelt vorhandene Datensätze aus einem Dataset zu entfernen und die verbleibenden eindeutigen Werte bzw. Datensätze in einer neuen Analytics-Tabelle zu speichern.