Funktionsweise der Differenzeinstellungen

Fuzzy-Duplikate werden auf Grundlage des von Ihnen angegebenen Differenzgrads ausgewählt und dann in den Ausgabeergebnissen gruppiert. Der Differenzgrad ergibt sich aus einer Kombination zweier Einstellungen im Dialogfeld Fuzzy-Duplikate:

  • Der Differenzschwellenwert legt fest, wie stark sich zwei Fuzzy-Duplikate unterscheiden dürfen.
  • Der Differenzprozentsatz steuert den zulässigen Anteil der Unterschiede eines einzelnen Werts.

Beide Einstellungen funktionieren als zwei von einander unabhängige Schwellenwerte. Die Werte im Testfeld müssen innerhalb der Grenzen beider Schwellenwerte liegen, um in den Ergebnissen in die Gruppe der Fuzzy-Duplikate einbezogen zu werden. Durch Festlegen der zwei Einstellungen können Sie die Genauigkeit und Verwendbarkeit der Resultate optimieren.

Sie können den Differenzprozentsatz deaktivieren, wodurch Werte nur den Grenzen des Differenzschwellenwerts entsprechen müssen. Der Differenzschwellenwert kann nicht deaktiviert werden.

Differenzschwellenwert im Detail

Mit dem Differenzschwellenwert wird die maximal zulässige Levenshtein-Distanz zwischen zwei Werten angegeben, die als Fuzzy-Duplikate gekennzeichnet werden sollen.

Was ist die Levenshtein-Distanz?

Bei der Levenshtein-Distanz handelt es sich um die Mindestanzahl an Zeichen, die geändert werden müssen, damit zwei Werte identisch sind. Die Anzahl der benötigten Bearbeitungen wird durch einen Algorithmus berechnet.

Beispiel für die Levenshtein-Distanz

Die Levenshtein-Distanz zwischen „Smith“ und „Smythe“ beträgt 2:

  • Bearbeitung 1 „y“ muss durch „i“ ersetzt werden.
  • Bearbeitung 2 „e“ muss eingefügt werden.

Je größer die Levenshtein-Distanz ist, desto größer ist der Unterschied zwischen zwei Werten. Eine Distanz von 0 (null) bedeutet, dass zwei Werte identisch sind.

Die folgende Tabelle enthält Beispiele unterschiedlicher Levenshtein-Distanzen. Weitere Informationen zur Levenshtein-Distanz finden Sie unter LEVDIST( ).

Hinweis

Der Levenshtein-Algorithmus behandelt Leerzeichen oder Zwischenräume zwischen Wörtern als Zeichen.

Wert 1

Wert 2

Levenshtein-Distanz

Bei einem Differenzschwellenwert von 3 in Ergebnissen enthalten

Smith

Smith

0

Ja

(wenn Exakte Duplikate einbeziehen aktiviert ist)

Smith

Smithe

1

Ja

Smith

Smythe

2

Ja

Hanssen

Jansn

3

Ja

Smith

Brown

5

Nein

Intercity Couriers

Intercity Couriers Inc.

5

Nein

Diamond Tire

Diamond Tire & Auto

7

Nein

JW Smith

John William Smith

10

Nein

Differenzschwellenwert ändern

Bei einer Erhöhung des Differenzschwellenwerts erhöht sich die maximal zulässige Levenshtein-Distanz, was zu einer größeren Menge an Ergebnissen führt, da Werte mit einer größeren Differenz einbezogen werden. Sie können einen Differenzschwellenwert zwischen 1 und 10 angeben.

Die Obergrenze ist sinnvoll, da eine Erhöhung der maximalen Levenshtein-Distanz über einen bestimmten Punkt hinaus zu einer sehr großen Ergebnismenge mit überwiegenden Falschmeldungen führen würde.

Die Untergrenze ist notwendig, da bei Eingabe von 0 (Null) nur exakte Duplikate aufgeführt würden. Wenn Sie ausschließlich nach exakten Duplikaten suchen möchten, verwenden Sie die Funktion für Duplikate.

Differenzprozentsatz im Detail

Mit dem Differenzprozentsatz wird der maximal zulässige Unterschied in Prozent des kürzeren von zwei verglichenen Werten angegeben, bei dem beide Werte noch als Fuzzy-Duplikate gelten.

Wie wird der Differenzprozentsatz berechnet?

Analytics führt mithilfe der Levenshtein-Distanz zwischen jedem zu vergleichenden Wertepaar in einem Testfeld die folgende interne Berechnung durch:

Levenshtein-Distanz / Anzahl der Zeichen des kürzeren Werts × 100 = Differenzprozentsatz

Beispiel für den Differenzprozentsatz

Die Levenshtein-Distanz zwischen „Smith“ und „Smythe“ ist 2, und der kürzere der beiden Werte ist fünf Zeichen lang, sodass sich ein Differenzprozentsatz von 40 ergibt (2/5 x 100).

Wenn der Differenzprozentsatz unter dem angegebenen Differenzprozentsatz liegt oder ihm entspricht, können die beiden Werte in die Ergebnisse aufgenommen werden, unter der Voraussetzung, dass sie sich auch innerhalb der maximal zulässigen Levenshtein-Distanz zueinander befinden (der Differenzschwellenwert).

Die folgende Tabelle enthält Beispiele unterschiedlicher Differenzprozentsätze.

Wert 1 (Länge)

Wert 2 (Länge)

Levenshtein-Distanz und Differenzprozentsatz

Bei einem Differenzprozentsatz von 50 in Ergebnissen enthalten

Smith (5)

Smith (5)

0; 0% (0/5)

Ja

(wenn Exakte Duplikate einbeziehen aktiviert ist)

Smith (5)

Smithe (6)

1; 20% (1/5)

Ja

Smith (5)

Smythe (6)

2; 40% (2/5)

Ja

Hanssen (7)

Jansn (5)

3; 60% (3/5)

Nein

Smith (5)

Brown (5)

5; 100% (5/5)

Nein

Intercity Couriers (18)

Intercity Couriers Inc. -23

5; 27,77% (5/18)

Ja

Diamond Tire (12)

Diamond Tire & Auto (19)

7; 58,33% (7/12)

Nein

JW Smith (8)

John William Smith (18)

10; 125% (10/8)

Nein

Differenzprozentsatz ändern

Wird der Differenzprozentsatz erhöht, steigt der Umfang der Ergebnisse, da Werte mit einem höheren Differenzanteil einbezogen werden. Sie können einen Differenzprozentsatz zwischen 1 und 99 angeben.

Die Obergrenze ist sinnvoll, da bei einem Differenzprozentsatz von 100 oder höher in der Gruppe mit Fuzzy-Duplikaten der Ergebnisse möglicherweise Wertepaare einbezogen würden, die sich vollständig voneinander unterscheiden. „ABC“ und „XYZ“ weisen beispielsweise eine Levenshtein-Distanz von 3 auf und eine kürzere Wertlänge von 3, woraus sich ein Differenzprozentsatz von 100 ergibt.

Die Untergrenze ist notwendig, da bei Eingabe von 0 (Null) nur exakte Duplikate aufgeführt würden. Wenn Sie ausschließlich nach exakten Duplikaten suchen möchten, verwenden Sie die Funktion für Duplikate.

Differenzprozentsatz deaktivieren

Der Differenzprozentsatz kann deaktiviert werden. Wenn Sie den Differenzprozentsatz deaktivieren, wird der Differenzanteil eines Werts in den Ergebnissen nicht berücksichtigt. Sie könnten einige zusätzliche Fuzzy-Duplikate erhalten, wie beispielsweise "JW Smith" und "John William Smith". Gruppen von Fuzzy-Duplikaten könnten aber auch Werte enthalten, die vollständig verschieden sind, wie z.B. "Smith" und "Brown". Darüber hinaus erhalten Sie umfangreichere Ergebnisse als wenn Sie einen beliebigen Differenzprozentsatz angeben.

Gemeinsame Funktionsweise von Differenzschwellenwert und Differenzprozentsatz

Die folgende Tabelle zeigt, wie Differenzschwellenwert und Differenzprozentsatz zusammenarbeiten. Die in Differenzschwellenwert im Detail und Differenzprozentsatz im Detail angezeigten Vergleichswerte müssen nun innerhalb der Grenzen beider Schwellenwerte liegen, um in die Ergebnisse einbezogen zu werden.

„Hanssen/Jansn“ und „Intercity Couriers/Intercity Couriers Inc.“ sind enthalten, falls Differenzschwellenwert und Differenzprozentsatz getrennt betrachtet werden. Sie werden aber bei gemeinsamer Betrachtung der beiden Einstellungen nicht mehr einbezogen, da sie nicht innerhalb der Grenzen beider Schwellenwerte liegen.

Wert 1 (Länge)

Wert 2 (Länge)

Levenshtein-Distanz und Differenzprozentsatz

Bei einem Differenzschwellenwert von 3 und einem Differenzprozentsatz von 50 in Ergebnissen enthalten

Smith (5)

Smith (5)

0; 0% (0/5)

Ja

(wenn Exakte Duplikate einbeziehen aktiviert ist)

Smith (5)

Smithe (6)

1; 20% (1/5)

Ja

Smith (5)

Smythe (6)

2; 40% (2/5)

Ja

Hanssen (7)

Jansn (5)

3; 60% (3/5)

Nein

Smith (5)

Brown (5)

5; 100% (5/5)

Nein

Intercity Couriers (18)

Intercity Couriers Inc. -23

5; 27,77% (5/18)

Nein

Diamond Tire (12)

Diamond Tire & Auto (19)

7; 58,33% (7/12)

Nein

JW Smith (8)

John William Smith (18)

10; 125% (10/8)

Nein