Fuzzy-Duplikate – Übersicht
Sie können die Analytics-Funktion für Fuzzy-Duplikate verwenden und ein Zeichenfeld auf nahezu identische Werte testen, die sich möglicherweise auf dieselbe tatsächliche Entität beziehen.
Das Testen auf Fuzzy-Duplikate ist ein komplexerer Prozess als die Suche nach exakten Duplikaten. Wenn Sie die Einstellungen zum Kontrollieren des Differenzgrads zwischen Fuzzy-Duplikaten und die Gruppierung von Fuzzy-Duplikaten in den Ausgabeergebnissen verstehen, können Sie die Funktion effizienter nutzen.
Zusätzlich zur Hauptfunktion für Fuzzy-Duplikate sollten Sie möglicherweise die beiden Hilfefunktionen für Fuzzy-Duplikate verwenden oder Testfelder verketten, um die gewünschten Ergebnisse zu erzielen.
Tipp
Die Funktion für Fuzzy-Duplikate erfordert eine hohe Prozessorleistung, da jeder Wert eines Testfelds mit jedem in diesem Feld folgenden Wert verglichen werden muss. Wenn dies in Ihrer Analyse möglich ist, verwenden Sie Methoden wie z.B. Filtern oder Extrahieren von Datensatz-Untergruppen, um die Größe des zu testenden Datasets einzuschränken. Kleinere Datensätze werden schneller ausgeführt, und Sie können den Umfang der Ergebnisse besser kontrollieren.
Fuzzy-Duplikate gegenüber Fuzzy-Zusammenführung
Das Feature der Fuzzy-Duplikate analysiert Werte in einem einzelnen Feld und einer einzelnen Analytics-Tabelle. Verwenden Sie die Fuzzy-Übereinstimmung, um Felder aus zwei Analytics-Tabellen in einer neuen dritten Tabelle zu vereinen. Siehe Fuzzy-Zusammenführung.
Abfolge der Aufgaben zur Analyse auf Fuzzy-Duplikate
Abhängig von der Beschaffenheit Ihrer Testdaten und der Zielsetzung der Analyse auf Fuzzy-Duplikate müssen Sie möglicherweise einige Aufgaben ausführen, um sinnvolle Ergebnisse zu erstellen. Die folgende Tabelle enthält Informationen zur Abfolge dieser Aufgaben.
Hinweis
Abgesehen von der Funktion für Fuzzy-Duplikate selbst sind diese Aufgaben optional, deren Ausführung kann jedoch die Qualität der Ergebnisse steigern.
|
Aufgabe |
Optional |
Analytics-Funktion |
Details |
---|---|---|---|---|
1 |
Begrenzen der Größe des Testdatensatzes |
Ja |
Filter Extrahieren von Datenuntergruppen |
Leistungssteigerung durch ausschließliche Verarbeitung von für Ihre Analyse sinnvollen Datensätzen |
2 |
Generische Elemente wie "GmbH" oder "AG" aus Feldwerten entfernen |
Ja |
OMIT( )-Funktion |
Verringerung des Umfangs von Ergebnissen und Steigerung der Genauigkeit von Ergebnissen durch Fokussierung auf den Teil der Zeichenwerte, in dem möglicherweise eine sinnvolle Differenz auftritt |
3 |
Verketten von Feldern zur Erhöhung der Eindeutigkeit der Testwerte |
Ja |
Analytics-Ausdruck, der einen Und-Operator (+) verwendet |
Verringerung des Umfangs von Ergebnissen und Steigerung der Genauigkeit von Ergebnissen durch Testen von eindeutigeren, durch Verketten von mehreren Zeichenfeldern erstellten Werten |
4 |
Erkennen aller Fuzzy-Duplikate in einem Feld und Ausgabe nicht erschöpfender Ergebnisse |
Nein |
Funktion für Fuzzy-Duplikate |
Die Hauptfunktion für Fuzzy-Duplikate |
5 |
Erstellen einer vollständigen Liste von Fuzzy-Duplikaten für einen einzelnen Zeichenwert aus den nicht erschöpfenden Ergebnissen |
Ja |
ISFUZZYDUP( )-Funktion |
Erstellen einer komfortablen und vollständigen Liste von Fuzzy-Duplikaten für einen Zeichenwert mit besonderer Relevanz für Ihr Prüfziel |