Data Quality CZ - portál věnující se tématu kvalitních dat

Výzkum v oblasti řízení datové kvality

Benchmark metod pro porovnávání řetězců

[7.12.2013] D. Pejčoch

Popis záměru

Jednou z typických úloh, se kterou se můžeme setkat při udržování deduplikované referenční relace kmenových (master) dat je porovnávání nového vstupujícího záznamu s existující referenční relací. V odborné literatuře je popsána řada přístupů, místy i s pokusy o srovnání dílčích metod. Chybí ale ucelený přehled všech použitelných metod a standardní benchmark těchto metod na reálných datech. Tato studie se pokouší vyplnit tuto mezeru a poskytuje jak ucelený přehled všech metod, tak metodiku standardního benchmarku, který by umožňoval porovnání jednotlivých metod na reálných datech.

Klasifikace metod pro porovnávání a slučování podle metodiky CADAQUES

Úroveň 1 Úroveň 2 Název metody
Metody pro přesné porovnání Lookup
Přesný join
Metody pro přibližné porovnání Fuzzy Join
Triviální metody Odstranění samohlásek
Standardizace velikosti písmen
Fonetické algoritmy Soundex
Metaphone
Double-Metaphone
Daitch-Mikotoff
Metody založené na kalkulaci nákladů transformace Jarova vzdálenost
Jaro-Winklerova vzdálenost
Editační vzdálenost
Levenshteinova vzdálenost
Needleman-Wunchova vzdálenost
Smith-Watermanova vzdálenost
Metody založené na tokenizaci Diceho koeficient
N-gram
Jaccardův koeficient
Hammingova vzdálenost
KL Divergence
Fellegi Sunter
TF-IDF Kosínová podobnost
Hybridní metody Fuzzy Similarity Function
Komplexní metody Porovnávací kódy
Metody pro optimalizaci M-tree index
Error Tolerant Index

Publikované výstupy

  • PEJČOCH, D. Benchmark přístupů k Fuzzy Match / Merge. Sborník prací účastníků vědeckého semináře doktorského studia. Fakulta informatiky a statistiky VŠE. Praha 2009. ISBN 978-80-245-1524-3.

Další výstupy

Document Tree