Jednou z typických úloh, se kterou se můžeme setkat při udržování deduplikované referenční relace kmenových (master) dat je porovnávání nového vstupujícího záznamu s existující referenční relací. V odborné literatuře je popsána řada přístupů, místy i s pokusy o srovnání dílčích metod. Chybí ale ucelený přehled všech použitelných metod a standardní benchmark těchto metod na reálných datech. Tato studie se pokouší vyplnit tuto mezeru a poskytuje jak ucelený přehled všech metod, tak metodiku standardního benchmarku, který by umožňoval porovnání jednotlivých metod na reálných datech.
Úroveň 1 | Úroveň 2 | Název metody |
---|---|---|
Metody pro přesné porovnání | Lookup | |
Přesný join | ||
Metody pro přibližné porovnání | Fuzzy Join | |
Triviální metody | Odstranění samohlásek | |
Standardizace velikosti písmen | ||
Fonetické algoritmy | Soundex | |
Metaphone | ||
Double-Metaphone | ||
Daitch-Mikotoff | ||
Metody založené na kalkulaci nákladů transformace | Jarova vzdálenost | |
Jaro-Winklerova vzdálenost | ||
Editační vzdálenost | ||
Levenshteinova vzdálenost | ||
Needleman-Wunchova vzdálenost | ||
Smith-Watermanova vzdálenost | ||
Metody založené na tokenizaci | Diceho koeficient | |
N-gram | ||
Jaccardův koeficient | ||
Hammingova vzdálenost | ||
KL Divergence | ||
Fellegi Sunter | ||
TF-IDF Kosínová podobnost | ||
Hybridní metody | Fuzzy Similarity Function | |
Komplexní metody | Porovnávací kódy | |
Metody pro optimalizaci | M-tree index | |
Error Tolerant Index |