Data Quality CZ - portál věnující se tématu kvalitních dat

Výzkum v oblasti řízení datové kvality

Benchmark metod pro porovnávání řetězců

[7.12.2013] D. Pejčoch

Popis záměru

Jednou z typických úloh, se kterou se můžeme setkat při udržování deduplikované referenční relace kmenových (master) dat je porovnávání nového vstupujícího záznamu s existující referenční relací. V odborné literatuře je popsána řada přístupů, místy i s pokusy o srovnání dílčích metod. Chybí ale ucelený přehled všech použitelných metod a standardní benchmark těchto metod na reálných datech. Tato studie se pokouší vyplnit tuto mezeru a poskytuje jak ucelený přehled všech metod, tak metodiku standardního benchmarku, který by umožňoval porovnání jednotlivých metod na reálných datech.

Klasifikace metod pro porovnávání a slučování podle metodiky CADAQUES

Úroveň 1	Úroveň 2	Název metody
Metody pro přesné porovnání	Lookup
Metody pro přesné porovnání	Přesný join
Metody pro přibližné porovnání	Fuzzy Join
	Triviální metody	Odstranění samohlásek
	Triviální metody	Standardizace velikosti písmen
	Fonetické algoritmy	Soundex
		Metaphone
		Double-Metaphone
		Daitch-Mikotoff
	Metody založené na kalkulaci nákladů transformace	Jarova vzdálenost
		Jaro-Winklerova vzdálenost
		Editační vzdálenost
		Levenshteinova vzdálenost
		Needleman-Wunchova vzdálenost
		Smith-Watermanova vzdálenost
	Metody založené na tokenizaci	Diceho koeficient
		N-gram
		Jaccardův koeficient
		Hammingova vzdálenost
		KL Divergence
		Fellegi Sunter
		TF-IDF Kosínová podobnost
	Hybridní metody	Fuzzy Similarity Function
	Komplexní metody	Porovnávací kódy
	Metody pro optimalizaci	M-tree index
	Metody pro optimalizaci	Error Tolerant Index

Publikované výstupy

PEJČOCH, D. Benchmark přístupů k Fuzzy Match / Merge. Sborník prací účastníků vědeckého semináře doktorského studia. Fakulta informatiky a statistiky VŠE. Praha 2009. ISBN 978-80-245-1524-3.

Další výstupy

Knowledge Engeneering Group Seminar: Using the Fuzzy Match algorithm for data cleaning: David Pejčoch (Kooperativa pojišťovna, a.s.) Date and time: 2008-04-17 (10:30 – 12:00). Room: 403 NB.
PEJČOCH, D. Využití Fuzzy Match algoritmu pro čištění dat. [online]. 2008-01-17. Dostupné na: http://www.dataquality.cz/vyzkum/cl_fuzzy_match_porovnavani_retezcu.pdf.