Data Quality CZ - portál věnující se tématu kvalitních dat
Výzkum v oblasti řízení datové kvality
Popis nejčastějších chyb v datech
Popis záměru
Cílem této výzkumné činnosti je shromáždit nejčastější chyby v datech pro různá jazyková prostředí. Takto vzniklá báze chyb je vstupem pro testování vyvíjených algoritmů pro deduplikaci formou porovnávacích kódů a srovnávání jejich výkonnosti s ostatními metodami pro porovnávání a slučování.
Metodika evaluace
Pro účely evaluace porovnávacích kódů byly zvoleny dva typy chyb
- Empiricky zjištěné v reálných datech
- Záměrné, s cílem prověřit chování algoritmu v konkrétních sporných (negativních) případech
Typy empirických chyb
Mechanické chyby
- A1: Přepnutá klávesnice z default jazyka na jiný (např. KOL9NSK8 => KOLÍNSKÁ)
- A2: Přehození dvou po sobě jdoucích písmen
- A3: Záměna dvou písmen vedle sebe ležících na klávesnici
- A4: Záměna podobných písmen při přepisu z původního zdroje (např. KOLÍNSKÁ => KOCÍNSKÁ)
- A5: Přehození klávesnice QWERTZ na QWERTY
Vzniklé na základě neznalosti
- B1: Špatný zápis výrazu z cizího jazyka (např. SZEWIECZEK => ŠEVJEČEK)
Vzniklé přeslechnutím
- C1: Záměna slov obsahujících stejně znějící hlásky (např. REICHRT => REJCHRT)
- C2: Ignorování zdvojených hlásek (např. BERGMAN => BERGMANN)
Lidová tvořivost
- D1: Proložení písmen mezerami (např. DAVID => D A V I D)
- D2: Interpretace zkratek (např. SV. => SVATOSLAV / SVATOPLUK)
- D3: Vytváření neoficiálních zkratek (např. Strojír.zkuš.ústav s.p. / Strojírenský zkušeb. ústav, s.p.)
- D4: Použití zkratek vs. celých názvů (např. ODBOROVÝ SVAZ PRACOVNÍKŮ ZEM.A VÝŽIVY ČECH A MORAV / OSPZV-ASO ČR)
- D5: Použití úplných vs. zkrácených názvů subjektu (např. Policie ČR / Policie ČR- Správa Severomoravského Kraje)
- D6: Vkládání statutárního orgánu do názvu firmy
Systémové chyby
- E1: Chybné kódování jazykové sady (např. MR??AV?? => MRŇAVÝ)
- E2: Chybná transformace (např. KOBZINEK => KOBZI0K)
- E3: Různá velikost písmen (chybějící standard)
Specifika národního prostředí
- F1: Zdomácnělé formy jména (např. MIREK, MIROSLAV)
- F2: Nemožnost rozlišit mezi jménem a příjmení (např. HASAN BASHIR, BASHIR HASAN)
Příklady identifikovaných reálných defektů
Použité negativní příklady
Do experimentu byly záměrně zařazeny příklady, které nemají být algoritmem porovnávacích kódů identifikovány jako shodné (např. JAN KRŮTA vs. JANA KRUTÁ). Úplný seznam negativních příkladů je uveden níže:
Publikované výstupy
Document Tree