Data Quality CZ - portál věnující se tématu kvalitních dat

Výzkum v oblasti řízení datové kvality

Popis nejčastějších chyb v datech

Popis záměru

Cílem této výzkumné činnosti je shromáždit nejčastější chyby v datech pro různá jazyková prostředí. Takto vzniklá báze chyb je vstupem pro testování vyvíjených algoritmů pro deduplikaci formou porovnávacích kódů a srovnávání jejich výkonnosti s ostatními metodami pro porovnávání a slučování.

Metodika evaluace

Pro účely evaluace porovnávacích kódů byly zvoleny dva typy chyb

  • Empiricky zjištěné v reálných datech
  • Záměrné, s cílem prověřit chování algoritmu v konkrétních sporných (negativních) případech

Typy empirických chyb

Mechanické chyby

  • A1: Přepnutá klávesnice z default jazyka na jiný (např. KOL9NSK8 => KOLÍNSKÁ)
  • A2: Přehození dvou po sobě jdoucích písmen
  • A3: Záměna dvou písmen vedle sebe ležících na klávesnici
  • A4: Záměna podobných písmen při přepisu z původního zdroje (např. KOLÍNSKÁ => KOCÍNSKÁ)
  • A5: Přehození klávesnice QWERTZ na QWERTY

Vzniklé na základě neznalosti

  • B1: Špatný zápis výrazu z cizího jazyka (např. SZEWIECZEK => ŠEVJEČEK)

Vzniklé přeslechnutím

  • C1: Záměna slov obsahujících stejně znějící hlásky (např. REICHRT => REJCHRT)
  • C2: Ignorování zdvojených hlásek (např. BERGMAN => BERGMANN)

Lidová tvořivost

  • D1: Proložení písmen mezerami (např. DAVID => D A V I D)
  • D2: Interpretace zkratek (např. SV. => SVATOSLAV / SVATOPLUK)
  • D3: Vytváření neoficiálních zkratek (např. Strojír.zkuš.ústav s.p. / Strojírenský zkušeb. ústav, s.p.)
  • D4: Použití zkratek vs. celých názvů (např. ODBOROVÝ SVAZ PRACOVNÍKŮ ZEM.A VÝŽIVY ČECH A MORAV / OSPZV-ASO ČR)
  • D5: Použití úplných vs. zkrácených názvů subjektu (např. Policie ČR / Policie ČR- Správa Severomoravského Kraje)
  • D6: Vkládání statutárního orgánu do názvu firmy

Systémové chyby

  • E1: Chybné kódování jazykové sady (např. MR??AV?? => MRŇAVÝ)
  • E2: Chybná transformace (např. KOBZINEK => KOBZI0K)
  • E3: Různá velikost písmen (chybějící standard)

Specifika národního prostředí

  • F1: Zdomácnělé formy jména (např. MIREK, MIROSLAV)
  • F2: Nemožnost rozlišit mezi jménem a příjmení (např. HASAN BASHIR, BASHIR HASAN)

Příklady identifikovaných reálných defektů

Použité negativní příklady

Do experimentu byly záměrně zařazeny příklady, které nemají být algoritmem porovnávacích kódů identifikovány jako shodné (např. JAN KRŮTA vs. JANA KRUTÁ). Úplný seznam negativních příkladů je uveden níže:

Publikované výstupy

Document Tree