Se stále rostoucí mírou používání dat, nejen pro účely zajištění běžného provozu firmy, ale i jako podkladů pro rozhodování, se do popředí zájmu dostala otázka kvality dat, které firma uchovává ve svých databázích. Míru kvality dat lze ztotožnit s mírou naplnění vlastností dat jako je např. jejich správnost, důvěryhodnost, úplnost, unikátnost, s ohledem na jejich potenciální využití. Tato studie se soustřeďuje na úplnost dat a to zejména z pohledu využití dat pro statistickou analýzu a získávání znalostí z databází. Klade si za cíl zmapovat možné příčiny vzniku neúplných dat, upozornit na možné negativní důsledky tohoto jevu a poskytnout stručný výčet metod použitelných pro odstranění těchto důsledků. V případě metod poukazuje na jejich přednosti a nedostatky a současně hledá náměty pro další výzkum v této oblasti.
Úroveň 1 | Úroveň 2 | Úroveň 3 | Úroveň 4 | Příklady metod | Mechanismy |
---|---|---|---|---|---|
Ponechání status quo | Ignorování / smazání pozorování | Stepwise | NA | ||
Maximální využití dostupných dat | Pairwise | ||||
Databázové techniky | Lookup | MCAR, MNAR | Přesný Join | ||
Fuzzy match / merge | Fuzzy Join | ||||
Metody založené na kalkulaci nákladů | |||||
Metody založené na tokench | |||||
Hybridní metody | |||||
Porovnávací kódy | |||||
Procedury založené na imputaci | Přístupy nezaložené na modelu | Nepodmíněný průměr | MCAR, MNAR, MAR | ||
Buckova metoda | |||||
Midrange | |||||
Přístupy založené na modelu | Implicitní model | Faktoriální techniky | PCA | MCAR, MAR | |
Vícerozměrná korespondenční analýza | |||||
Metody založené na podobnosti | Hot-deck | ||||
Cold-deck | |||||
Nearest Neighbour | |||||
Explicitní model | Parametrické modely | GLM | MAR | ||
Naïve Bayes | |||||
Neuronové sítě | |||||
Vícenásobná imputace | |||||
EM algoritmus | |||||
Neparametrické modely | Neparametrická regrese | ||||
Metody založené na stromech |
Symbolický odkaz | Název datového souboru | Link na původní zdroj | Odkaz na data | Odkaz na popis dat | Popisné statistiky | Oddělovač |
---|---|---|---|---|---|---|
DS001 | Australian Credit Approval (STATLOG) | UCI data | dat | txt | html | space |
DS002 | German Credit (STATLOG) | UCI data | dat | txt | html | space |
DS003 | Heart Disease (STATLOG) | UCI data | dat | txt | html | space |
DS004 | Vehicle Silhouettes (STATLOG) | UCI data | dat | txt | html | space |
DS005 | Landsat Satellite (STATLOG) | UCI data | dat | txt | html | space |
DS006 | Shuttle (STATLOG) | UCI data | dat | txt | html | space |
DS007 | Adult | UCI data | dat | txt | html | comma |
DS008 | Bank Marketing | UCI data | csv | txt | html | semicolon |
DS009 | Nursery | UCI data | dat | txt | html | comma |
DS010 | Wine Quality | UCI data | csv | txt | html | semicolon |
DS011 | Auto MPG Data Set | UCI data | dat | txt | html | tab |
DS012 | Parkinsons Telemonitoring Data Set | UCI data | csv | txt | html | semicolon |
Pro účely realizace experimentu byl použit software SAS licencován na VŠE Praha.
Original site validation data Site name: 'VYSOKA SKOLA EKONOMICKA V PRAZE'. Site number: 70090733. Expiration: 14DEC2014. Grace Period: 62 days (ending 14FEB2015). Warning Period: 31 days (ending 17MAR2015). System birthday: 29NOV2013. Operating System: WX64_WKS.
DS1 | DS2 | DS3 | DS4 | DS5 | DS6 | DS7 | DS8 | DS9 | DS10 | DS11 | DS12
Balíček | Popis | Dostupnost | Dokumentace |
---|---|---|---|
Amelia | Bootstrap + EM (Expectation Maximization) algoritmus | CRAN | Amelia.pdf |
HotDeckImputation | Implementace Hot Deck strategie pomocí metody nejbližšího souseda | CRAN | HotDeckImputation.pdf |
DMwR | kNNImputation() = implementace kNN s využitím váženého průměru a mediánu | CRAN | DMvR.pdf |
imputeR | Framework pro imputaci: generování chybějících pozorování, imputace pomocí Cubist, Boosting Tree, Boosting Regression, PC Regression, PLS Regression, LDA, Ridge Regression, klasifikačních stromů, variant Pairwise | CRAN | imputeR.pdf |
DMwR | Implementace kNN | CRAN | DMvR.pdf |