Data Quality CZ - portál věnující se tématu kvalitních dat

Výzkum v oblasti řízení datové kvality

Benchmark metod pro doplňování chybějících pozorování

[7.12.2013] D. Pejčoch

Popis záměru

Se stále rostoucí mírou používání dat, nejen pro účely zajištění běžného provozu firmy, ale i jako podkladů pro rozhodování, se do popředí zájmu dostala otázka kvality dat, které firma uchovává ve svých databázích. Míru kvality dat lze ztotožnit s mírou naplnění vlastností dat jako je např. jejich správnost, důvěryhodnost, úplnost, unikátnost, s ohledem na jejich potenciální využití. Tato studie se soustřeďuje na úplnost dat a to zejména z pohledu využití dat pro statistickou analýzu a získávání znalostí z databází. Klade si za cíl zmapovat možné příčiny vzniku neúplných dat, upozornit na možné negativní důsledky tohoto jevu a poskytnout stručný výčet metod použitelných pro odstranění těchto důsledků. V případě metod poukazuje na jejich přednosti a nedostatky a současně hledá náměty pro další výzkum v této oblasti.

Klasifikace porovnávaných metod podle metodiky CADAQUES

Úroveň 1 Úroveň 2 Úroveň 3 Úroveň 4 Příklady metod Mechanismy
Ponechání status quo Ignorování / smazání pozorování Stepwise NA
Maximální využití dostupných dat Pairwise
Databázové techniky Lookup MCAR, MNAR
Přesný Join
Fuzzy match / merge Fuzzy Join
Metody založené na kalkulaci nákladů
Metody založené na tokench
Hybridní metody
Porovnávací kódy
Procedury založené na imputaci Přístupy nezaložené na modelu Nepodmíněný průměr MCAR, MNAR, MAR
Buckova metoda
Midrange
Přístupy založené na modelu Implicitní model Faktoriální techniky PCA MCAR, MAR
Vícerozměrná korespondenční analýza
Metody založené na podobnosti Hot-deck
Cold-deck
Nearest Neighbour
Explicitní model Parametrické modely GLM MAR
Naïve Bayes
Neuronové sítě
Vícenásobná imputace
EM algoritmus
Neparametrické modely Neparametrická regrese
Metody založené na stromech

Popis benchmarku

Popis použitých dat

Symbolický odkaz Název datového souboru Link na původní zdroj Odkaz na data Odkaz na popis dat Popisné statistiky Oddělovač
DS001 Australian Credit Approval (STATLOG) UCI data dat txt html space
DS002 German Credit (STATLOG) UCI data dat txt html space
DS003 Heart Disease (STATLOG) UCI data dat txt html space
DS004 Vehicle Silhouettes (STATLOG) UCI data dat txt html space
DS005 Landsat Satellite (STATLOG) UCI data dat txt html space
DS006 Shuttle (STATLOG) UCI data dat txt html space
DS007 Adult UCI data dat txt html comma
DS008 Bank Marketing UCI data csv txt html semicolon
DS009 Nursery UCI data dat txt html comma
DS010 Wine Quality UCI data csv txt html semicolon
DS011 Auto MPG Data Set UCI data dat txt html tab
DS012 Parkinsons Telemonitoring Data Set UCI data csv txt html semicolon

Použitý software

Pro účely realizace experimentu byl použit software SAS licencován na VŠE Praha.

Original site validation data
Site name:    'VYSOKA SKOLA EKONOMICKA V PRAZE'.
Site number:  70090733.
Expiration:   14DEC2014.
Grace Period:  62 days (ending 14FEB2015).
Warning Period: 31 days (ending 17MAR2015).
System birthday:   29NOV2013.
Operating System:   WX64_WKS.

Komentáře k přípravě dat

  • DS006: původní trénovací a testovací data sloučena do jednoho datového souboru
  • DS007: použita pouze trénovací data
  • DS010: použit pouze data set s bílými víny
  • DS011: pro účely importu do SAS změněn oddělovač na semicolon a nahrazeny symbol pro stávající chybějící hodnoty otazníkem

Citační požadavky autorů datových souborů

  • DS001, DS002, DS005, DS007, DS009, DS011: Bache, K. & Lichman, M. (2013). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science.
  • DS003: Hungarian Institute of Cardiology. Budapest: Andras Janosi, M.D.; University Hospital, Zurich, Switzerland: William Steinbrunn, M.D.; University Hospital, Basel, Switzerland: Matthias Pfisterer, M.D.; V.A. Medical Center, Long Beach and Cleveland Clinic Foundation:Robert Detrano, M.D., Ph.D.
  • DS004: Turing Institute, Glasgow, Scotland
  • DS006: Thanks to NASA for allowing us to use the shuttle datasets.
  • DS008: S. Moro, R. Laureano and P. Cortez. Using Data Mining for Bank Direct Marketing: An Application of the CRISP-DM Methodology. In P. Novais et al. (Eds.), Proceedings of the European Simulation and Modelling Conference - ESM'2011, pp. 117-121, Guimarales, Portugal, October, 2011. EUROSIS.
  • DS010: P. Cortez, A. Cerdeira, F. Almeida, T. Matos and J. Reis. Modeling wine preferences by data mining from physicochemical properties. In Decision Support Systems, Elsevier, 47(4):547-553, 2009.
  • DS012: A Tsanas, MA Little, PE McSharry, LO Ramig (2009) 'Accurate telemonitoring of Parkinson’s disease progression by non-invasive speech tests', IEEE Transactions on Biomedical Engineering (to appear).

Rapid Miner

Referenční model (PROC GENMODE)

DS1 | DS2 | DS3 | DS4 | DS5 | DS6 | DS7 | DS8 | DS9 | DS10 | DS11 | DS12

Dostupnost balíčků pro imputaci v R 3.1.0

Balíček Popis Dostupnost Dokumentace
Amelia Bootstrap + EM (Expectation Maximization) algoritmus CRAN Amelia.pdf
HotDeckImputation Implementace Hot Deck strategie pomocí metody nejbližšího souseda CRAN HotDeckImputation.pdf
DMwR kNNImputation() = implementace kNN s využitím váženého průměru a mediánu CRAN DMvR.pdf
imputeR Framework pro imputaci: generování chybějících pozorování, imputace pomocí Cubist, Boosting Tree, Boosting Regression, PC Regression, PLS Regression, LDA, Ridge Regression, klasifikačních stromů, variant Pairwise CRAN imputeR.pdf
DMwR Implementace kNN CRAN DMvR.pdf

Publikované výstupy

Další výstupy

  • Knowledge Engeneering Group Seminar: Comparison of methods for imputation of missing values: David Pejčoch (Raiffeisen Bank ČR). Date and time: June 2 2011 (10:30 – 12:00). Room: 403 NB.

Document Tree