Data Quality CZ - portál věnující se tématu kvalitních dat

Výzkum v oblasti řízení datové kvality

Metodika CADAQUES

Metodika CADAQUES (Complex Approach to Data and Information Quality Management in Enterprise Systems) představuje flexibilní přístup k řízení komplexního univerza dat, se kterými v dnešní době firmy i soukromý sektor přicházejí do styku.

Komponenty metodiky CADAQUES

Vlastní metodika CADAQUES se skládá s následujících stavebních prvků: (1) základních principů, (2) redukované sady vlastností dat, které je efektivní řídit napříč všemi datovými zdroji, (3) základních činností realizovaných v rámci různých úrovní řízení kvality dat a informací, (4) kanonických datových modelů doporučených jako základ pro znalostní bázi podporující řízení kvality dat, (5) návodu, jakým způsobem navázat audit datové kvality na audit informačního systému podle IT Assurance Guide: Using COBIT, (6) simulačního modelu pro měření dopadu vlastností dat do metrik výkonnosti IT a podniku a (7) šablon dokumentů.

Principy

  • Metodika se zaměřuje na audit a řízení kvality komplexního univerza dat a informací. Reflektuje heterogenní charakter současných datových a informačních zdrojů;
  • Metodika klade důraz na multidimenzionální přístup, charakterizovaný různými pohledy na vlastnosti dat a informací, uvažováním současného i potenciálního užití dat a informací a uvažováním různých kategorií dopadu nekvalitních dat a informací;
  • Metodika klade důraz na využití dodatečných znalostí při řízení kvality dat a informací. Tyto znalosti doporučuje spravovat ve znalostní bázi;
  • Metodika klade důraz na provázání auditu kvality dat a informací na existující nejlepší praktiky a doporučené postupy v oblasti auditu informačních systémů. Hlavním důvodem je myšlenka, že pokud existuje zaběhlý způsob, jakým je prováděn audit ostatních částí informačního systému, není důvod proč pro audit dat používat způsob jiný;
  • Metodika klade důraz na prolinkování principů Data Governance s existujícími metodikami pro implementaci principů IT Governance, jmenovitě COBIT. Data Governance chápe pouze jako součást IT Governance;
  • Metodika upozorňuje na nutnost řízení kvality dat a informací jako celku, nikoliv na bázi elementárních datových / informačních zdrojů;
  • Metodika doporučuje dodržování principu Data Lineage (rodokmenu dat), tedy sledování původu dat, způsobu pořízení, stáří dat, frekvenci aktualizace a historii všech provedených transformací. Dodržování tohoto principu usnadní dohledávání původních příčin vzniku defektů v datech;
  • Metodika reflektuje skutečnost, že některé datové zdroje nejsou pod přímou kontrolou jejich konzumentů. Doporučuje udržovat tuto informaci přístupnou uživatelům dat a zohlednit ji při definici očekávané míry vlastností příslušných atributů. Doporučuje též zhodnotit míru rizika spojenou s použitím takových datových zdrojů;
  • Metodika doporučuje řídit životní cyklus dat/informací. Pokud jsou nějaká data nepotřebná či duplicitní, je třeba je archivovat nebo smazat. Důvodem jsou náklady na správu, uložení a chaos;
  • Metodika doporučuje použití kanonického (obecného) datového modelu při budování znalostní báze orientované na řízení kvality dat a informací;
  • Metodika doporučuje udržování takové úrovně vlastností dat a informací, které vede k optimálnímu dopadu do metrik výkonnosti IT a podniku při současném efektivním využití podnikových zdrojů. Pokud reálné použití některých atributů nevyžaduje vysokou úroveň některých měřených vlastností nebo je tato úroveň spojena s příliš vysokými náklady, metodika doporučuje slevit z požadavků na tyto vlastnosti;
  • Metodika poskytuje slovník pojmů používaných v oblasti řízení kvality dat a informací.

Konceptuální model

Redukovaná sada vlastností dat


Symbolické označení vlastnosti Vlastnost dat Popis vlastnosti Způsob měření
Endogenní dimenze ID1 Důvěryhodnost Míra všeobecné akceptovatelnosti dat jejich uživateli Např. dotazníkové šetření, interview s uživateli.
Minimum z metrik důvěryhodnost zdroje, důvěryhodnost v porovnání s interními standardy, důvěryhodnost na základě stáří dat.

ID2 Unikátnost Podíl nechtěných duplicitních záznamů v databázi nebo mezi datovými zdroji Shluková analýza podle porovnávacích kódů nebo metody pro porovnávání a slučování

ID3 Sémantická správnost Podíl chybně přiřazených hodnot atributu Porovnávací funkce, popisné statistiky (určení potenciálně chybných odlehlých hodnot) v rámci profilace dat
1 – (počet chybných záznamů / počet záznamů celkem)

ID4 Syntaktická správnost Podíl nesmyslných hodnot pro daný typ atributu Porovnávací funkce v rámci profilace dat
1 – (počet chybných záznamů / počet záznamů celkem)

ID5 Přesnost Podíl chybných hodnot pro daný typ atributu. Data skutečně odpovídají realitě pro danou entitu.
Porovnání s referenčním zdrojem nebo konfrontací s reálnou entitou.
Časové dimenze TD1 Aktuálnost Podíl zjevně neaktuálních hodnot Stáří dat při získání poslední aktuální hodnoty + (čas posledního získání aktuální hodnoty - čas posledního vložení do IS)

TD2 Včasnost Váha odpovídající frekvenci čerpání dat do datového zdroje max{0,1 - aktuálnost / volatilita}s
s = míra senzitivity

TD3 Volatilita Váha odpovídající frekvenci změn v reálném světě Doba, po kterou data zůstávají platná, tj. např. průměrná doba platnosti daného atributu (např. pro daný behaviorální segment).

TD4 Časová synchronizace Míra synchronizace mezi zdroji s různým časovým razítkem Odpovídá frekvenci čerpání dat - v podstatě se jedná o rozdíl vložení do IS a času posledního získání aktuální hodnoty - viz aktuálnost
Kontextuální dimenze CD1 Interní konzistentnost Konzistentnost v rámci atributů jednoho zdroje (např. konzistentnost rodného čísla s pohlavím a datem narození) Podíl nekonzistentních hodnot.

CD2 Externí konzistentnost Konzistentnost napříč různými datovými zdroji Podíl nekonzistentních hodnot.

CD3 Úplnost Míra chybně nevyplněných hodnot Podíl chybně nevyplněných hodnot daného atributu k celkovému počtu záznamů dané entity

CD4 Pokrytí Míra pokrytí všech potenciálních hodnot atributu pro danou entitu Podíl případů, kdy atribut neobsahuje všechny potenciální hodnoty
Dimenze užití UD1 Dostupnost Míra dostupnosti dat pro uživatele Podle (Lee a kol., 2006) max [(1 – doba odezvy na požadavek / doba po kterou mohou být data použita), 0], zpravidla umocněno pomocí koeficientu senzitivity.

UD2 Srozumitelnost Míra srozumitelnosti dat pro jejich uživatele Např. dotazníkové šetření, interview s uživateli.

UD3 Interoperabilita Míra existence dokumentace a metadat pro korektní interpretaci dat. Obsahuje v sobě míru informace o původu dat. Podíl atributů obsažených v metadata repository k počtu netechnických atributů obsažených v systémech.

UD4 Bezpečnost přístupu Míra zabezpečení přístupu k datům Podíl neoprávněných přístupů k hodnotám daného atributu k celkovému počtu přístupů za určité období nebo vůči předchozímu období
Ekonomická dimenze ED1 Náklady na pořízení a aktualizaci dat Náklady na pořízení datového zdroje a jeho aktualizaci Objem nákladů v Kč nebo jejich procentuální nárůst oproti minulému období

ED2 Náklady na uložení, sdílení, distribuci zálohování a archivaci dat Náklady na uložení či archivaci v datovém úložišti (databázi, páskové jednotce, apod.) a jejich zpřístupnění uživatelům Objem nákladů v Kč nebo jejich procentuální nárůst oproti minulému období

ED3 Náklady na ochranu dat Náklady na zajištění bezpečného přístupu a zabránění neautorizovanému přístupu k datům. Objem nákladů v Kč nebo jejich procentuální nárůst oproti minulému období

Publikované výstupy

  • PEJČOCH, D. CADAQUES: Metodika pro komplexní řízení kvality dat a informací. In: Acta Informatica Pragensia. Vol 3, No 1(2014), str. 44-56. ISSN: 1805-4951.

Document Tree