Metodika CADAQUES (Complex Approach to Data and Information Quality Management in Enterprise Systems) představuje flexibilní přístup k řízení komplexního univerza dat, se kterými v dnešní době firmy i soukromý sektor přicházejí do styku.
Vlastní metodika CADAQUES se skládá s následujících stavebních prvků: (1) základních principů, (2) redukované sady vlastností dat, které je efektivní řídit napříč všemi datovými zdroji, (3) základních činností realizovaných v rámci různých úrovní řízení kvality dat a informací, (4) kanonických datových modelů doporučených jako základ pro znalostní bázi podporující řízení kvality dat, (5) návodu, jakým způsobem navázat audit datové kvality na audit informačního systému podle IT Assurance Guide: Using COBIT, (6) simulačního modelu pro měření dopadu vlastností dat do metrik výkonnosti IT a podniku a (7) šablon dokumentů.
Symbolické označení vlastnosti | Vlastnost dat | Popis vlastnosti | Způsob měření | |
Endogenní dimenze | ID1 | Důvěryhodnost | Míra všeobecné akceptovatelnosti dat jejich uživateli | Např. dotazníkové šetření, interview s uživateli. Minimum z metrik důvěryhodnost zdroje, důvěryhodnost v porovnání s interními standardy, důvěryhodnost na základě stáří dat. |
ID2 | Unikátnost | Podíl nechtěných duplicitních záznamů v databázi nebo mezi datovými zdroji | Shluková analýza podle porovnávacích kódů nebo metody pro porovnávání a slučování | |
ID3 | Sémantická správnost | Podíl chybně přiřazených hodnot atributu | Porovnávací funkce, popisné statistiky (určení potenciálně chybných odlehlých hodnot) v rámci profilace dat 1 – (počet chybných záznamů / počet záznamů celkem) |
|
ID4 | Syntaktická správnost | Podíl nesmyslných hodnot pro daný typ atributu | Porovnávací funkce v rámci profilace dat 1 – (počet chybných záznamů / počet záznamů celkem) |
|
ID5 | Přesnost | Podíl chybných hodnot pro daný typ atributu. | Data skutečně odpovídají realitě pro danou entitu. Porovnání s referenčním zdrojem nebo konfrontací s reálnou entitou. |
|
Časové dimenze | TD1 | Aktuálnost | Podíl zjevně neaktuálních hodnot | Stáří dat při získání poslední aktuální hodnoty + (čas posledního získání aktuální hodnoty - čas posledního vložení do IS) |
TD2 | Včasnost | Váha odpovídající frekvenci čerpání dat do datového zdroje | max{0,1 - aktuálnost / volatilita}s s = míra senzitivity |
|
TD3 | Volatilita | Váha odpovídající frekvenci změn v reálném světě | Doba, po kterou data zůstávají platná, tj. např. průměrná doba platnosti daného atributu (např. pro daný behaviorální segment). | |
TD4 | Časová synchronizace | Míra synchronizace mezi zdroji s různým časovým razítkem | Odpovídá frekvenci čerpání dat - v podstatě se jedná o rozdíl vložení do IS a času posledního získání aktuální hodnoty - viz aktuálnost | |
Kontextuální dimenze | CD1 | Interní konzistentnost | Konzistentnost v rámci atributů jednoho zdroje (např. konzistentnost rodného čísla s pohlavím a datem narození) | Podíl nekonzistentních hodnot. |
CD2 | Externí konzistentnost | Konzistentnost napříč různými datovými zdroji | Podíl nekonzistentních hodnot. | |
CD3 | Úplnost | Míra chybně nevyplněných hodnot | Podíl chybně nevyplněných hodnot daného atributu k celkovému počtu záznamů dané entity | |
CD4 | Pokrytí | Míra pokrytí všech potenciálních hodnot atributu pro danou entitu | Podíl případů, kdy atribut neobsahuje všechny potenciální hodnoty | |
Dimenze užití | UD1 | Dostupnost | Míra dostupnosti dat pro uživatele | Podle (Lee a kol., 2006) max [(1 – doba odezvy na požadavek / doba po kterou mohou být data použita), 0], zpravidla umocněno pomocí koeficientu senzitivity. |
UD2 | Srozumitelnost | Míra srozumitelnosti dat pro jejich uživatele | Např. dotazníkové šetření, interview s uživateli. | |
UD3 | Interoperabilita | Míra existence dokumentace a metadat pro korektní interpretaci dat. Obsahuje v sobě míru informace o původu dat. | Podíl atributů obsažených v metadata repository k počtu netechnických atributů obsažených v systémech. | |
UD4 | Bezpečnost přístupu | Míra zabezpečení přístupu k datům | Podíl neoprávněných přístupů k hodnotám daného atributu k celkovému počtu přístupů za určité období nebo vůči předchozímu období | |
Ekonomická dimenze | ED1 | Náklady na pořízení a aktualizaci dat | Náklady na pořízení datového zdroje a jeho aktualizaci | Objem nákladů v Kč nebo jejich procentuální nárůst oproti minulému období |
ED2 | Náklady na uložení, sdílení, distribuci zálohování a archivaci dat | Náklady na uložení či archivaci v datovém úložišti (databázi, páskové jednotce, apod.) a jejich zpřístupnění uživatelům | Objem nákladů v Kč nebo jejich procentuální nárůst oproti minulému období | |
ED3 | Náklady na ochranu dat | Náklady na zajištění bezpečného přístupu a zabránění neautorizovanému přístupu k datům. | Objem nákladů v Kč nebo jejich procentuální nárůst oproti minulému období |