Data Quality CZ - portál věnující se tématu kvalitních dat

Kauzality mezi vlastnostmi napříč hierarchií znalostí - 1.díl

[1.1.2014] D. Pejčoch

Úvod

Cílem tohoto článku je poukázat na kauzality mezi vlastnostmi dat, informací, znalostí a vizí napříč modifikovanou pyramidou znalostí. Původní koncept hierarchie znalostí dávající do souvislostí pojmy data, informace, znalosti a moudrost pochází od prof. Zeleného (Zelený, 1987). Z důvodu lepší reálné aplikace pyramidy ve firemním prostředí jsem původní koncept pozměnil a úroveň „moudrost“ jsem nahradil pojmem „vize“, který lépe odpovídá strategické úrovni rozhodování a konec konců vyžaduje určitou „moudrost“ tvůrců vizí.

V prvním dílu článku seznámím s teoretickým pozadím problematiky, v druhém dílu poskytnu konkrétní příklady aplikace uvedeného konceptu.

V rámci prvního dílu nejprve uvedu konečnou podobu redukované sady vlastností dat (nejnižší úrovně pyramidy znalostí), vzniklé na základě syntézy přístupů publikovaných v pracích různých renomovaných autorů z oblasti řízení kvality dat a informací. Redukovaná sada vlastností vznikla jako součást mnou vytvořené metodiky CADAQUES pro řízení kvality dat a informací a představuje uříditelné množství metrik aplikovatelné napříč univerzem dat, se kterými přicházejí firmy i státní sektor do styku. V další části popíšu kauzality napříč pyramidou znalostí, demonstrující vztah kvality dat, informací, znalostí a vizí.

Vlastnosti dat

Téma vlastností dat, jako základu řízení kvality dat, je zpracováno řadou autorů. Nejobsáhlejší kompilací jednotlivých přístupů je (Zaveri, et al., 2012). Přestože nevyčerpala všechny možné vlastnosti uváděné různými autory a dospěla Zaveri na základě analýzy 21 různých zdrojů k celkovému počtu 109 vlastností. Z praxe řízení rizik však víme, že firma je schopna efektivně řídit pouze několik desítek rizik. Na vlastnosti dat v tomto směru lze dle mého názoru pohlížet obdobně. Zejména z toho důvodu, že celá řada vlastností dat je spíše subjektivního rázu a nelze je tudíž měřit pomocí automatického technického assessmentu s využitím některého z nástrojů pro podporu řízení datové kvality. Ze sumáře (Zaveri, et al., 2012) dále vyplývá značná disproporce chápání stejných názvů vlastností různými autory.

Z těchto důvodů jsem vytvořil vlastní klasifikaci vlastností dat, uvedenou v Tabulce 1. Tato redukovaná sada dle mého názoru představuje uříditelný počet metrik při současném zachování všech podstatných vlastností. Současně představuje sadu vlastností měřitelnou napříč všemi datovými zdroji. Vlastnosti z první kategorie jsem převzal téměř beze změny z (Batini & Scannapieco, 2006), pouze jsem původní anglické označení této skupiny „Intrinsic“ pozměnil na „Endogenní“. Výčet ostatních vlastností vznikl na základě syntézy zbývajících zdrojů. Skupinu vlastností vztahujících se k určitému časovému intervalu jsem nazval časovou dimenzí. Skupinu vlastností vztahujících se k jiným datovým zdrojům (ať již reálným anebo potenciálním) jsem pojmenoval dimenzí kontextuální. Další skupinu vlastností jsem označil za dimenzi užití. Do této skupiny jsem přidal vlastnost bezpečnost přístupu, zmiňovanou např. (Dyché & Levy, 2006) v souvislosti s řízením kmenových dat firmy (viz dále) a navrhnul k ní příslušnou metriku. Konzistentnost jsem rozdělil na interní (ve smyslu shody v rámci jednoho datového zdroje) a externí (ve smyslu shody napříč různými datovými zdroji).

Do výčtu endogenních vlastností jsem zařadil též přesnost, reflektující skutečnou shodu dat s reálnou entitou. Zatímco syntaktická správnost říká, že hodnota v daném atributu může po syntaktické stránce odpovídat zamýšlené hodnotě a sémantická správnost předpokládá, že tato hodnota skutečně patří do oboru přípustných hodnot daného atributu, přesnost deklaruje, že z celého oboru hodnot je tato konkrétní hodnota tou správnou. Pokud uvažuji o ztotožnění řízení dat s řízením jejich vlastností, je třeba ještě zahrnout do seznamu vlastností jako poslední dimenzi nákladovou stránku tohoto řízení. Relevantní náklady lze členit na náklady pořízení a aktualizace, náklady na správu ve smyslu uložení, zálohování, zpřístupnění a konečně náklady na zabezpečení přístupu.

Ve výsledku jsem získal přehled celkem 20 vlastností, které považuji vzhledem k jejich vysoké citovanosti napříč zdroji za klíčové, doplněný o tři vlastnosti týkající se nákladové stránky řízení. Přehled těchto vlastnosti společně s popisem způsobu jejich měření znázorňuje Tabulka 1. Tato redukovaná sada tvoří jeden ze základních stavebních prvků mnou navržené metodiky CADAQUES.

Tabulka 1: Redukovaná sada vlastností dat podle CADAQUES a způsob jejich měření
Dimenze Vlastnost dat Popis vlastnosti Způsob měření
Endogenní dimenze Důvěryhodnost Míra všeobecné akceptovatelnosti dat jejich uživateli Např. dotazníkové šetření, interview s uživateli.
Minimum z metrik důvěryhodnost zdroje, důvěryhodnost v porovnání s interními standardy, důvěryhodnost na základě stáří dat.
Unikátnost Podíl nechtěných duplicitních záznamů v databázi nebo mezi datovými zdroji Shluková analýza podle porovnávacích kódů nebo metody pro porovnávání a slučování
Sémantická správnost Podíl chybně přiřazených hodnot atributu Porovnávací funkce, popisné statistiky (určení potenciálně chybných odlehlých hodnot) v rámci profilace dat.
1 – (počet chybných záznamů / počet záznamů celkem)
Syntaktická správnost Podíl nesmyslných hodnot pro daný typ atributu Porovnávací funkce v rámci profilace dat.
1 – (počet chybných záznamů / počet záznamů celkem)
Přesnost Podíl chybných hodnot pro daný typ atributu. Data skutečně odpovídají realitě pro danou entitu.
Porovnání s referenčním zdrojem nebo konfrontací s reálnou entitou.
Časové dimenze Aktuálnost Podíl zjevně neaktuálních hodnot Stáří dat při získání poslední aktuální hodnoty + (čas posledního získání aktuální hodnoty - čas posledního vložení do IS)
Včasnost Váha odpovídající frekvenci čerpání dat do datového zdroje max{0,1 - aktuálnost / volatilita}s
s = míra senzitivity
Volatilita Váha odpovídající frekvenci změn v reálném světě Doba, po kterou data zůstávají platná, tj. např. průměrná doba platnosti daného atributu (např. pro daný behaviorální segment).
Časová synchronizace Míra synchronizace mezi zdroji s různým časovým razítkem Odpovídá frekvenci čerpání dat - v podstatě se jedná o rozdíl vložení do IS a času posledního získání aktuální hodnoty - viz aktuálnost
Kontextuální dimenze Interní konzistentnost Konzistentnost v rámci atributů jednoho zdroje (např. konzistentnost rodného čísla s pohlavím a datem narození) Podíl nekonzistentních hodnot.
Externí konzistentnost Konzistentnost napříč různými datovými zdroji Podíl nekonzistentních hodnot.
Úplnost Míra chybně nevyplněných hodnot Podíl chybně nevyplněných hodnot daného atributu k celkovému počtu záznamů dané entity
Pokrytí Míra pokrytí všech potenciálních hodnot atributu pro danou entitu Podíl případů, kdy atribut neobsahuje všechny potenciální hodnoty
Dimenze užití Dostupnost Míra dostupnosti dat pro uživatele max [(1 – doba odezvy na požadavek / doba po kterou mohou být data použita), 0], zpravidla umocněno pomocí koeficientu senzitivity.
Srozumitelnost Míra srozumitelnosti dat pro jejich uživatele Např. dotazníkové šetření, interview s uživateli.
Interoperabilita Míra existence dokumentace a metadat pro korektní interpretaci dat. Obsahuje v sobě míru informace o původu dat. Podíl atributů obsažených v datovém slovníku k počtu netechnických atributů obsažených v systémech.
Bezpečnost přístupu Míra zabezpečení přístupu k datům Podíl neoprávněných přístupů k hodnotám daného atributu k celkovému počtu přístupů za určité období nebo vůči předchozímu období
Ekonomická dimenze Náklady na pořízení a aktualizaci dat Náklady na pořízení datového zdroje a jeho aktualizaci Objem nákladů v Kč nebo jejich procentuální nárůst oproti minulému období
Náklady na uložení, sdílení, distribuci zálohování a archivaci dat Náklady na uložení či archivaci v datovém úložišti (databázi, páskové jednotce, ...) a jejich zpřístupnění uživatelům Objem nákladů v Kč nebo jejich procentuální nárůst oproti minulému období
Náklady na ochranu dat Náklady na zajištění bezpečného přístupu a zabránění neautorizovanému přístupu k datům. Objem nákladů v Kč nebo jejich procentuální nárůst oproti minulému období.
Zdroj: sestaveno na základě prostudování (Batini & Scannapieco, 2006), (Král & Žemlička, 2006), (Redman, 2001), (Pipino, et al., 2002), (Lee, et al., 2006), (McGilvray, 2008), (Voříšek & kol., 2008) a vlastních zkušeností z oblasti pojišťovnictví, bankovnictví a online byznysu.

Při hlubším zkoumání popisu uvedených vlastností lze odhalit určité jejich vztahy. Ke stanovení míry naplnění části vlastností je třeba stanovit míry jiných vlastností (např. včasnost lze stanovit pomocí životnosti a volatility). Kromě těchto triviálních vazeb lze vypozorovat i složitější kauzality. Např. pokud atribut obsahuje nesprávně chybějící hodnotu (tzn., hovoříme primárně o dopadu do míry úplnosti s ohledem na kontext), lze se domnívat, že dojde též k současnému dopadu do míry důvěryhodnosti vlivem poklesu uživatelské akceptovatelnosti tohoto atributu jako zdroje pro získání znalostí. K dopadu do úrovně obou vlastností však dle mých zkušeností nemusí nutně dojít současně, tzn. pokles míry úplnosti, zřejmě až dodatečně ovlivňuje důvěryhodnost tohoto atributu z pohledu jeho uživatelů (uživatel prostě v první chvíli neví, že používá špatná data).

Vztah vlastností dat, informací, znalostí a vizí

Zatímco (English, 1999) hovoří striktně o kvalitě informací, jíní autoři jako např. (Redman, 2001), zmiňují kvalitu dat. Dle mého názoru je vhodné uvažovat oba pojmy současně. Mnoho vlastností uváděných jako vlastnost dat (např. srozumitelnost) jsou spíše vlastnosti informace, tedy dat vztažených v kontextu a prezentovaných např. formou reportu. Nicméně např. správnost informace závisí na správnosti elementárních datových prvků, z nichž je složena.

Dle mého názoru lze podobné kauzality vysledovat napříč celou DIKW hierarchií. Pro účel demonstrace těchto kauzalit jsem původní koncept pozměnil tak, jak dle mého názoru lépe odpovídá úrovním řízení podniku. První tři úrovně jsem ponechal, jen poslední úroveň nazývanou Moudrost jsem přejmenoval na Vize, cosi co leží nad strategickým řízením realizovaným na základě znalostí. Upravené schéma s vyznačením kauzalit znázorňuje Obrázek 1. Popisované kauzality vycházejí z mých vlastních zkušeností a tvoří součást metodiky CADAQUES.

Obrázek 1: Kauzality napříč modifikovanou DIKW Hierarchy

Jak již bylo naznačeno, důvěryhodnost dat (d) je zpětně ovlivňována sémantickou (a) a syntaktickou (b) správností a unikátností dat (c). Tyto vlastnosti dat společně s konzistentností (i) ovlivňují správnost informace. Konzistentnost se současně promítá do konzistentnosti informací (t) a zprostředkovaně do konzistentnosti výsledných znalostí. Stejně tak úplnost dat (j) ovlivňuje úplnost informace (u) a ta potom úplnost znalostí (4). Vlastnosti z časové dimenze (e), (f), (g) a (h) ovlivňují aktuálnost informací (s). Ta potom společně se správností informací (r) ovlivňuje správnost výsledných znalostí (2). V souvislosti se znalostmi a informacemi však již správnost dle mého názoru nelze chápat ve smyslu syntaktické / sémantické správnosti, ale spíše ve smyslu přesnosti.

Vlastnosti dat z dimenze užití; dostupnost (l), interoperabilita (m) a bezpečnost přístupu (n) mají ekvivalent na úrovni informací. Pouze srozumitelnost (w) uvažuji až na úrovni informace, tedy kontextu. Vlastnosti ekonomické dimenze (o), (p), (q) reflektující náklady na pořízení, správu a archivaci dat na úrovni informací splývají v náklady na vlastnictví informace (1). Ty potom společně s náklady na přípravu dat, obsahujícími i kroky vedoucí ke zvýšení datové kvality (0) ovlivňují náklady na vytvoření znalostí (8). Na úrovni vizí dle mého názoru většina vlastností / charakteristik znalostí ovlivňuje správnost vizí (9). Vize, které jsou vytvořené na základě špatných (2), zastaralých (3), nekonzistentních (4), neúplných (5), nesrozumitelných (6) a špatně zdokumentovaných (7) znalostí mohou být pouze chybné (9). Vize vytvořené na základě zastaralých znalostí (3) mohou být též zastaralé. Nesrozumitelné vize ($) nemusí dle mého názoru nutně souviset se srozumitelností zdrojových znalostí (ta vede spíše k nesprávným vizím). Nekonzistentní vize (#) dle mého názoru mohou plynout z nekonzistentních znalostí (4) jednotlivých vedoucích pracovníků. Náklady vizí nelze dle mého názoru chápat jako ekvivalent ekonomické dimenze v případě dat, ale spíše jako náklady na chybné vize. Z tohoto důvodu na Obrázku 1 chybí spojnice mezi (8) a (%).

Použitá literatura

Komentáře ke článku

Stránka byla naposledy aktualizována dne 4.5.2015
Powered by HOLOPAGE
©2011 - 2021 D. Pejčoch