Data Quality CZ - portál věnující se tématu kvalitních dat

Audit datové kvality podle IT Assurance Guide: Using COBIT - 1. díl

[1.3.2012] D. Pejčoch

Úvod

Hlavním cílem této série článků je kriticky zhodnotit použitelnost návodu IT Assurance Guide: Using COBIT pro audit datové kvality (Data Quality Assessment). Zhodnocení aktuální úrovně řízení datové kvality spolu s doporučením vedoucím k jejímu zlepšení představuje zpravidla první fázi projektů v rámci řízení datové kvality (např. implementace Customer Data Integration řešení), ale i rozsáhlejších projektů v oblasti CRM , apod. Vzhledem ke skutečnosti, že data představují jedno z klíčových IT aktiv řízených v rámci IT Governance, pro jehož zavedení je COBIT považován za jeden z klíčových standardů, považuji za vhodné pokusit se aplikovat jím doporučené přístupy pro audit IS rovněž na audit dat.

Obsah práce je členěn do několika částí. Nejprve seznámím s oblastí řízení dat a negativním vlivem nekvalitních dat. V rámci příslušné kapitoly budu definovat pojem datová kvalita, uvedu možnosti využití dat ve firmě, stručně seznámím s možnými příčinami a důsledky nekvalitních dat a pomocí tzv. Hierarchie řízení dat vymezím vztah datové kvality a IT Governance. V další kapitole seznámím s dosud publikovanými přístupy k auditu dat. Následně uvedu stručný popis standardu COBIT a návodu IT Assurance Guide. V další části se pokusím o namapování obvyklých kroků auditu dat na jednotlivé fáze auditu IS podle IT Assurance Guide a kriticky zhodnotím jeho použitelnost pro tyto účely. Na závěr uvedu praktický příklad auditu datové kvality podle IT Assurance Guide v univerzální pojišťovně.

Řízení dat a jeho vliv na metriky výkonnosti firmy

Pojem datová kvalita

Datová kvalita je často definovaná jako míra určitých požadovaných vlastností. Tyto vlastnosti jsou zpravidla vztahovány k užití dat. Např. J. M. Juran definuje pojem datová kvalita takto: „Data mají vysokou kvalitu, pokud tato odpovídá jejich zamýšlenému užití v provozu, rozhodování a plánování“. Řízení dat jako jedné z dimenzí řízení informatiky lze potom ztotožnit s řízením těchto požadovaných vlastností. Současně lze na tyto vlastnosti pohlížet jako na metriky výkonnosti řízení této dimenze.

Téma vlastností dat je i s dílčími pokusy o vytvoření metrik jejich naplnění poměrně obsáhle zpracováno např. v [1], [4], [9], [8] a [7]. V některých aspektech se tyto zdroje doplňují, některým prakticky totožným vlastnostem dávají pouze různé názvy. U jednotlivých autorů dochází i ke snaze o členění vlastností do skupin podle různých hledisek. Za účelem definice univerzálního přístupu jsem vytvořil vlastní klasifikaci vlastností dat, uvedenou v tabulce č. 4. Vlastnosti z první kategorie jsem převzal téměř beze změny z [1], pouze jsem jsem původní anglické označení této skupiny „Intrinsic“ pozměnil na „Endogenní“. Výčet ostatních vlastností vznikl na základě syntézy zbývajících zdrojů. Skupinu vlastností vztahujících se k určitému časovému intervalu jsem nazval časovou dimenzí. Skupinu vlastností vztahujících se k jiným datovým zdrojům (ať již reálným anebo potenciálním) jsem pojmenoval dimenzí kontextuální. Poslední skupinu vlastností jsem označil za dimenzi užití. Ve výsledku jsem získal přehled celkem 14 vlastností, které považuji vzhledem k jejich vysoké citovatelnosti napříč zdroji za klíčové. Přehled těchto vlastnosti společně s popisem způsobu jejich měření znázorňuje tabulka č. 1.

Tabulka 1: Vlastnosti dat a způsob jejich měření
Vlastnost dat Popis vlastnosti Způsob měření Vazba na informační model COBIT 5
Endogenní dimenze Důvěryhodnost Míra všeobecné akceptovatelnosti dat jejich uživateli Např. dotazníkové šetření, interview s uživateli. Minimum z metrik důvěryhodnost zdroje, důvěryhodnost v porovnání s interními standardy, důvěryhodnost na základě stáří dat. V COBIT 5 uvažováno též jako vlastnost „důvěryhodnost“ v rámci kategorie „Intrinsic quality“
Unikátnost Podíl nechtěných duplicitních záznamů v databázi nebo mezi datovými zdroji Shluková analýza podle porovnávacích kódů nebo metody pro porovnávání a slučování COBIT5 tuto vlastnost v rámci Informačního modelu neuvažuje
Sémantická správnost Podíl chybně přiřazených hodnot atributu Porovnávací funkce, popisné statistiky (určení potenciálně chybných odlehlých hodnot) v rámci profilace dat 1 – (počet chybných záznamů / počet záznamů celkem) V COBIT 5 uvažována jako vlastnost „správnost“ v rámci kategorie „Intrinsic quality“
Syntaktická správnost Podíl nesmyslných hodnot pro daný typ atributu Porovnávací funkce v rámci profilace dat 1 – (počet chybných záznamů / počet záznamů celkem) V COBIT 5 uvažována jako vlastnost „správnost“ v rámci kategorie „Intrinsic quality“
Časové dimenze Aktuálnost Podíl zjevně neaktuálních hodnot Stáří dat při získání poslední aktuální hodnoty + (čas posledního získání aktuální hodnoty - čas posledního vložení do IS) Vzhledem ke vztahu k ostatním vlastnostem z této dimenze lze říci, že je tato vlastnost v rámci COBIT 5 uvažována též jako vlastnost „včasnost“, ale v rámci kategorie „kontextuální a reprezentační kvalita“
Včasnost Váha odpovídající frekvenci čerpání dat do datového zdroje max{0,1 - aktuálnost / volatilita}s s = míra senzitivity V COBIT 5 uvažována též jako vlastnost „včasnost“, ale v rámci kategorie „kontextuální a reprezentační kvalita“
Volatilita Váha odpovídající frekvenci změn v reálném světě Doba po kterou data zůstávají platná, tj. např. průměrná doba platnosti daného atributu (např. pro daný behaviorální segment). Vzhledem ke vztahu k ostatním vlastnostem z této dimenze lze říci, že je tato vlastnost v rámci COBIT 5 uvažována též jako vlastnost „včasnost“, ale v rámci kategorie „kontextuální a reprezentační kvalita“
Časová synchronizace Míra synchronizace mezi zdroji s různým časovým razítkem Odpovídá frekvenci loadu - v podstatě se jedná o rozdíl vložení do IS a času posledního získání aktuální hodnoty - viz aktuálnost Vzhledem ke vztahu k ostatním vlastnostem z této dimenze lze říci, že je tato vlastnost v rámci COBIT 5 uvažována též jako vlastnost „včasnost“, ale v rámci kategorie „kontextuální a reprezentační kvalita“
Kontextuální dimenze Konzistentnost Míra shody hodnot napříč datovými zdroji Např. podíl hodnot atributu, které ač významově správné nekorespondují s hodnotami číselníku nebo podíl hodnot pro danou entitu, které si neodpovídají napříč datovými zdroji. V rámci COBIT 5 odpovídá vlastnosti „konzistentní reprezentace“ uvažované v rámci skupiny „kontextuální a reprezentační kvalita“.
Úplnost Míra chybně nevyplněných hodnot Podíl chybně nevyplněných hodnot daného atributu k celkovému počtu záznamů dané entity V COBIT 5 uvažována též jako vlastnost „úplnost“ v rámci kategorie „kontextuální a reprezentační kvalita“
Pokrytí Míra pokrytí všech potenciálních hodnot atributu pro danou entitu Podíl případů, kdy atribut neobsahuje všechny potenciální hodnoty V COBIT 5 je částečně řešena v rámci vlastnosti „objektivita“ (kategorie „intrinsic quality“), v rámci níž je kromě „neznečištěné“ a nezaujaté informace též požadována informace úplná.
Dimenze užití Dostupnost Míra dostupnosti dat pro uživatele Podle [5] max [(1 – doba odezvy na požadavek / doba po kterou mohou být data použita), 0], zpravidla umocněno pomocí koeficientu senzitivity. V rámci COBIT 5 odpovídá vlastnosti „dostupnost“ z kategorie „kvalita přístupnosti“.
Srozumitelnost Míra srozumitelnosti dat pro jejich uživatele Např. dotazníkové šetření, interview s uživateli. V rámci COBIT 5 odpovídá též vlastnosti „srozumitelnost“ , ale je zařazena do kategorie „kontextuální a reprezentační kvalita“
Interoperabilita Míra existence dokumentace a metadat pro korektní interpretaci dat Podíl atributů obsažených v datovém slovníku k počtu netechnických atributů obsažených v systémech. V rámci COBIT 5 odpovídá též vlastnosti „interoperabilita“ , ale je zařazena do kategorie „kontextuální a reprezentační kvalita“
Bezpečnost přístupu Míra zabezpečení přístupu k datům Podíl neoprávněných přístupů k hodnotám daného atributu k celkovému počtu přístupů za určité období. V rámci COBIT 5 odpovídá vlastnosti „důvěrnost informací“ z kategorie „kvalita přístupnosti“.
Ekonomická dimenze Náklady na pořízení a aktualizaci dat. Náklady na pořízení datového zdroje a jeho aktualizaci. Objem nákladů v Kč nebo jejich procentuální nárůst oproti minulému období
Náklady na uložení, sdílení, distribuci zálohování a archivaci dat Náklady na uložení či archivaci v datovém úložišti (databázi, páskové jednotce, ...) a jejich zpřístupnění uživatelům Objem nákladů v Kč nebo jejich procentuální nárůst oproti minulému období
Náklady na ochranu dat Náklady na zajištění bezpečného přístupu a zabránění neautorizovanému přístupu k datům. Objem nákladů v Kč nebo jejich procentuální nárůst oproti minulému období
Zdroj: sestaveno na základě [1], [4], [9], [8], [5] a [7]

Již na první pohled je zřejmé, že mezi některými vlastnostmi dat existují určité vztahy. Ke stanovení míry naplnění části vlastností je třeba stanovit míry jiných vlastností (např. včasnost lze stanovit pomocí životnosti a volatility). Kromě těchto triviálních vazeb lze vypozorovat i složitější kauzality. Např. pokud atribut obsahuje nesprávně chybějící hodnotu (tzn. hovoříme primárně o dopadu do míry úplnosti s ohledem na kontext), lze se domnívat, že dojde též k současnému dopadu do míry důvěryhodnosti vlivem poklesu uživatelské akceptovatelnosti tohoto atributu jako zdroje pro získání znalostí. K dopadu do úrovně obou vlastností však nemusí nutně dojít současně, tzn. pokles míry úplnosti zřejmě až dodatečně ovlivňuje důvěryhodnost tohoto atributu z pohledu jeho uživatelů.

Lze si též všimnout, že některé vlastnosti jsou spíše objektivního charakteru, tj. jsou snadno měřitelné a jak uvádí [8], nejsou závislé na úloze, v rámci níž jsou data používána (např. správnost nebo včasnost), zatímco jiné mohou být značně ovlivněny subjektivním názorem uživatele dat (subjektivní metriky, např. důvěryhodnost).

Vzhledem k tomu, že v rámci této studie se zabývám použitelností IT Assurance Guide: Using COBIT pro audit datové kvality, je rovněž vhodné uvést, jaké vlastnosti dat jsou uvažovány standardem COBIT. Podle [15] COBIT ve verzi 4.1 uvažuje tzv. Informační kritéria, do nichž řadí efektivnost, účinnost, důvěryhodnost, dostupnost a důvěrnost informace. Jelikož informaci lze chápat jako data uvedená do kontextu (viz např. [16]), lze dle mého názoru kritéria kladená na informace vztáhnout buď k elementárním datovým atributům nebo až k jejich kontextu. Část požadovaných vlastností informací tedy lze též promítnout na požadované vlastnosti dat ve smyslu elementárních atributů. Z uvedených informačních kritérií to zřejmě budou důvěryhodnost a dostupnost. Důvěrnost informace lze chápat jako požadavek na bezpečnost přístupu k jednotlivým atributům tvořícím v kontextu informaci. Aktuálně připravovaný COBIT 5 podle [15] uvažuje v rámci Informačního modelu tyto dimenze: správnost, výstižnost reprezentace, úplnost, konzistentnost, aktuálnost, bezpečnost, přiměřené množství, relevantnost, srozumitelnost, interoperabilitu, objektivnost, důvěryhodnost, dostupnost, snadnost správy a reputaci. Většinu těchto dimenzí je možné snadno převést na požadované vlastnosti dat uvedené v Tabulce č. 1. Reputaci lze dle mého názoru chápat jako důvěryhodnost dat. Dimenze výstižnost reprezentace, přiměřené množství, relevantnost, objektivnost a snadnost správy představují specifické vlastnosti požadované po informaci, tedy na úrovni kontextu jednotlivých elementárních atributů. Dimenze informací uvažované v rámci COBIT jsou tedy dle mého názoru v souladu s vlastnostmi dat uvedenými v Tabulce č. 1. Namapování jednotlivých vlastností na komponenty informačního modelu COBITu je uvedeno v posledním sloupci tabulky.

Otázka možnosti potenciálně rozšířit stávající výčet dimenzí / vlastností dat nevyvstane pouze při jeho konfrontaci s informačním modelem COBITu. Pokud bychom neuvažovali uvedenou klasifikaci vlastností dat (resp. informací) pouze pro účely měření jejich úrovně co by metrik výkonnosti řízení dat, připadala by v úvahu rázem celá řada dalších dimenzí. Jak bude uvedeno dále, při horizontálním způsobu vymezení oblasti univerza auditu datové kvality bude z pohledu dimenze zdroje informací vhodné vztáhnout elementární datové atributy k jednotlivým organizačním jednotkám, procesům zpracovávajícím / pořizujícím konkrétní data, či jednotlivým aplikacím. Tato klasifikace bude užitečná zejména v okamžiku, kdy budeme pomocí root-cause metody hledat příčiny a důsledky naměřené úrovně výše uvedených vlastností dat. Jako účelné se mi jeví též členění na externí a interní data / informace.

Data, resp. informace lze též členit podle jazyka, v němž jsou zaznamenány (anebo publikovány), podle druhu komunikačního kanálu, prostřednictvím něhož jsou zpřístupňovány uživatelům, anebo úrovně přístupových oprávnění, nutných pro jejich zobrazení / úpravu. V rámci poslední zmíněné dimenze lze např. uvažovat členění na veřejné, neveřejné a tajné informace, přičemž tajné informace lze ještě dále dělit např. na přísně tajné, tajné, důvěrné a vyhrazené.

Např [7] dále uvádí členění dat na kmenová, transakční, historická, referenční, metadata a dočasná. Zatím co kmenová (master) data popisují osoby, místa a věci, transakční data popisují k nim se vztahující interní / externí události zvané transakce (např. přijaté platby, vygenerované předpisy pojistného, …). Metadata jsou ve své podstatě data o datech. Lze je dále členit na technická metadata (názvy atributů, datové typy, délky, formáty, …) a metadata z pohledu byznysu (nadpisy reportů, byznys popis datových polí v datovém slovníku, …). Referenční data představují číselníky, katalogy či externí registry. Jejich charakteristickou vlastností je relativní časová stálost. Historická data jsou data uložená v časových snímcích (např. v datovém skladu). A konečně za dočasná data lze považovat data uložená v paměti nebo též v dočasných knihovnách a temporary tabulkách. Z uvedeného výčtu je zřejmé, že se ve skutečnosti nejedná o jednu dimenzi členění dat, ale tři: (1) kmenová vs. transakční vs. referenční data vs. metadata, (2) dočasná vs. permanentní data, (3) historická data vs. aktuální data. Při uvažování hlediska časového horizontu platnosti dat lze historická a aktuální data doplnit ještě o data / informace vztažená k budoucnosti (např. predikovaná výše škody nebo plánovaný obrat).

Lze též uvažovat členění s ohledem na předmětnou oblast, kterou data popisují. Z tohoto pohledu lze rozlišovat např. demografická data, geografická, finanční či behaviorální. Alternativně lze též postupovat podle domén (klient, adresa, kontakt, předmět, smlouva, ...) uvedených dále v rámci praktického příkladu při sestavování matice užití. Pokud bychom uvažovali členění podle cílové skupiny, která data / informace využívá, dostali bychom se ke klasifikaci odpovídající rolím vztaženým k jednotlivým sloupcům matice užití. V neposlední řadě je možné jednotlivé elementrární atributy nebo odvozené informace vztáhnout k případným regulacím / právním normám, které pravidla jejich pořizování / zpracování / uchování a publikace upravují. Z tohoto pohledu považuji za účelné jednak u jednotlivých atributů označit, zda podléhají či nepodléhají regulaci a jednak v případě kladného příznaku uvést odkaz na příslušnou relevantní normu.

Užití dat ve firmě

Jak již bylo v úvodu na příkladu Pyramidy znalostí naznačeno, data jsou ve firmách používána k různým účelům, provozní činností počínaje, přes reporting, akviziční a retenční aktivity, využití v expertních systémech, až po systémy pro podporu rozhodování (Manažerské informační systémy, Systémy pro strategické rozhodování). Neznamená to však, že všechna data, která podnik shromažďuje a spravuje za cenu nákladů na uložení / archivaci využívá současně pro všechny uvedené účely. Pro zefektivní řízení dat je proto vhodné mít k dispozici přehled užití jednotlivých atributů.

Tento přehled nám nejlépe poskytne modifikace tzv. Bus-matrix obsahující na vertikále jednotlivé datové atributy popsané svými byznys názvy s uvedeným zdrojovým systémem.V horizontální dimenzi matice jsou potom uvedeny jednotlivé typy užití. Vlastní hodnoty matice potom mohou představovat buď prostý příznak užití daného atributu, anebo mohou mít i hlubší význam, např. celkové náklady / přínosy daného užití. Na úrovni jednotlivých řádků lze potom kvantifikovat celkové náklady na užití daného atributu, resp. jeho celkové přínosy. Na úrovni sloupců potom náklady / přínosy daného užití napříč všemi atributy. Tento přístup samozřejmě předpokládá, že je možné náklady / přínosy rozpadnout v granularitě matice. S největšími problémy v tomto směru se setkáme při snaze zakomponovat do výpočtu konstantní náklady na uložení dat, které jsou nezávislé na míře jejich užití. Jak ukážu dále v praktickém příkladu, sumarizace nákladů / přínosů na úrovni jednotlivých řádků může poskytnout podklady pro jakousi formu prioritizace řízení jednotlivých atributů. Obdobně v tomto směru postupuje např. [6].

Je třeba vzít též v patrnost, že při určení užití jednotlivých atributů je účelné rozlišovat jejich současné a potenciální užití. Pokud bychom opomenuli monetární potenciál dat, mohli bychom snadno zbrkle přiřadit nízkou prioritu skupině atributů, jejichž vlastnosti bychom v budoucnu napravovali jen velmi obtížně za cenu nákladů vyšších než v případě jejich kontinuálního řízení.

Příčiny a důsledky vzniku nekvalitních dat

V rámci auditu datové kvality se potkáme též s dohledáváním příčin a důsledků nekvalitních dat. Je proto vhodné uvést pár základních fakt z této oblasti. Obecně lze identifikovat tři různé kategorie příčin vzniku nekvalitních dat: (1) lidské selhání (překlepy, nepozornost, zápisy do nesprávných polí, přeslechnutí se, nečitelnost zpracovávaného ručně psaného textu, neznalost, lidová tvořivost, …), (2) systematické chyby (absence vstupních kontrol, nekonzistentnost datových typů, číselníků a konvencí mezi jednotlivými aplikacemi, …) a (3) změny informačního systému (datová migrace, slučování systémů, …). [5] uvádí 10 hlavních příčin problémů s datovou kvalitou:

Nekvalitní data v důsledku svého užití přinášejí různé typy nákladů, které lze dále klasifikovat do různých kategorií. V prvé řadě jsou to přímé ekonomické náklady, představující dodatečné náklady na čištění dat, v případě duplicitních záznamů i náklady na správu redundantních zdrojů. Do ekonomických nákladů se přímo promítá také použití nekvalitních dat v procesech firmy (např. snížením efektivnosti přímé kampaně vlivem nedostatečné kvality kontaktních údajů nebo chybného zacílení nabídky vlivem nekvalitních dat o transakcích klienta). Z pohledu IT/ICT nekvalitní data zvyšují přímo náklady implementace nových aplikací. Na některé ekonomické náklady lze pohlížet rovněž jako na oportunitní náklady. Do skupiny přímých ekonomických nákladů patří též náklady na opětovné vykonání procesu, v rámci něhož došlo k chybě (např. opětovné zaslání opravené faktury, nabídky, …).

Další náklady mohou firmě vzniknout na základě legislativních důsledků nekvalitních dat. Je tomu tak zejména z toho důvodu, že kvalita některých typů dat je přímo vyžadována právními normami (např. účetní data). Snížená kvalita takových dat může vést k postihům ze strany příslušného regulačního orgánu. Legislativní důsledky mohou mít též příčinu v chybném zpřístupnění citlivých údajů nesprávné osobě. Příkladem normy vyžadující kvalitu reportovaných dat je Basel II. Podle [22] musí banky pro zajištění compliance s touto normou realizovat kvantitativní assessment datové kvality, definovat efektivní strategie pro čištění dat, provést klíčové změny v byznys procesech pro zajištění datové integrity a vytvořit rámec pro kontinuální měření a řízení datové integrity.

Další nepřímé náklady mohou vzniknout vlivem použití nekvalitních dat pro analytické účely. Jak uvádí odborníci z praxe, příprava dat zabírá zpravidla až cca 80% času procesu získávání znalostí z databází. Jednou z příčin této časové náročnosti je i nízká kvalita vstupních dat. V této souvislosti platí okřídlené rčení „Garbage In – Garbage Out“ pregnantně vyjadřující fakt, že zatímco na základě kvalitních dat mohu (ale nemusím) vytvořit dobrý model, na základě špatných dat mohu vytvořit pouze špatný model. Nízká úroveň dat může mít za následek i situaci, že některé modely nebude možné vytvořit vůbec.

Dopady do taktického a strategického řízení jsou dalším typickým důsledkem nekvalitních dat. V duchu pyramidy znalostí chybná data poskytují pouze chybné informace, na základě nichž mohu získat pouze chybné znalosti (viz analytické důsledky). Rozhodování na základě nepřesných znalostí je velmi ošemetné (zvláště, pokud znalosti pokládám za korektní) a může vést k chybným vizím nebo až ke ztrátě konkurenceschopnosti firmy.

V neposlední řadě vedou nekvalitní data ke snížení výkonnosti firmy, potažmo IT, jehož jsou data jednou z dimenzí řízení. Jakými konkrétními mechanismy je pokles výkonnosti způsoben? Nutnost permanentních kontrol snižuje efektivnost vykonávání jednotlivých procesů. Náklady na nekvalitní data vstupují do metrik výkonnosti firmy na všech třech úrovních řízení (operativní, taktické, strategické). Pokud uvažujeme řízení dat jako jednu z dimenzí řízení informatiky, zhoršení úrovně vlastností dat jako metrik výkonnosti řízení dat zprostředkovaně ovlivňuje i metriky výkonnosti řízení ostatních dimenzí informatiky (např. ekonomickou dimenzi formou dodatečných nákladů na datovou kvalitu).

Na firmu s nekvalitními daty dopadá též reputační riziko. Taková firma oslovuje své klienty nabídkami, které nijak neadresují jejich reálné potřeby, ač zaštítěna slogany o důležitosti klienta vystavuje soustavně chybné faktury, není schopna základních servisních činností jako je v případě pojišťovny vydání správného daňového potvrzení u životního pojištění. Takové selhání musí nutně vést k negativnímu word-of-mouth efektu. Firma postupně ztrácí pověst seriozního partnera a ztrácí bonitní klienty, tedy to nejlepší, co má.

Nekvalitní data však mohou mít i katastrofické následky. Jak jinak lze mluvit o situaci, kdy 7. května 1999 bombardovala spojenecká vojska místo nepřátelských cílů v bývalé Jugoslávii čínskou ambasádu. Oficiální příčinou byly v tomto případě neaktuální mapy. Jak daleko v tu chvíli stál svět od dalšího válečného konfliktu s nedozírnými následky? Pro další příklady není třeba chodit daleko. M. Wheatley popisuje prodlevy v dodávkách zásob a doručování položek odlišných od požadovaných vlivem nízké datové kvality během války v Iráku. Co znamená takové selhání logistiky pro morálku mužstva? V r. 1998 došlo vlivem navigační chyby (odlišné měrné jednotky používané v rámci různých středisek řízení letu) ke zřícení sondy Mars Climate Orbiter. Paradoxní situace v době, kdy si málokterá země může dovolit vlastní vesmírný program. Lze si vůbec představit, že by se jednalo o let s lidskou posádkou? Ale držme se při zemi. Lépe snad nelze uvést další příklad tristního důsledku chybných dat. Je jím kauza Enron, „největší účetní skandál v historii“.

Uvedená struktura nákladů na nekvalitní data může být předmětem určitých polemik. Proto zde zmíním ještě další alternativní přístupy k jejich klasifikaci. Např. David Loshin v [6] člení náklady do následujících kategorií: Finanční dopad (přímé operační náklady, režijní náklady, dodatečné poplatky, změny v cash-flow, dopad do odpisů a úniku peněž z firmy např. v důsledku fraudů), dopad do spokojenosti spotřebitele a jeho očekávaného tržního chování, dopad do rizika a kompliance a konečně dopad do produktivity firmy. Jiný guru v oblasti kvality dat a informací, Larry English, rozlišuje v [3] tyto kategorie: (1) Náklady plynoucí přímo z nekvalitních informací, (2) náklady na assessment nebo kontrolu, (3) náklady spojené se zlepšováním procesů a předcházením defektům. Oba uvedení autoři se shodují v nutnosti namapovat defekty v datech na jejich příčiny. Postup mapování označují za Root-Cause analýzu.

Komentáře ke článku

Stránka byla naposledy aktualizována dne 4.5.2015
Powered by HOLOPAGE
©2011 - 2015 D. Pejčoch