Cílem tohoto článku je poskytnutí přehledu možných důsledků vyplývajících z nekvalitních dat a informací pro potřeby kurzu 4IZ562 - Řízení kvality dat a informací. Nekvalitní data v důsledku svého užití přinášejí různé typy nákladů, které lze dále klasifikovat do různých kategorií. Tento článek představuje klasifikaci dopadů podle metodiky CADAQUES. Pro srovnání poskytuje též alternativní klasifikace renomovaných autorů v oblasti řízení kvality dat a informací.
V prvé řadě jsou to přímé ekonomické náklady, představující dodatečné náklady na čištění dat, v případě duplicitních záznamů i náklady na správu redundantních zdrojů. Do ekonomických nákladů se přímo promítá také použití nekvalitních dat v procesech firmy (např. snížením efektivnosti přímé kampaně vlivem nedostatečné kvality kontaktních údajů nebo chybného zacílení nabídky vlivem nekvalitních dat o transakcích klienta). Eckerson (2002) uvádí, že The Data Warehousing Institut (TDWI) odhaduje roční náklady amerických firem plynoucí ze špatné datové kvality na 611 mld. USD (zahrnuje náklady za poštovné, tisk a provozní náklady na personál), přičemž připouští, že skutečné náklady jsou mnohem vyšší (v důsledku frustrování zákazníků a jejich následné ztrátě).
Z pohledu IT/ICT nekvalitní data zvyšují přímo náklady implementace nových aplikací. Dyché a Levy (2006, str. 21) cituje Gartner (2001), tvrdící, že „CRM řešení je pouze tak dobré, jak kvalitní jsou data, která jej plní“. Např. English (1998) považuje kvalitu dat jako jeden z hlavních důvodů selhání projektů implementace datového skladu (DWH). Novotný, Pour a Slánský (2005) považuje kvalitu dat za jeden z klíčových faktorů úspěšnosti projektu implementace Business Intelligence obecně. Voříšek (2003) uvádí atomizovanou datovou základnu (zejména z pohledu konzistentnosti jednotlivých zdrojů) za kritický faktor úspěchu IS/IT. Basl (2002) uvádí vedle nákupu potřebného HW a SW, proškolení a celkové připravenosti uživatelů data jako třetí základní pilíř úspěchu zavedení a využívání systémů ERP . Podle Dyché a Levy (2006) investice do drahých analytických nástrojů vyjdou vniveč, pokud jsou data špatná. Nástroje jsou jen tak hodnotné, jak jsou správná jejich vstupní data. S odkazem na výzkum efektů, který prováděla v r. 2004 Baseline Consulting uvádí zpoždění nebo celkovou revizi (rework) IT projektu jako nejčastější důsledek chybných dat při používání BI nástrojů. V tom samém výzkumu respondenti uvádí, že je špatná data stála dle jejich odhadu více jak milion USD za rok.
Na některé ekonomické náklady lze pohlížet rovněž jako na oportunitní náklady. Do skupiny přímých ekonomických nákladů patří též náklady na opětovné vykonání proces u, v rámci něhož došlo k chybě (např. opětovné zaslání opravené faktury, nabídky, …).
Další náklady mohou firmě vzniknout na základě legislativních důsledků nekvalitních dat. Je tomu tak zejména z toho důvodu, že kvalita některých typů dat je přímo vyžadována právními normami (např. účetní data). Snížená kvalita takových dat může vést k postihům ze strany příslušného regulačního orgánu. Legislativní důsledky mohou mít též příčinu v chybném zpřístupnění citlivých údajů nesprávné osobě. Příkladem normy vyžadující kvalitu reportovaných dat je Basel II. Podle (Informatica, 2009) musí banky pro zajištění compliance s touto normou realizovat kvantitativní assessment datové kvality, definovat efektivní strategie pro čištění dat, provést klíčové změny v byznys procesech pro zajištění datové integrity a vytvořit rámec pro kontinuální měření a řízení datové integrity.
Další nepřímé náklady mohou vzniknout vlivem použití nekvalitních dat pro analytické účely. Jak uvádí odborníci z praxe, příprava dat zabírá zpravidla až cca 80% času procesu získávání znalostí z databází. Jednou z příčin této časové náročnosti je i nízká kvalita vstupních dat. V této souvislosti platí okřídlené rčení „Garbage In – Garbage Out“, viz např. (Dorr a Herbert, 2005) pregnantně vyjadřující fakt, že zatímco na základě kvalitních dat mohu (ale nemusím) vytvořit dobrý model, na základě špatných dat mohu vytvořit pouze špatný model. Nízká úroveň dat může mít za následek i situaci, že některé modely nebude možné vytvořit vůbec.
Dopady do taktického a strategického řízení jsou dalším typickým důsledkem nekvalitních dat. V duchu pyramidy znalostí chybná data poskytují pouze chybné informace, na základě nichž mohu získat pouze chybné znalosti (viz analytické důsledky). Rozhodování na základě nepřesných znalostí je velmi ošemetné (zvláště, pokud znalosti pokládám za korektní) a může vést k chybným vizím nebo až ke ztrátě konkurenceschopnosti firmy. Podle Dyché a Levy (2006) má neexistence jedné verze pravdy za následek nemožnost správného rozhodnutí, ale i neochotu rozhodovat se na základě nedůvěryhodných podkladů. To vede podle Dyché a Levy (2006) např. k chybnému předepsní medikamentu pacientovi, který užívá kontraindikační medikament nebo chybnému opakovanému oslovování klientů v rámci marketingových kampaní.
V neposlední řadě vedou nekvalitní data ke snížení výkonnosti firmy, potažmo IT, jehož jsou data jednou z dimenzí řízení. Jakými konkrétními mechanismy je pokles výkonnosti způsoben? Nutnost permanentních kontrol snižuje efektivnost vykonávání jednotlivých procesů. Náklady na nekvalitní data vstupují do metrik výkonnosti firmy na všech třech úrovních řízení (operativní, taktické, strategické). Pokud uvažujeme řízení dat jako jednu z dimenzí řízení informatiky, zhoršení úrovně vlastností dat jako metrik výkonnosti řízení dat zprostředkovaně ovlivňuje i metriky výkonnosti řízení ostatních dimenzí informatiky (např. ekonomickou dimenzi formou dodatečných nákladů na datovou kvalitu).
Na firmu s nekvalitními daty dopadá též reputační riziko. Taková firma oslovuje své klienty nabídkami, které nijak neadresují jejich reálné potřeby, ač zaštítěna slogany o důležitosti klienta vystavuje soustavně chybné faktury, není schopna základních servisních činností jako je v případě pojišťovny vydání správného daňového potvrzení u životního pojištění. Takové selhání musí nutně vést k negativnímu word-of-mouth efektu. Firma postupně ztrácí pověst seriozního partnera a ztrácí bonitní klienty, tedy to nejlepší, co má. Dorr a Herbert (2005) upozornňuje na neefektivnost a rozlícení klientů vlivem opakovaného oslovování způsobeného nekvalitními daty. Jako perličku lze uvést dva příběhy z weblogu D. Collinse, popisující katastrofický vliv maličkostí na reputaci firmy: 1/ Jistá finanční společnost poslala předschválenou nabídku domácím zvířatům. Použila při tom databázi pojištění domácích zvířat. Netušila, že někteří majitelé jako držitele pojistiky uvedli svého domácího mazlíčka. 2/ Barbra Streisand ukončila smluvní vztah s bankou, která jí přes opakované výzvy posílala výpisy se zkomoleným jménem Barbara. Barbra je přitom známa tím, že si zakládá na svém křestním jménu. Theuwissen a Croonen (2009) zmiňuje příklad duplicitního zákazníka v databázi při cross-sellingu a případ zaslání blahopřejného dopisu zákazníkovi k narozeninám ve špatný den.
Nekvalitní data však mohou mít i katastrofické následky. Jak jinak lze mluvit o situaci, kdy 7. května 1999 bombardovala spojenecká vojska místo nepřátelských cílů v bývalé Jugoslávii čínskou ambasádu. Oficiální příčinou byly v tomto případě neaktuální mapy. Jak daleko v tu chvíli stál svět od dalšího válečného konfliktu s nedozírnými následky? Pro další příklady není třeba chodit daleko. M. Wheatley (2004) popisuje prodlevy v dodávkách zásob a doručování položek odlišných od požadovaných vlivem nízké datové kvality během války v Iráku. Co znamená takové selhání logistiky pro morálku mužstva? Jak uvádí Dyché a Levy (2006), v r. 1998 došlo vlivem navigační chyby (odlišné měrné jednotky používané v rámci různých středisek řízení letu) ke zřícení sondy Mars Climate Orbiter. Jedna chyba tak zmařila misi za 125 milionů USD. Paradoxní situace v době, kdy si málokterá země může dovolit vlastní vesmírný program. Lze si vůbec představit, že by se jednalo o let s lidskou posádkou? Ale držme se při zemi. Lépe snad nelze uvést další příklad tristního důsledku chybných dat. Je jím kauza Enron, „největší účetní skandál v historii“.
Uvedená struktura nákladů na nekvalitní data může být předmětem určitých polemik. Proto zde zmíním ještě další alternativní přístupy k jejich klasifikaci. Např. David Loshin (2011) člení náklady do následujících kategorií: Finanční dopad (přímé operační náklady, režijní náklady, dodatečné poplatky, změny v cash-flow, dopad do odpisů a úniku peněž z firmy např. v důsledku fraudů), dopad do spokojenosti spotřebitele a jeho očekávaného tržního chování, dopad do rizika a kompliance a konečně dopad do produktivity firmy. Jiný guru v oblasti kvality dat a informací, Larry English (1999), rozlišuje tyto kategorie: 1/ Náklady plynoucí přímo z nekvalitních informací, 2/ náklady na assessment nebo kontrolu, 3/ náklady spojené se zlepšováním procesů a předcházením defektům. Oba uvedení autoři se shodují v nutnosti namapovat defekty v datech na jejich příčiny. Postup mapování označují za Root-Cause analýzu.
Dyché a Levy (2006) uvádí následujcí dopady nekvalitních dat:
Přestože z dostupné literatury je možné nabýt dojmu, že vzhledem k předloženým pragmatickým argumentům snad nemůže existovat jediná osoba, která by pochybovala o smysluplnosti řízení kvality dat, z mé dosavadní praxe mohu potvrdit, že opak je pravdou. Když jsem se před zhruba pěti lety účastnil projektu připravujícího deduplikovaná data pro implementaci nového řešení centralizovaného pohledu na klienta v menší pojišťovně v ČR, setkali jsme se s nebývalým odporem vedoucích pracovníků jednotlivých odborů, kteří argumentovali faktem, že současné řešení duplicitního vkládání klientů podle druhu pojištění nepřináší pojišťovně žádné problémy. Bylo to tím, že tato společnost vůbec netušila, jaké potenciální možnosti jim jednotný pohled na klienta může poskytovat a dosud na něj pohlížela pouze optikou jednotlivých útvarů vzniku pojištění. Slova jako křížový prodej nebo hodnota klienta jí byla zcela cizí.
Tato zkušenost však nebyla ojedinělá. Od bývalého dlouholetého zaměstnance jedné z konzultačních společností tzv. „velké čtyřky“ jsem dostal během společného projektu např. dotaz, proč dává smysl zabývat se kvalitou dat, když firma má v nepořádku procesy. Kvalita dat je přeci něco detailistického. Má odpověď byla, že právě nekvalita dat zpravidla upozorňuje na nekvalitu procesů. Než analyzovat všechny procesy a hledat jejich potenciální nedostatky je dle mého názoru lepší jít od zjištěných důsledků a vysledovat jejich prapůvodní příčiny.
V každém případě ze své dosavadní praxe doporučuji opřít jakoukoliv iniciativu v oblasti řízení datové kvality o přesvědčivý business case který by ukázal na konkrétním případu z dané vertikály jasné přínosy.