Data Quality CZ - portál věnující se tématu kvalitních dat

Analýza nástrojů společnosti Microsoft pro řízení datové kvality

[1.6.2014] J. Maurenc

Úvod

Hlavním cílem tohoto článku je popsat a analyzovat vyspělost nástrojů společnosti Microsoft pro řízení datové kvality. V rámci teoretické části budou popsány základní vlastnosti a požadavky na nástroje pro podporu řízení datové kvality a budou definována meřítka pro posouzení, jak jsou tyto vlastnosti naplněny. Definice a metodika hodnocení nástrojů pro řízení datové kvality může v případě analýzy dalších nástrojů pomoci posouzení jejich úrovně vyspělosti a vzájemného porovnání technologií různých dodavatelů. V analytické části poté bude popsáno jedno konkrétní technologické řešení pro řízení datové kvality od společnosti Microsoft a vyhodnoceno, jak naplňuje požadavky popsané a definované v teoretické části.

Na závěr úvodní části je nutné zdůraznit, že i když se tento článek převážně zabývá technologickou částí pro řízení datové kvality, nesmíme zapomínat, že celkové řešení musí být vždy tvořeno vyváženou kombinací tří základních komponent: technologickou, procesní a lidskou.

Teoretická část

Tato část popisuje základní vlastnosti a požadavky na nástroje pro podporu řízení datové kvality a definuje meřítka naplnění těchto vlastností.

Požadavky na nástroje pro řízení datové kvality

Následující odstavce, definující požadavky na nástroje pro řízení datové kvality, vycházejí především z kapitol 14 – 19 knihy Davida Loshina: The Practitioner’s Guide to Data Quality Improvement . Tato publikace definuje následující základní nástroje a technologie.

Nástroje a techniky pro profilaci dat (Data Profiling)

Tato oblast zahrnuje nástroje a techniky sloužící k získání a pochopení důležitých informací o datech, které nejsou popsány, nebo jejich popis není k dispozici (získání potřebných metadat). Dále zahrnuje nástroje pro nalezení anomálií, jako jsou nestandardní, chybějící nebo dokonce chybná data. Na základě výsledků analýzy pomocí těchto nástrojů získáváme informace o struktuře, kvalitě a věrohodnosti analyzovaných dat. Pro nástroje v této oblasti můžeme obecně požadovat následující techniky (ponecháno v původních anglických termínech):

Nástroje pro rozklad a standardizaci dat (Parsing and Standardization)

Jedná se o nástroje sloužící k transformaci většinou externích dat do očekávané a známé formy vhodné ke zpracování v rámci interních systémů. Můžeme se rovněž setkat s pojmem čištění dat (data cleansing), které zahrnuje i opravy známých chyb (synonyma, zkratky, překlepy). Tyto nástroje dále zahrnují techniky porovnávání dat se známými hodnotami, formáty a vzory. V této oblasti můžeme definovat následující požadavky:

Nástroje pro porovnávání a slučování záznamů (Identity Resolution and Matching)

Jedná se o sadu nástrojů a algoritmů sloužící pro určení, zda dva porovnávané záznamy odkazují na stejnou entitu. Pro srovnávání záznamů jsou využívány následující techniky a algoritmy:

Na základě rozhodnutí, zda dva záznamy odkazují na stejnou entitu, se může provést oprava záznamu nebo jejich sloučení do jednoho. Jedná se o klíčovou komponentu pro zajištění datové kvality v rámci BI (Business Intelligence) aplikací.

Nástroje pro inspekci, monitorování, auditování, reportování a sledování

Pro efektivní zajišťování datové kvality je důležitá automatizace procesů s tím spojených. K tomuto účelu je vhodné mít k dispozici nástroje, které umožní:

Nástroje pro obohacování dat (Data Enhancement)

V mnoha případech je vhodné přidávat další informace k již existujícím záznamům pro zvýšení jejich kvality v rámci jejich dalšího zpracování. Tento postup je nazýván obohacování dat. Příkladem může být rozšíření datových záznamů o další informace, jako jsou auditní, časové, geografické, demografické či jiné vyplývající z daného kontextu.

V tomto případě nejde pouze o potřebný nástroj, ale také o přístup k dalším informacím, kterými obohacujeme vlastní data. Jedná se především o různé externí registry adres, organizací, telefonních čísel, atd. Tyto informace bývají většinou zpoplatněny.

Nástroje pro Master Data Management

Master Data, česky asi nejlépe přeloženo jako kmenová data, jsou základní data o hlavních entitách používaných v rámci celé organizace a zpravidla vedená ve více aplikacích. Například osobní data o zaměstnancích, základní data o zákaznících, občanech, organizacích, atd. Správa těchto dat je nazývána Master Data Management (MDM) a nástroje, které ji podporují, by měly především umožňovat:

Popis metodiky hodnocení nástrojů

Pro hodnocení splnění jednotlivých požadavků definujme následující stupnici:

Touto stupnicí bude ohodnocen každý výše definovaný požadavek na nástroje pro řízení datové kvality.

Analytická část

Nástroje společnosti Microsoft pro řízení datové kvality jsou tvořeny platformou EIM (Enterprise Information Management), která je dodávána jako součást komplexní databázové platformy SQL Server 2012. Klíčové komponenty SQL Server 2012, které tvoří jádro EIM řešení, jsou:

Obrázek 1 – Architektura řešení Microsoft pro datovou podporu uživatelů

Zmíněné technologie podporují a spoluvytváří celkové řešení SQL Server pro datové sklady a BI (Business Intelligence), které zajišťuje přímou datovou podporu koncovým uživatelům. Následující část článku uvádí popis těchto nástrojů a jejich analýzu podle požadavků a kritérií definovaných v teoretické části.

Popis technologií pro řízení datové kvality od společnosti Microsoft

SQL Server Integration Services

Komponenta pro datovou integraci SQL Server Integration Services (SSIS) zajišťuje základní ETL operace. V rámci EIM slouží k vytváření a běhu workflow pro integraci dat z různých zdrojů. Workflow engine, jako jádro této komponenty, zajišťuje automatické řízení toku dat, tj. posloupnost datový zdroj – transformace – cílový systém/databáze. Automatizuje základní úlohy jako kopírování a stahování souborů, rozesílání email zpráv jako reakce na různé události, aktualizaci datových skladů, čištění, dolování a správu dat a serverových objektů. Přímo podporuje integraci dat z dalších standardních nástrojů jako Oracle, Teradata, DB2, SAP, CRM, Sharepoint, cloud-based aplikací a dalších.

Obrázek 2 – Vytvoření integračního balíčku v nástrojích SQL Server

Vývojáři a návrháři ETL procesů mohou využít grafické vývojové prostředí integrované do vývojových nástrojů Visual Studio pro vytváření integračních balíčků, které zajišťují řízení toků dat. Tyto grafické nástroje umožňují rychle vytvářet a nasazovat složitá ETL řešení.

V rámci komponenty SQL Server Integration Services jsou v rámci workflow k dispozici i následující nástroje pro analýzu a profilaci dat.

Pro jednotlivé sloupce :

Pro více sloupců a vztahy mezi nimi a tabulkami:

Pro porovnávání podobných hodnot (matching):

SQL Server Integration Services zahrnuje mnoho konektorů pro připojení různých datových zdrojů. Počínaje všemi běžnými typy souborů (přístupnými mnoha protokoly jako ftp, http, atd.), přes nejrozšířenější databázové systémy (SQL Server, Oracle, DB2, MySQL, atd.) až po enterprise aplikace a cloud-based databáze (SAP, Teradata, SQL Azure, Hadoop).

Pro další požadavky (uživatelské datové zdroje, transformace a výstupy) je možné Integration Services rozšiřovat o vlastní komponenty vytvořené pomocí Visual Studio Tools for Applications (VSTA) v běžných skriptovacích nástrojích a jazycích jako je C# nebo Visual Basic.

SQL Server Data Quality Services

Nová komponenta, která je dodávána jako součást SQL Server 2012 umožňuje čištění (cleansing), párování (matching), standardizaci a obohacování (enrichment) dat pro získání důvěryhodných a kvalitních dat a informací pro datové sklady, BI a další aplikace. Koncoví uživatelé dokonce mohou čistit a zpracovávat osobní data z lokálních (nespravovaných) souborů.

Služby SQL Server DQS poskytují přístup ke správě datové kvality založený na znalostech (knowledge-based). Je možné využít znalostí uživatelů, kteří sami pomocí grafických nástrojů mohou vytvořit znalostní bázi, která definuje známé hodnoty a ověřovací pravidla pro uvažovanou datovou doménu. Například mohou vytvořit znalostní bázi pro zákaznická data, která definuje hodnoty datových domén neboli polí běžně používaných v záznamech o zákaznících (jako je Customer ID, Jméno, Příjmení, Pohlaví, Email, Ulice, Město, Země). Poté je možné spustit ověření existujících dat vůči této znalostní bázi pro identifikaci známých hodnot pro tato pole (jako třeba Česká republika, Maďarsko nebo Polsko pro pole Země) a definovat pravidla pro ověření nových hodnot (jako třeba pravidlo, že Email musí obsahovat znak @ nebo, že Pohlaví začíná hodnotou M nebo Ž).

Obrázek 3 – Oprava hodnot pro definovanou doménu

Podobně jako v případě definování ověřovacích pravidel pro domény ve znalostní bázi je možné identifikovat synonyma a běžné chyby ve vstupních datech a definovat správné hodnoty, na které budou tato data opravena. Například je možné analýzou zjistit, že zákazníci žijící ve Velké Británii většinou zadávají pro pole Země hodnotu „United Kingdom“, ale někdy také jiné hodnoty se stejným významem jako „Great Britain“, „UK“, „GB“ nebo třeba kód země „826“. Tyto variantní záznamy mohou mít minimální vliv na kvalitu pro primární obchodní aplikaci, ve které vznikají, ale v případě jejich použití pro analytické nebo přehledové účely, které agregují hodnoty podle pole Země, mohou vést k chybným výstupům a posléze ke špatným obchodním rozhodnutím. Řešením je identifikace a automatické nahrazení těchto hodnot (synonym) známou správnou hodnotou definovanou ve znalostní bázi DQS – viz obrázek 3.

Obrázek 4 – Využití externího zdroje dat v rámci znalostní báze DQS

Zatímco znalostní báze DQS je obvykle založena na vlastních interních znalostech o specifických datech v rámci organizace, existují další případy, kdy je vhodné zahrnout externí znalosti pro běžné typy dat, jako jsou například poštovní adresy nebo ověření telefonních čísel. Společnost Microsoft poskytuje cloudovou infrastrukturu pod názvem Microsoft Windows Azure Marketplace, která obsahuje několik komerčních datových sad určených pro čištění a ověřování dat. V případě zakoupení předplatného je možné využít externí data jako referenční datovou sadu v rámci znalostní báze DQS doplnit vlastní ověřování a opravy dat o tento zdroj. Obrázek 4 ukazuje, jak je možné využít externích dat zakoupených prostřednictvím Windows Azure Marketplace pro ověření a opravu jména společnosti v poli Company odkazem na databázi společností registrovaných v USA.

Čištění dat je možné spouštět interaktivně v rámci klientské aplikace, kde specifikujeme datový zdroj jako třeba tabulku v SQL databázi nebo sešit v Excelu, ale rovněž je možné vložit krok čištění do ETL procesu využitím transformace v rámci datového toku SQL Server Integration Services, jak je vidět na obrázku 5.

Obrázek 5 – Vložení čištění dat DQS do datového toku SQL Server Integration Services

Podobně jako v případě čištění dat pomocí DQS lze vytvářet i politiky a pravidla pro vyhledávání dat a provádět jejich párování (matching) pro identifikaci a konsolidaci duplicitních záznamů o stejné obchodní entitě. Například je možné, že se zákaznice v internetovém obchodě registrovala pod jménem „Jenny Russell“ a zároveň k kamenném obchodě nakoupila pod jménem „Jennifer Russell“. Organizace má nyní více záznamů pro stejného zákazníka, které ovlivňují přesnost všech reportů a analýz agregovaných podle zákazníků.

Pomocí DQS je možné vytvořit politiku, která porovnává více polí napříč definovanými záznamy a přiřadí váhy pro pole na základě úplné shody nebo podobnosti. Politika může porovnávat například pole Jméno, Příjmení, Adresa, Email a Datum_Narození, a to na přesnou shodu nebo definovanou podobnost. Pokud více záznamů splňuje shodu definovanou politikou, DQS identifikuje tyto záznamy jako duplicitní záznamy a je možné tyto záznamy sloučit nebo opravit.

Obrázek 6 – Politika pro vyhledávání a párování duplicitních záznamů (matching)
SQL Server Master Data Services

Master Data Services (MDS) je řešení dodávané v rámci platformy SQL Server 2012 pro správu kmenových dat. Řešení je zaměřené na vytváření, správu a ukládání struktur kmenových dat, které slouží v rámci integračních operací s daty pro mapování objektů, jako zdroj referenčních dat a pro správu metadat, dimenzí a hierarchických struktur.

Pomocí komponenty Data Quality Services mohou organizace získávat znalosti o hodnotách jednotlivých datových polí pro čištění dat nebo identifikovat duplicitní záznamy. Avšak ve velkých organizacích je častá potřeba spravovat základní data o obchodních entitách ve více aplikacích a systémech v rámci celé organizace. Například společnost ukládá data o zaměstnancích v personálním systému a zároveň ve mzdovém aplikaci, nebo spravuje data o produktech ve skladovém systému a zároveň v katalogu pro e-commerce aplikaci.

Pokud je stejná obchodní entita obsažena ve více systémech, může být výhodné ji spravovat v jediném nadřazeném systému, který zajistí, že jakákoliv data o této entitě jsou konzistentní napříč celou organizací. Možným řešením je zvolit jednu z aplikací, která bude sloužit jako nadřazený (master) systém pro záznamy o dané entitě nebo vytvořit oddělenou databázi poskytující konzistentní informace o obchodních entitách všem dalším aplikacím v organizaci. Tento druhý přístup je běžně nazýván jako správa kmenových dat a SQL Server Master Data Services poskytuje řešení, které je možné použít k její implementaci.

Obrázek 7 – Správa datového modelu kmenových dat pomocí MDS

Jak je vidět na obrázku 7 řešení MDM společnosti Microsoft umožňuje definovat datový model kmenových dat pro základní datové entity organizace, který obsahuje definice daných entit a jejich datových atributů. Tyto entity lze dále organizovat do hierarchických struktur na základě jejich vzájemných vztahů a závislostí (například produkt z katalogu může patřit do podkategorie, která je dále začleněna pod nadřazenou kategorii).

Po definování entit a atributů MDS poskytuje funkce pro naplnění modelu daty a poté tyto informace nabízí dalším aplikacím pomocí běžných SQL dotazů. V mnoha případech je pro přístup ke kmenovým (master) datům používána dříve popsaná komponenta SSIS, jak ukazuje obrázek 8.

Obrázek 8 – Využití SSIS pro vkládání a získávání kmenových (master) dat

Microsoft MDS obsahuje další funkce pro správu a vytvoření komplexního řešení MDM jako je možnost vytvářet další hierarchie na základě vlastních nahraných kmenových dat nebo ověřování dat na základě definovaných obchodních pravidel a případně jejich čištění, párování, atd.

Podpora koncových uživatelů pro správu datové kvality

Řešení společnosti Microsoft se kromě nástrojů určených pro IT profesionály zaměřuje i na přímou podporu koncových uživatelů pro správu datové kvality. Jak je vidět na obrázku 9, klientská aplikace DQS nabízí intuitivního průvodce, který umožňuje znalému uživateli vytvořit a spravovat znalostní bázi, provádět běžné úlohy pro zvyšování datové kvality jako čištění a párování dat. Po těchto operacích může uživatel výsledky přímo exportovat do sešitu Microsoft Excel ke kontrole a dalšímu zpracování včetně možnosti propojení s Master Data Services pomocí MDS Add-In pro Microsoft Excel (včetně správy vlastního datového modelu kmenových dat). Takto může uživatel intuitivně provádět běžné operace pro řízení datové kvality bez přímé podpory specialistů IT nebo externích konzultantů.

Obrázek 9 – Průvodce uživatele pro správu datové kvality

Analýza technologií pro řízení datové kvality od společnosti Microsoft

Všechny požadavky pro nástroje na řízení datové kvality, uvedené v teoretické části, jsou uspořádány do následující hodnotící tabulky 1. Pro každý požadavek je poté provedeno hodnocení v rozsahu 1 – 3, zda a jak je naplněn výše popsanými technologiemi společnosti Microsoft (1 – nesplňuje, 2 – částečně splňuje, 3 – splňuje úplně). Aritmetickým průměrem je poté ohodnocena každá jednotlivá souhrnná oblast (zvýrazněná tučným písmem).

Oblast / požadavekHodnocení
Nástroje a techniky pro profilaci dat (Data Profiling)2,7
Column analysis and profiling3
Cross-column analysis (dependency)3
Cross-table analysis (redundancy)3
Structure analysis2
Anomaly analysis (column, cross-column, cross-table)3
Business and data rules discovery and management2
Metadata discovery and management2
Historical tracking3
Proactive auditing3
Nástroje pro rozklad a standardizaci dat (Parsing and Standardization)3,0
Rozklad (rozbor) a transformace hodnot (Parsing)3
Identifikace chyb3
Oprava rozpoznaných chyb (Error Correction)3
Standardizace hodnot (Standardization)3
Normalizace a transformace hodnot3
Nástroje pro porovnávání a slučování záznamů (Identity Resolution and Matching)2,6
Rozklad a standardizace (viz předchozí bod)3
Rozšíření (expanze) zkratek do plného znění3
Editační vzdálenost3
Fonetické srovnání2
N-gramming2
Nástroje pro inspekci, monitorování, auditování, reportování a sledování2,0
Provádění automatické inspekce a monitorování kvality dat na základě definovaných požadavků a pravidel (DQ SLA)2
Auditování nalezených rozporů vůči definovaným pravidlům pro možnost analýzy a sledování historických trendů datové kvality2
Reportování a upozornění v případě incidentů a eskalace jejich řešení2
Vlastní sledování řešení incidentů datové kvality 2
Nástroje pro obohacování dat (Data Enhancement)3,0
Nástroje pro Master Data Management2,8
Definování a modelování struktur kmenových dat včetně publikace metadat3
Plnění kmenových dat z dalších aplikací a externích zdrojů a jejich čištění3
Poskytování kmenových dat dalším aplikacím (odkazem nebo kopií)3
Zajištění implementace a automatizace příslušných procesů a politik2
Zajištění vztahů, hierarchie, přístupových práv3
Sledování a auditování přístupů3
Tabulka 1 – Analýza nástrojů pro řízení datové kvality od společnosti Microsoft

Závěr

Hlavním cílem tohoto článku bylo popsat a analyzovat vyspělost nástrojů společnosti Microsoft pro řízení datové kvality. V rámci teoretické části byly popsány základní vlastnosti a požadavky na nástroje pro podporu řízení datové kvality a definována meřítka pro posouzení, jak jsou tyto vlastnosti naplněny. Analytická část popsala konkrétní technologické řešení pro řízení datové kvality od společnosti Microsoft a hodnotila, jak naplňuje výše definované požadavky v teoretické části.

V případě nástrojů pro profilaci dat obsahuje řešení společnosti Microsoft většinu požadovaných funkcí na velmi dobré úrovni. Prostor pro zlepšení vidíme v oblasti reverzní analýzy a správy pravidel a metadat. Nástroje pro rozklad (parsing), standardizaci, opravu a normalizaci dat jsou na vysoké úrovni a v podstatě splňují všechny požadavky na ně kladené.

V oblasti nástrojů pro porovnávání a slučování záznamů je základem pro srovnávání využívána tzv. fuzzy logika, která není detailně popsána a podle dostupných informací využívá zejména algoritmy editační vzdálenosti podle Levenshteina a 4-gram s pevnou délkou. Pro detailnější posouzení by bylo vhodné provedení nějakého srovnávacího benchmarku, který posoudí účinnost použitých srovnávacích metod. Další posuzovanou skupinou jsou nástroje pro podporu procesů spojených s řízením datové kvality (inspekci, monitorování, auditování, reportování a sledování). Tato oblast je hodnocena jako nejslabší a vidíme zde největší prostor pro zlepšení. Některé z těchto požadavků jsou sice lépe splněny dalšími technologiemi od společnosti Microsoft, ale celkové řešení se tak stává nepřehledné a složité. Nástroje pro obohacování dat jsou na vysoké úrovni a poskytují moderní možnosti získávání i poskytování externích dat pomocí cloud technologií. Rovněž v oblasti nástrojů pro Master Data Management Microsoft dodává komplexní řešení, které naplňuje velmi dobře většinu funkcí a vlastností vyžadovaných pro moderní implementaci.

Závěrem hodnocení je potřeba uvést, že společnost Microsoft nabízí otevřené řešení, které je možné poměrně snadno doplnit o další potřebné nebo chybějící funkce. Významným kladem je velký důraz společnosti Microsoft na přímou podporu koncových uživatelů, což přináší značné úspory nákladů na správu, protože nejběžnější operace spojené s řízením datové kvality provádí zaškolený uživatel sám bez nutnosti podpory ze strany IT nebo externích dodavatelů.

Definice a metodika hodnocení nástrojů pro řízení datové kvality (výše uvedená hodnotící tabulka) může sloužit pro analýzy nástrojů od dalších dodavatelů, pomoci s posouzením jejich úrovně vyspělosti a umožnit vzájemné porovnání technologií od různých dodavatelů.

Na úplný závěr bychom měli ještě jednou zdůraznit, že i když se tato práce převážně zabývá technologickou částí, nesmíme zapomínat, že celkové řešení pro řízení datové kvality musí být vždy tvořeno vyváženou kombinací tří základních komponent: technologickou, procesní a lidskou.

Seznam použité literatury

Komentáře ke článku

Stránka byla naposledy aktualizována dne 4.5.2015
Powered by HOLOPAGE
©2011 - 2021 D. Pejčoch