Data Quality CZ - portál věnující se tématu kvalitních dat

Řízení kvality dat s využitím nástrojů firmy Talend – 1.díl

[1.5.2012] D. Pejčoch

Úvod

Když jsem se před začátkem tohoto semestru intenzivně zabýval přípravou na nově vzniklý kurz 4IZ562 Řízení datové kvality, lámal jsem si hlavu s tím, na jakém nástroji výuku primárně založit. Jelikož jsem nechtěl zvýhodňovat žádného z komerčních dodavatelů, hledal jsem ve sféře open source nástrojů. Takových sice existuje celá řada, nicméně většina z nich se zaměřuje na konkrétní oblast a např. pro MDM (Master Data Management) jsem nalezl pouze jedno jediné řešení. V této situaci mi naštěstí pomohly poslední Magic Quadrants publikované společností Gartner. V kvadrantu vizionářů se tam tehdy objevily nástroje firmy Talend.

Firma Talend má své hlavní sídlo v Los Altos. Evropskou centrálu má zřízenou v Paříži. Kromě těchto hlavních sídel má zřízené pobočky ještě v Orange Contry, Bostonu, New Yorku, Londýně, Utrechtu, Norinberku, Bonnu, Mnichově, Miláně, Tokyu a Pekingu. V materiálech, které mi po stažení produktů z webu zaslal jejich account, se pyšní mimo jiné informací, že každých 30 sekund proběhne stažení jednoho z jejich produktů a získávají až 150 nových klientů každých měsíc. V současné době by podle těchto materiálů mělo existovat cca 950 tis. uživatelů po celém světe.

Primární m účelem této série článků je suplovat dosud neexistující skripta pro předmět 4IZ562 Řízení datové kvality vyučovaný na Katedře informačního a znalostního inženýrství na Vysoké škole ekonomické v Praze. Články čerpají z mých vlastních zkušeností s nástroji firmy Talend, z materiálů volně stažitelných z webu této společnosti a materiálů zaslaných touto společností na můj soukromý email. Tam, kde výslovně neuvádím, že se jedná o informaci čerpanou z některého ze stažených zdrojů, jedná se o můj subjektivní názor. V případě, že se uchyluji k hodnocení funkcionality nástrojů, vždy uvádím okolnosti, které mě k tomuto hodnocení vedly, aby si čtenář mohl vytvořit svůj vlastní názor.

Portfolio nástrojů firmy Talend

Když bychom prošli web firmy Talend, nalezli bychom odkazy na celkem pět různých produktů:

Volně dostupné jsou nástroje Talend Open Studio (dále TOS) for Data Quality, TOS for Data Integration, TOS for MDM, TOS for ESB a TOS for BPM. V rámci otevřené verze Data Quality nejsou k dispozici některé stěžijní funkcionality jako je např. pokročilé porovnávání řetězců a nástroje pro Data Stewardship , v rámci nástroje pro integraci chybí např. funkcionalita pro týmovou spolupráci, načasování a monitoring spuštěných úloh, automatický deployment a load balancing. V rámci volně dostupného nástroje pro MDM chybí řízení přístupu na bázi rolí, pokročilé vytváření byznys pravidel a validací, řízení workflow a BPM.

Pro účely výuky jsem potřeboval nástroj, který by v sobě obsahoval základní funkcionalitu pro datovou integraci, profilaci dat, možnosti validace a vytváření a udržování báze poskytující jednu univerzální pravdu napříč firmou. Na základě porovnání funkcionalit dostupných v rámci volných balíčků jsem se nakonec rozhodl pro balík TOS for MDM a to především z toho důvodu, že v sobě poskytuje též funkcionalitu z nástrojů TOS Data Quality a TOS Data Integration.

Instalace TOS for MDM

V rámci zip archívu stažitelného pro registraci z webu společnosti Talend jsou k dispozici dvě verze k instalaci: TOS MDM Server a TOS MDM Studio. Severová část je založena na aplikačním serveru JBoss a její instalaci je možné provést na OS Windows spuštěním jar archívu a na OS Linux pomocí příkazu java –jar TOS_MDM-Server-xxxxx.jar (xxxxx představuje verzi aplikace). Před započetím instalace je nutné již mít nainstalován Java SDK verze 1.6 (na starší verzi JBoss nepoběží) a nastavenou proměnnou prostředí JAVA_HOME (pouze na Windows). Při instalaci na platformě Windows 7 narazíte nejspíš na problém, že aplikaci není možné nainstalovat do složky Program Files. Pokud byste tak učinili, JBoss by nebyl schopen správně interpretovat mezeru v názvu složky a server by nebylo možné spustit. O této vlastnosti jsem v dostupných manuálech a video-tutoriálech na webu nenašel žádnou zmínku. Na správnou cestu mě přivedlo až procházení diskusních fór, kde někteří uživatelé řešili týž problém. Pokud jste vše provedli správně, mělo by se Vám podařit server spustit pomocí dávkového souboru run.bat (na linuxu pochopitelně run.sh)umístěného v adresáři, který jste zvolili jako cílový během instalace. To, zda JBoss skutečně běží, snadno ověříte připojením se na jeho webové rozhraní http://localhost:8080 nebo přímo na rozhraní MDM Serveru http://localhost:8080/talendmdm /secure.

Instalace klientského nástroje je triviální. Stačí pouze rozzipovat stažený archív. Ke spuštění nástroje na Windows slouží exe soubor TOS_MDM-win…., který je zde pro 32 a 64-bit verzi OS. To je poněkud zvláštní, neboť před stažením instalačních souborů jsme dodavatelem informováni, že podporovaná je pouze 32-bitová verze Windows (o to více, že nástroj jsem testoval právě na 64-bit verzi OS). Na Linuxu /Unix použijte opět sh soubor.

Pro integraci a profilaci dat nebudete potřebovat spuštěný server a postačí Vám klientský nástroj. Vašemu PC tak darujete cca 300 MB RAM, kterou by jinak okupoval JBoss.

Popis perspektiv TOS for MDM

TOS for MDM pracuje s tzv. perspektivami. Přepínat mezi nimi je možné buď pomocí sady ikon umístěných v pravé horní části aplikace, anebo z nabídky Window. Hlavní perspektivy jsou MDM, Data Explorer, Profiler a Integration, z nichž poslední dvě zmiňované odpovídají funkcionalitě TOS for Data Quality a TOS for Integration. V rámci zbývající části prvního dílu tohoto seriálu se budu zabývat perspektivou Profiler.

Perspektiva Profiler

V rámci této perspektivy je možné jednak nadefinovat datové zdroje pro profilaci a jednak provést vlastní hodnocení základních charakteristiky dat. Jednotlivé komponenty funkcionality jsou zpřístupněny formou stromové struktury zobrazené v rámci záložky DQ Repository. Jako datové zdroje je možné použít MDM Servery, připojení na databáze pomocí ODBC a samozřejmě též soubory s oddělovačem. Nástroj poskytuje široké spektrum konektorů na různá RDBMS, např. AS400, Access, Exasol, FirBird, Greenplum, HSQLDB, Hive, IBM DB2, Informix, Ingres, Interbase, MaxDB, MS SQL Server, MySQL, Netezza, Oracle, PostgreSQL, SAS, SQLite, Sybase, Teradata, VectorWise nebo Vertica. Zvláště zajímavá je ne příliš obvyklá přímá konektivita na SAS Workspace Server (jak ve verzi 9.1 tak 9.2). Škoda, že místo ní není k dispozici konektivita na SAS Metadata Server, která by více vyhovovala adminům SAS nástrojů.

Složka System Indicators obsahuje sadu předdefinovaných statistik a byznys pravidel, která lze použít v rámci analýz na bázi jednotlivých atributů. Pokud by uživateli nestačily ty přednastavené, má v rámci složky User Defined Indicators možnost vytvořit své vlastní. Indikátory jsou v podstatě SQL dotazy v různých modifikacích podle použitého RDBMS, používající parametry (názvy sloupců, tabulek, where klauzule, group by), kterým je konkrétní hodnota přiřazena až při jejich užití v rámci konkrétní analýzy.

Velice důležitý stavební kámen pro analýzu vzorů představuje složka Patterns, v rámci níž je možné definovat buď regulárními výrazy, anebo pomocí SQL Like podmínky syntaktické vzory, které je možné použít pro skóring vybraných atributů a zjistit tak míru syntaktické správnosti jejich hodnot.

Dalším užitečným nástrojem je možnost vytváření SQL pravidel, majících podobu where klauzule. V rámci analýzy na úrovni jednotlivých atributů je možné zjistit podíl záznamů, které odpovídají, resp. neodpovídají danému pravidlu. Jednotlivým pravidlům je též možnost nastavit úroveň jejich závažnosti.

V rámci složky Source Files je možné nadefinovat celé SQL skripty, které je poté možno spouštět na úrovni nadefinovaných připojení.

Analýzy s využitím uvedených stavebních prvků je možné provádět na úrovni nadefinovaných připojení, databází, tabulek nebo jednotlivých atributů. Na úrovni připojení je možné provést porovnání databází a tzv. Overview Analysis, v rámci níž nástroj zobrazí počty záznamů, tabulek, pohledů, klíčů a indexů v rámci databází, které jsou k dispozici pod daným připojením. Tutéž analýzu lze realizovat na úrovni jednotlivých databází. Na úrovni tabulek nástroj poskytuje možnost skórování pomocí nadefinovaných pravidel (nabídka Table Analysis), aplikaci systémových i uživatelem nadefinovaných indikátorů a SQL nebo regex vzorů na jednotlivé atributy obsažené v tabulce (Column Analysis). Vstup do analýzy lze korigovat pomocí where podmínky. Posledním typem analýzy spustitelné na úrovni tabulky je tzv. Pattern Frequency Analysis. Od Column Analysis se liší pouze odlišnou sadou přednastavených systémových indikátorů.

Na úrovni jednotlivých atributů je možné realizovat jednak již zmíněné typy analýz, jednak analýzy dosud neuvedené. Do této skupiny patří zejména analýza korelace hodnot více atributů, jejímž výstupem je graf průměrů spojité proměnné podmíněných hodnotami nominálních proměnných. Analýza s příznačným názvem Simple Statistics umožňuje výpočet základních charakteristik jako je počet chybějících pozorování, počet jedinečných hodnot, četnost takových jedinečných hodnot, které se vyskytují v datech pouze jednou a četnost jedinečných hodnot, které se vyskytují v datech duplicitně. Summary Statistics Analysis aplikuje indikátory pro výpočet průměru, mediánu, dolního a horního kvartilu, minima, maxima a na základě těchto charakteristik zobrazí Box-Whiskers gaf. Pro nominální proměnné je možné v rámci tzv. Nominal Values Analysis zjistit četnosti jednotlivých kategorií a základní textové charakteristiky jako je např. minimální a maximální délka řetězce. Posledním typem analýzy je Discrete Analysis, která se od předchozí liší pouze tím, že v přednastavených systémových indikátorech chybí textové statistiky.

Komentáře ke článku

Stránka byla naposledy aktualizována dne 4.5.2015
Powered by HOLOPAGE
©2011 - 2015 D. Pejčoch