Seznam článků
Aktuální články
Master Data ManagementMaster Data Management 2015-02-09 22:14:23
Při vyslovení pojmu Master Data Management jedni pomyslí na potenciálně předražený projekt s rizikem implementace vyšším než implementace samotného datového skladu, druzí podotknou, že vlastně každý subjekt ve skutečnosti ve větší či menší míře kmenová data řídí. Cílem tohoto článku je definovat, co jsou to kmenová data, stručně představit hlavní motivy k implementaci, základní typy a koncepty tvorby MDM řešení a nastínit hlavní úskalí při implementaci tohoto typu řešení. ...
Imputace s využitím nástroje Rapid MinerImputace s využitím nástroje Rapid Miner 2014-11-08 12:13:48
Problematiku chybějících pozorování lze bez nadsázky označit za jednu z nejdůležitějších oblastí řízení kvality dat. Toto téma bylo zdokumentováno dávno před tím, než se začal skloňovat samotný pojem kvality dat. I v případě, že firma nemá implementovány žádné validační kontroly, musí se v rámci realizovaných analýz potýkat s faktem, že některá pozorování chybí. V okamžiku, kdy se analytik rozhodne aplikovat jakoukoliv sofistikovanější metodu analýzy dat, musí se s problémem chybějících pozorování nějakým způsobem vypořádat. Cílem tohoto článku je popsat řešení problematiky chybějících pozorování pomocí nástroje Rapid Miner. Článek popisuje postup vytvoření prostředí pro porovnání různých alternativních metod pro imputaci. ...
Oprava knihovny SIMMETRICS pro porovnávání a slučování záznamůOprava knihovny SIMMETRICS pro porovnávání a slučování záznamů 2014-07-06 17:35:35
Simmetrics je knihovna napsaná v jazyku Java, poskytující rozsáhlé spektrum metrik pro porovnávání a slučovaní založených na kalkulaci nákladů transformace řetězců a tokenizaci, známý fonetický algoritmus Soundex a několik vlastních algoritmů autora. Po ukončení vývoje knihovny jejím autorem došlo k několika pokusům na její vývoj navázat. Bohužel obě online dostupné verze při jejich testování produkovaly chybný výstup pro některé z metrik. Tento článek představuje stručný návod, jakým způsobem naimportovat a opravit knihovnu v prostředí Eclipse. ...
Analýza nástrojů společnosti Microsoft pro řízení datové kvalityAnalýza nástrojů společnosti Microsoft pro řízení datové kvality 2014-06-24 19:41:29
Hlavním cílem tohoto článku je popsat a analyzovat vyspělost nástrojů společnosti Microsoft pro řízení datové kvality. V rámci teoretické části budou popsány základní vlastnosti a požadavky na nástroje pro podporu řízení datové kvality a budou definována meřítka pro posouzení, jak jsou tyto vlastnosti naplněny. Definice a metodika hodnocení nástrojů pro řízení datové kvality může v případě analýzy dalších nástrojů pomoci posouzení jejich úrovně vyspělosti a vzájemného porovnání technologií různých dodavatelů.
V analytické části poté bude popsáno jedno konkrétní technologické řešení pro řízení datové kvality od společnosti Microsoft a vyhodnoceno, jak naplňuje požadavky popsané a definované v teoretické části.
Na závěr úvodní části je nutné zdůraznit, že i když se tento článek převážně zabývá technologickou částí pro řízení datové kvality, nesmíme zapomínat, že celkové řešení musí být vždy tvořeno vyváženou kombinací tří základních komponent: technologickou, procesní a lidskou. ...
Big Data Quality: Practical Approach – Part 1Big Data Quality: Practical Approach – Part 1 2014-04-06 14:34:28
The purpose of this article is to describe practical examples of Data Quality Management approaches within the world of Big Data. First part of this article provides practical tutorial how to install and configure Hadoop environment. In second part I will focus on practical examples of using Hive and Pig for retrospective Data Quality Management. In last part I will focus on deduplication based on Hadoop and Hadoop based extraction of knowledge potentially used as a source for data enhancement and data verification. ...
.