Business Intelligence, nebo Big Data?

Analytické postupy, které často lze provádět i v běžném tabulkovém procesoru, lze aplikovat i na velké objemy dat. Při analýze velkých objemů dat existují dva základní přístupy: Business Intelligence a Big Data. Jaký je mezi těmito přístupy rozdíl?

Velký objem dat

Jak Big Data, tak i Business Intelligence umí pracovat s velkými objemy dat. Zdroje dat pro oba přístupy můžou být velmi podobné. Rozdíl je ve způsobu zpracování dat a dotazováním se dalších serverů. Zatímco u BI jsou data agregována do jednoho datového skladu, nad kterým se provádějí analýzy a reporty, tak u Big Data se provádí dotazování několika zdrojů zároveň. Tento přístup je náročnější na výkon a infrastrukturu, protože neustálé dotazy primární databáze zatěžují.

Co je to Business Intelligence?

Business Intelligence ( zkráceně BI) pracuje se převážně se strukturovanými daty. Data jsou sbírána z různých zdrojů (databáze, tabulkové procesory, xml). Tím začíná funkce datové pumpy (ETL). Po úspěšné extrakci dat (probíhá v pravidelných intervalech, většinou 1x denně) jsou data transformována a nahrána do datového skladu. Transformace značí sjednocení dat do jediné databáze pomocí vybraných identifikátorů. BI zvládá i nestrukturovaná data typu příspěvky na sociálních sítích, zprávy údržby o závadách či záznamy sensorů určitého zařízení. Hlavní těžiště BI je v analýze vnitrofiremních dat.

Schéma Business Intelligence

Schéma BI
zdroj: ABCLinuxu.cz

Co to jsou Big Data?

Jak už bylo řečeno výše, tak se jedná o analýzu velkého množství dat. Big Data jsou primárně zaměřená na analýzu nestrukturovaných dat. Není proto divu, že na principu Big Data fungují internetové vyhledávače a nástroje na real time monitoring sociálních sítí. Základní programovací model označovaný jako MapReduce byl původně vyvíjen Googlem. V současnosti je aplikován i na open source software Hadoop, který slouží ke zpracování nestrukturovaných a distribuovaných dat. Hadoop na svých serverech využívá i Seznam.cz.

Schéma MapReduce

Map Reduce
zdroj: http://www.cs.uml.edu

Parametr Big Data Business Intelligence
Čas zpracování dotazu v reálném čase ve stanovených cyklech
Typ dat nestrukturovaná data, strukturovaná data strukturovaná data, částečně strukturovaná data,
Jednotky dat TB, PB MB, GB, TB
Zdroje dat otevřená množina jasně definované zdroje
Umístění dat data v cloudu data v datovém skladu