Business Intelligence, nebo Big Data?

Analytické postupy, které často lze provádět i v běžném tabulkovém procesoru, lze aplikovat i na velké objemy dat. Při analýze velkých objemů dat existují dva základní přístupy: Business Intelligence a Big Data. Jaký je mezi těmito přístupy rozdíl?

Velký objem dat

Jak Big Data, tak i Business Intelligence umí pracovat s velkými objemy dat. Zdroje dat pro oba přístupy můžou být velmi podobné. Rozdíl je ve způsobu zpracování dat a dotazováním se dalších serverů. Zatímco u BI jsou data agregována do jednoho datového skladu, nad kterým se provádějí analýzy a reporty, tak u Big Data se provádí dotazování několika zdrojů zároveň. Tento přístup je náročnější na výkon a infrastrukturu, protože neustálé dotazy primární databáze zatěžují.

Co je to Business Intelligence?

Business Intelligence ( zkráceně BI) pracuje se převážně se strukturovanými daty. Data jsou sbírána z různých zdrojů (databáze, tabulkové procesory, xml). Tím začíná funkce datové pumpy (ETL). Po úspěšné extrakci dat (probíhá v pravidelných intervalech, většinou 1x denně) jsou data transformována a nahrána do datového skladu. Transformace značí sjednocení dat do jediné databáze pomocí vybraných identifikátorů. BI zvládá i nestrukturovaná data typu příspěvky na sociálních sítích, zprávy údržby o závadách či záznamy sensorů určitého zařízení. Hlavní těžiště BI je v analýze vnitrofiremních dat.

Schéma Business Intelligence

Schéma BI zdroj: ABCLinuxu.cz

Co to jsou Big Data?

Jak už bylo řečeno výše, tak se jedná o analýzu velkého množství dat. Big Data jsou primárně zaměřená na analýzu nestrukturovaných dat. Není proto divu, že na principu Big Data fungují internetové vyhledávače a nástroje na real time monitoring sociálních sítí. Základní programovací model označovaný jako MapReduce byl původně vyvíjen Googlem. V současnosti je aplikován i na open source software Hadoop, který slouží ke zpracování nestrukturovaných a distribuovaných dat. Hadoop na svých serverech využívá i Seznam.cz.

Schéma MapReduce

Map Reduce zdroj: http://www.cs.uml.edu
ParametrBig DataBusiness Intelligence
Čas zpracování dotazuv reálném časeve stanovených cyklech
Typ datnestrukturovaná data, strukturovaná datastrukturovaná data, částečně strukturovaná data,
Jednotky datTB, PBMB, GB, TB
Zdroje datotevřená množinajasně definované zdroje
Umístění datdata v cloududata v datovém skladu

Vyzkoušej nás

Nechejte nás hlídat a kontrolovat váš projekt.

a připoj se k 866 projektům