Analytické postupy, které často lze provádět i v běžném tabulkovém procesoru, lze aplikovat i na velké objemy dat. Při analýze velkých objemů dat existují dva základní přístupy: Business Intelligence a Big Data. Jaký je mezi těmito přístupy rozdíl?
Velký objem dat
Jak Big Data, tak i Business Intelligence umí pracovat s velkými objemy dat. Zdroje dat pro oba přístupy můžou být velmi podobné. Rozdíl je ve způsobu zpracování dat a dotazováním se dalších serverů. Zatímco u BI jsou data agregována do jednoho datového skladu, nad kterým se provádějí analýzy a reporty, tak u Big Data se provádí dotazování několika zdrojů zároveň. Tento přístup je náročnější na výkon a infrastrukturu, protože neustálé dotazy primární databáze zatěžují.
Co je to Business Intelligence?
Business Intelligence ( zkráceně BI) pracuje se převážně se strukturovanými daty. Data jsou sbírána z různých zdrojů (databáze, tabulkové procesory, xml). Tím začíná funkce datové pumpy (
ETL). Po úspěšné extrakci dat (probíhá v pravidelných intervalech, většinou 1x denně) jsou data transformována a nahrána do datového skladu. Transformace značí sjednocení dat do jediné databáze pomocí vybraných identifikátorů.
BI zvládá i nestrukturovaná data typu příspěvky na sociálních sítích, zprávy údržby o závadách či záznamy sensorů určitého zařízení.
Hlavní těžiště BI je v analýze vnitrofiremních dat.
Schéma Business Intelligence

zdroj:
ABCLinuxu.cz
Co to jsou Big Data?
Jak už bylo řečeno výše, tak se jedná o analýzu velkého množství dat. Big Data jsou primárně zaměřená na analýzu nestrukturovaných dat. Není proto divu, že na principu Big Data fungují
internetové vyhledávače a nástroje na real time
monitoring sociálních sítí. Základní programovací model označovaný jako
MapReduce byl původně vyvíjen Googlem. V současnosti je aplikován i na open source software
Hadoop, který slouží ke zpracování nestrukturovaných a distribuovaných dat. Hadoop na svých serverech využívá i Seznam.cz.
Schéma MapReduce

zdroj:
http://www.cs.uml.edu
Parametr | Big Data | Business Intelligence |
Čas zpracování dotazu | v reálném čase | ve stanovených cyklech |
Typ dat | nestrukturovaná data, strukturovaná data | strukturovaná data, částečně strukturovaná data, |
Jednotky dat | TB, PB | MB, GB, TB |
Zdroje dat | otevřená množina | jasně definované zdroje |
Umístění dat | data v cloudu | data v datovém skladu |