V predchádzajúcom príspevku sme predstavili BigData ako rozšírenie Business Intelligence (BI), kde spracovávaním dát je možné objaviť vzťahy a znalosti hodnotné pre zákazníkov. V tomto blogu si podrobnejšie rozoberieme rozdiely medzi BI a BigData. Rozdiely sú rozdelené do dvoch kategórií – rozdielna podstata BI a BigData a rozdiely spojené s nevyspelosťou a novosťou BigData. Cieľom blogu je ukázať, že BigData nenahrádza tradičné BI, no veľmi užitočne ho doplňuje.
Odlišná podstata BI a BigData
Online vs. Batch processing
Používatelia BI technológií sú zvyknutí, že výsledky uvidia prakticky hneď a z rôznych pohľadov. Na BigData platforme treba viac času na vykonanie dopytov, preto procesovanie beží často na pozadí. Výsledky algoritmov sa „nasypú“ do štruktúr a používatelia si pozerajú výsledky pomocou dostupných BI nástrojov (pekný príklad spojenia BigData a tradičných BI nástrojov majú vo firme Klout). Možno sa to na prvý pohľad nezdá – BigData prioritne neprináša rýchlosť ale skôr možnosť spracovať veľký objem dát v rozumnom čase.
Štruktúrované vs. neštruktúrované dáta
Tradičné BI technológie dokážu operovať predovšetkým nad štruktúrovanými dátami. A to nebýva problém, kedže obchodné dáta (napr. údaje o zákazníkoch, produktoch či transakciách) sú ukladané v zdrojových systémoch v štruktúrovej forme. BigData však dokáže efektívne pracovať aj s voľným textom, fotografiami či videom – napr. Google nedávno sprístupnil možnosť vyhľadávať podobné obrázky.
Terrabytes vs. Petabytes
Obrovským prínosom BigData je škálovateľnosť. Veľké množstvo dát sa bežne zahadzuje (napr. výstupy z kamerových systémov, dáta zo senzorov a RFID čipov), lebo v relačných databázach na ne nie je miesto a v nespracovanej forme nenajú veľkú pridanú hodnotu. BigData technológie dokážu uskladniť relatívne lacno obrovské množstvo dát.
Private dáta vs. Public dáta
Tradičné BI používa na reportovanie, analýzy a predikcie vlastné obchodné dáta, ktoré si každá spoločnosť starostlivo chráni. V rámci BigData je možné zbierať a analyzovať dáta, ktoré sú verejne dostupné: monitorovanie cestnej premávky, údaje o tlaku vody v potrubiach, či hustotu ľudí v preplnených uliach. Vďaka senzorom je možné zozbierať neuveriteľné množstvo dát. A je len na dátových analytikoch, čo dokážu zo zozbieraných dát vydolovať.
Presné výsledky vs. štatisticky relevantné zistenia
V rámci BI ide o presné čísla: počet objednávok, hodnota predaného tovaru, priemerný zisk na zákazníka. S BigData prístupom sú doležité vzory, nové objavy a súvislosti. Keď má firma dáta v štruktúrovanej forme a v únosom objeme, nemá zásadný dôvod púšťať sa do riskantných BigData projektov. Naopak, keď má firma stovky TB surových dát, vďaka BigData bude do nich môcť nahliadnuť a objaviť niečo zaujímavé.
Novosť BigData technológií a prístupov
Inhouse vs. Software as a service (SaaS)
BI je oblasť rozvíjajúca sa viac ako dve desaťročia. Keď má firma zavedený BI systém, často používa vlastnú infraštruktúru, špecifickú architektúru a interný tím IT ľudí, ktorí sa o to celé starajú. Nasadenie BigData riešenia si aktuálne vyžaduje pomerne veľa znalostí. Preto sa mnohé BigData riešenia hostujú na vzdialených serveroch od Google alebo Amazon.
Komerčný softvér vs. Open source
Trh s BI nástrojmi ovládajú známe IT spoločnosti ako IBM, Oracle alebo Microsoft. BigData technológie sú veľmi nové a vo vačšine prípadov ide o Open Source softér. Postupne však aj etablované firmy dávajú BigData produkty pod svoje krídla: napr. IBM InfoSphere BigInsights alebo Microsoft HDInsight.
Vyspelé nástroje a metodiky vs. inovatívne prístupy
Za mnoho rokov existencie sa na vysokú úroveň dostali nie len BI nástroje ale aj BI metodiky. Už je možné pomerne dobre odhadnúť, čo BI nástroj prinesie, ako to docieliť a koľko to bude stáť. Svet BigData je zatiaľ len málo popísaná tabuľa. Pre globálne internetové firmy je BigData každodenný chlieb, no nasadenie a rentabilnosť BigData technológií v newebových firmách je otázne.
Dostupný personál vs. experti
Nájsť na trhu práce ľudí, ktorí sa venujú DWH/BI, je pomerne jednoduché. To však nie je možné tvrdiť o špecialistoch na BigData . Tých zatiaľ nájdeme hlavne v technologických startupoch, na univerzitách, prípadne na konzultanských pozíciach. Nedostupnosť BigData personálu robí projekty tohto druhu ešte viac náročnými.
Tradičný BI a BigData majú toho veľa spoločného, v mnohom sa líšia a výborne sa dopĺňajú. Nepredpokladám, že BigData zo dňa na deň vytlačí tradičné BI. BigData prístupy sa budú postupne rozširovať, nástrojov bude pribúdať až si napokon nájdu svoje stabilné miesto na trhu IT technológií. Dnešný bol viac o teórii a základných konceptoch, príklady použitia BigData si rozoberieme v jednom z nasledujúcich blogov.