Big Data je aktuálne veľká téma. Organizujú sa konferencie s hŕbou prezentácií o dátach ako konkurenčnej výhode. IT firmy generujú tlačové správy s cieľom ukázať, že sú na Big Data úlohy pripravené. Big Data je všade okolo, no málo spíkrov dokáže rukolapne objasniť, čo je Big Data a prečo a ako analyzovať dáta. Firmy ako Google alebo Facebook postavili svoj biznis model na spracovávaní dát, no len málokto vie premeniť hŕbu dát na užitočné znalosti.
A tu sa dostávame k jadru veci: analyzovanie reálnych dát si vyžaduje široký rozsah znalostí a skúseností. Dobrou správou je, že existujú vychodené chodníky, ako si analytický skillset osvojiť. Jednou z možností je zapojenie sa do platformy Kaggle. Kaggle zastrešuje analytické súťaže, kde majú súťažiaci za úlohu nájsť odpoveď na súťažnú otázku analyzovaním priloženého datasetu.
Pre ilustráciu uvediem dva príklady analytických úloh:
- Efektívne riadenie prístupových práv. Medzinárodná firma má desaťtisíce zamestnancov. Zistilo sa, že zamestnanci strácajú veľa času získavaním prístupových práv na zdroje. Napr. keď zamestnanec nevie pristupovať k časti webového portálu, kontaktuje svojho supervízora a na základe pracovného zaradenia sa snaží získať príslušné práva. Pri častej migrácii zamestnancov v rámci organizácie, dochádza z tohto dôvodu k neefektivite. Firma má však rozsiahly dataset priradení zdrojov k pracovným zaradeniam. Na základe tohto datasetu majú súťažiaci za úlohu, navrhnúť model, ktorý na základe pracovného zaradenia urči, či pracovník má právo pristupovať k danému zdroju.
- Navrhovanie možností šetrenia energie v domácnosti. Každé zariadenie v domácnosti, ktoré odoberá energiu zo siete, zanecháva špecifickú stopu. Analýzou stôp je možné zistiť, ktoré zariadenie bolo kedy zapnuté a koľko energie odoberalo. Cieľom je vytvoriť model, ktorý bude dávať návrhy na optimalizáciu odberu do siete. Napr. keď budeš mať spotrebič zapnutý o 1 hodinu kratšie, prinesie Ti to 15 euro ročne.
Stačí zopár reálnych analytických úloh a romantický všemohúci Big Data prístup sa mení na tvrdú realitu. Na vyriešenie analytických úloh treba znalosti z rôznych oblastí: štatistika, programovanie, strojové učenie, spracovanie neštruktúrovaných dát, vizualizácia dát či business intelligence.
Odporúčam pozrieť si vizualizáciu analytického skillsetu vo forme mapy metra. Zrejme tušíte, že aktuálne len malá časť IT populácie disponuje takýmto širokým skillsetom. Neprekvapuje teda tvrdenie, že Big Data a analýzu dát čaká sľubná budúcnosti, no nebude to obed zadarmo.