V predchádzajúcom blogu sme si predstavili/osviežili koncept LATCH, ktorý sa zaoberá kategorizáciou informácií. Ďalší koncept, ktorému môžeme podrobiť premýšľanie o dátovej analytike vyplýva z dátovej analytiky ako takej. Vo všeobecnosti rozlišujeme 4 typy analýz podľa otázok, na ktoré odpovedajú – deskriptívnu, diagnostickú, prediktívnu a preskriptívnu. Ak pridáte do aplikácie aj takú, na ktorú sa užívateľ explicitne nepýtal, môže mu to rozšíriť jeho obzory – a to nielen v týchto konkrétnych dátach, ale aj pri ďalšom premýšľaní nad analytickými otázkami.
Základné rozdelenie spočíva veľmi intuitívne v tom, či nás zaujíma minulý stav (alebo aktuálny, ktorý je vo svojej podstate už minulý, pretože ho nevieme ovplyvniť) alebo otázky kladieme smerom do budúcnosti.
Deskriptívna analytika
Ak sa pýtame na otázky charakteru koľko, kto, ktorý, kde… odborníci to nazvú deskriptívnou analytikou 😊. Tá totiž opisuje aktuálny/minulý stav. Konkrétne sa najčastejšie využívajú kľúčové indikátory výkonnosti (tzv. KPIs) vo forme súm, podielov, priemerov, vážených priemerov a ďalších agregačných ukazovateľov. Našu predstavu o aktuálnom stave môže vylepšiť aj identifikácia outlierov (extrémnych hodnôt s ohľadom na dáta) alebo najčastejšie sa opakujúcich hodnôt.
Aký bol objem predaja v minulom roku? Koľko aktívnych zákazníkov máme? Aký percentuálny podiel výstupov výrobnej linky bol za uplynulý rok chybový? Ktoré produkty sú súčasne často predávané a zároveň majú nízke výrobné náklady?
Napriek veľkej pozornosti, ktorá sa v súčasnosti venuje prediktívnej a preskriptívnej analytike (nájdete – nie vždy správne – pod označeniami artificial intelligence/AI alebo data science), je správne pochopenie dát a využívanie deskriptívnej analytiky kľúčové. Ak užívatelia nerozumejú svojím dátam na tejto úrovni a nedokážu z nich extrahovať relevantné informácie, neprinesie im žiadna investícia do „data science“ projektu reálnu pridanú hodnotu.
Diagnostická analytika
Vôbec nie prekvapivo diagnostikuje – analyzuje minulý stav. Odpovedá na otázky prečo, ako. V tomto prípade sa sústredíme predovšetkým na identifikáciu asociácií a korelácií medzi rôznymi veličinami a faktormi.
Prečo práve v marci dosahujeme každoročne najnižší obrat? Súvisí počet ľudí odchádzajúcich z našej firmy s ich čerpanou dovolenkou v uplynulom období?
Pri analýze príčin je často prehliadaná polovica (nie matematicky presne) potenciálne zaujímavých možností. Z jednoduchého dôvodu – analyzujeme veci, ktoré sa stali a sú a prehliadame to, aké dôležité môže byť, že sa niečo nestalo alebo nebolo. (pozn. Qlik – nástroj na dátovú analytiku má svoju konkurenčnú výhodu postavenú práve na tom, že užívateľ vie analyzovať neasociované údaje rovnako intuitívne a rýchlo ako tie, ktoré sú prepojené).
Súvisí pokles návštevnosti našej reštaurácie so zrušením zastávky metra v jej tesnej blízkosti? Máme menej zákazníkov z Českej republiky ako by sme očakávali – je to spôsobené tým, že obchodník pre ČR nemá ani jedného zákazníka z výrobnej sféry, v ktorej máme najviac klientov? Poklesla hodnota našej investície – spôsobilo ju zachovanie úrokových sadzieb napriek ich očakávanému poklesu?
Sofistikovanejšie metódy, ktoré je možné využiť, spadajú do kategórie tzv. strojového učenia (machine learning). Jedná sa napríklad o kategorizáciu podobných dát podľa zvolených atribútov (clustering) alebo vyhodnotenie trendu lineárnou regresiou. Zaujímavé pohľady na dáta vedia priniesť aj v kombinácii s deskriptívnou analytikou.
Rozdelenie zákazníkov podľa odvetvia, ich celkového obratu a expozícii voči nám súčasne môže byť veľmi zaujímavý podklad pre vyhodnocovanie splácania ich záväzkov voči našej spoločnosti. Ako jeden z atribútov je možné využiť aj rýchlosť ich rastu vyjadrený sklonom krivky lineárnej regresie (trendom).
Prediktívna analytika
Ak sa počas našich analýz začneme zamýšľať na budúcim vývojom, dostali sme sa do sféry prediktívnej analytiky. Tá s určitou mierou spoľahlivosti „predpovedá“, čo sa v nadchádzajúcom období stane/nestane. Najčastejšie sa využíva pohľad na dáta v čase, kedy je na časovej osi vyznačený doterajší vývoj a od dnešného dátumu do budúcnosti predpokladaný budúci vývoj. Štandardnými metódami za týmito číslami sú ARIMA/SARIMA pre analýzu časových radov. Budúcnosť môže byť ale aj tom, či klient bude schopný splácať svoje záväzky alebo nie, čo sa kalkuluje regresnými metódami alebo rozhodovacími stromami.
Ak bude pokračovať aktuálny trend, aký objem predaja môžeme očakávať v najbližšom kvartáli? Aká je pravdepodobnosť, že žiadateľ o úver ho nebude do 5 rokov schopný splatiť? Ak sú aktuálne podmienky vo výrobnej hale takéto, aká je pravdepodobnosť, že sa vyrobí chybový produkt? Ak si klient kúpi auto, aká je pravdepodobnosť, že si u nás zaplatí aj servis? Akú návštevnosť nášho hotela môžeme očakávať, keď ho otvoríme na Baker Street v Londýne?
Pri využívaní týchto metód je extrémne dôležité neupínať sa iba na číslo, ktoré je hlavným výsledkom. V týchto algoritmoch majú totiž najdôležitejšiu úlohu „dodatočné“ informatívne výsledky, ktoré hovoria napríklad o tom, či výslednej hodnote vôbec môžete veriť. Najznámejším parametrom, je tzv. p-hodnota (p-value), ale tou vás budem zaťažovať až niekedy nabudúce. Občas (dokonca asi častejšie ako by ste si mysleli) je výsledok zložitého algoritmu ešte menej relevantný ako ukazovateľ priemernej mzdy na Slovensku.
Viac o prediktívnej analytike (po anglicky) nájdete napríklad v článku Predictive Analytics Techniques alebo o jej konkrétnych využitiach (po slovensky) v blogu od Simony Demovej.
Preskriptívna analytika
Odhaľuje možnosti, ako využiť predpokladaný budúci stav a odporúča správnu cestu – a teda pomáha s rozhodovaním. Rôzne typy simulačných scenárov vyhodnocujú, aký dopad na trhové výsledky alebo hodnotu investície bude mať zmena nejakého vstupného parametra alebo viacerých parametrov. Ak hovoríme o zmene v konkrétnych jednotkách (eurá, milióny dolárov, počet zákazníkov), jedná sa o absolútnu zmenu. V percentách sa vyjadruje relatívna zmena. Preskriptívna analytika nie je nevyhnutne data science alebo niečo, na čo musíte vyštudovať matematiku na vysokej škole. Jednoduché scenáre si určite tvoríte aj sami v exceloch a iných nástrojoch, keď zvažujete hypotéku alebo vyhodnocujete negatívny a pozitívny scenár vývoja vášho biznisu. S narastajúcou zložitosťou sa potom dostávame cez rozhodovacie stromy až po komplexné metódy (natural language processing, image processing a iné) často využívajúce rôzne typy neurónových sietí. Opäť sa ale nevypláca podceňovať aj „čísla okolo výsledku“.
Ak prijmeme tento mesiac 10 nových zamestnancov, s akým nárastom produktivity môžeme počítať najbližší rok? Aká zisková/stratová môže byť táto zahraničná investícia, ak výmenné kurzy klesnú?
Väčšina z nás si pod simuláciami vývoja trhu predstaví niekoľko farebných kriviek pod sebou na jednom čiarovom grafe. Podľa neho sa zodpovedná skúsená osoba rozhodne, kam investuje. V dnešnom svete máme už ale toľko vymožeností (aj v nástrojoch zadarmo alebo minimálnu cenu), že by bola škoda ich nevyužívať. Niektoré rozhodnutia je totiž po vyhodnotení viacerých scenárov možné plne automatizovať.
Automaticky sa pozastaví výrobná linka, pretože z dôvodu meškania predchádzajúcej by zbytočne fungovala s nízkym využitím – dočasne je možné zapojiť inú. Automatické zamietnutie žiadosti o úver, keď žiadateľ na 95% nebude schopný ho splatiť.
Možno teraz máte pocit, že si predsa nepotrebujete pripomínať, že je fajn sa v rámci analytiky pozerať aj do budúcna. Ale kedy naposledy ste sa naozaj zamerali na nájdenie skutočného vysvetlenia, prečo sa niečo stalo a nehnali ste sa iba za budúcnosťou? 😉