Smer Data Science alebo ako sa odExcelovať

Posted by | 09/01/2016 | Big Data, Blog

 1

Ako to začalo…ešte stále hájim Excelovské farby

Keď som nastúpila ako Data analytik do Piana, zaryto som obhajovala Excel. Moji kolegovia, Data Scientisti, používali SQL na ťahanie dát z databázy, R programming alias Rko na čistenie, spracovanie a vizualizáciu dát.

V tom čase som mala za sebou prvý pokus o zdolanie kurzu Rka na Coursere. Nevydalo, nebola som dostatočne motivovaná. Až som prišla do Piana, a pracovala v teame s Data Scientistami. Vlastne…ešte stále som obhajovala Excel. Jednoducho som nebola ochotná vzdať sa nástroja, ktorý som dobre poznala a mala ošahaný, v prospech niečoho, o čom som mala predstavu, že data počas spracovania nevidím. A vôbec, programovanie mi nejako nevoňalo.

Kurz éra. Ide sa na to ! Smer Data Science..

Potom prišla fúzia, ja som prišla o môj excelový dream job a tak som sa vrhla naplno na Courseru. Začala som sa prerábať z excelového analytika na bez-excelového. Dala som si na to pár mesiacov. Podpora z úradu práce a zrušená životná poistka zabezpečili vykrytie hypotéky a základných potrieb, proste investovala som do prerábky samej seba.

Začala som s kurzom ohľadom Relačných databáz a SQL ka, aby som mala prehľad a základy na ťahanie potrebných dát z databázy. Zistila som pravidlá fungovania databáz, naučila sa kresliť ERD diagramy. Ďalej som zistila, že analytici vo francúzsku používajú na analýzu Rko a Python (balíček Pandas) a na data vizualizáciu Tableau alebo Qlik View. Excel stále využívajú ekonomickí analytici.

„Programovania“ sa netreba báť, matematika Vám pomôže

Pokračujem s Rkom, tento krát som nič nenechala na náhodu a kurz som zdolala. Pre človeka, ktorý nemá s programovaním žiadnu skúsenosť to chcelo pochopiť, ako také programovanie funguje. Ako všetko nové, treba sa do toho zahryznúť a prekonať prvé zmiešané pocity. Predsa len, s Excelom sa pracuje trochu inak.

R ko ma výhodu, je to free open source, čo znamená, že si ho môžete kde len chcete nainštalovať a pracovať s ním a upravovať si ho. Predstavuje veľmi flexibilný, hlavne štatistický nástroj, ktorý využíva tisícky nadstavbových packagov, ktoré môže vytvoriť hocikto, aj vy. Prispejete tak k neustále sa rozširujúcej R komunite. To patrí medzi ďalšie výhody Rka. Hocikedy narazíte na problém (určite naňho narazíte niekoľko krát denne), na webe máte k dispozícii veľké a podporné fóra. Otázky, s ktorými sa trápite, už dávno niekto iný zodpovedal. Stačí len pohľadať, napríklad na Stack Overflow.

Rko alebo Python?

Na začiatku som riešila dilemu, Rko versus Python. Pýtala som sa ľudí, robila si názor. A zistila som, že dnes väčšina programovacích jazykov dokáže za pomoci packagov takmer všetko. Čiže je to o preferenciách. Niekto považuje Rko za flexibilnejšie, niekto za komplikované. Pythonisti argumentujú väčšou univerzálnosťou jazyka a jednoduchosťou. Každému, čo je mu po chuti. Ja som sa nakoniec rozhodla pre Rko. Ideálne vedieť viac jazykov 🙂

Data Science for free !

Postupne som absolvovala všetky kurzy z Data Science špecializácie (ale aj data vizualizačný nástroj Tableau) : Data Scientist tool box, Getting and Cleaning Data, Exploratory Data Analysis, Regression Models a momentálne mi beží posledný mesiac s Machine learning a Statistical Inference.

Každý ďalší kurz využíva Rko, čo je super, lebo sa postupne naučíte pracovať s dátami. Od ich zbierania, čistenia, spracovania, analyzovania až po vizualizáciu. Kurzy na Coursere sú zadarmo (ak netrváte na certifikáte, ak áno, za každý počítajte so sumou cca 40 Eur). Poväčšinou sú mesačné a štartujú každý mesiac. Je len na Vás, ako výuku absolvujete. Či si len pozriete videá, alebo natrénujete cez „labáky“ vo Swirle (package Rka).

Každý týždeň Vás čakajú kvízy, na konci odovzdanie projektu. Výuka je praktická, dostanete sa do kontaktu s reálnymi príkladmi a datasetmi, v diskusiách so spolužiakmi poriešite čo potrebujete, alebo ostanete v úplnej anonymite. Akurát počítajte s časovou náročnosťou takých 4-10 hodín týždenne.  Ale stojí to za námahu, naučíte sa napríklad robiť v Rku regresnú analýzu a kresliť takýto „Violin plot“.

2

Zdroj: sk.linkedin.com/in/liviapetrickova

Data Science v praxi

Motiváciou pre rôznorodé využitie týchto súčasných nástrojov (a Rko je jedným z najrýchlejšie rastúcich jazykov čo do používania) sú aj posty na R blogu  (https://www.facebook.com/rbloggers).

Keď viete čo chcete, ide to ľahšie, tak ako so všetkým. Stanovila som si za cieľ pracovať a ďalej rozvíjať zručnosť s týmito nástrojmi a prepracovať sa od Data Analytika k Data Scientistovi. Časový horizont cca 5 rokov. Chytila ma štatistika a regresné modely, lebo v Rku je s ňou radosť pracovať.

Telecom, bankovníctvo alebo experimentálne štúdie?

Keby som mala viacej životov, možno by som sa pustila aj smerom vyhodnocovania experimentálnych štúdií v medicíne. Neviem o podchytení a využití tohto smeru na Slovensku, no vo Francúzsku k tomu treba absolvovať niekoľko mesačný a nie zrovna lacný kurz (cca 4000 Eur), následne urobiť skúšky. Zadarmo odstážovať pár mesiacov a prácu stále nemáte istú. Ak Vás zaujal  tento smer, asi by som skúsila hľadať uplatnenie v Prahe. Tam som podobných  ponúk videla viac.

Chceš byť Data Scientistom ?

S ponukami na pozíciu  Data Scientist je to zatiaľ nesmelé. Big data systémy sa využívajú primárne na udržovanie chodu systémov. Samotné analýzy prichádzajú na radu neskôr, možno práve teraz. Aj keď samotné uchopenie pozície Data Scientistu je zatiaľ skôr cez správu databáz a Warehousov. Preto na pohovore zatiaľ počítajte s technologickým databázovým a sqlkovým testom. No telekomunikačné a bankové inštitúcie už big datami pracujú.

Ďakujem bývalým kolegom

Chcem sa poďakovať aj bývalým kolegom z Piana, ktorí ma k tejto práci inšpirovali  a podporili na diaľku. Vďaka Miro, ušetril si mi kopec času a motivoval v ťažkých začiatkoch. Dobre padlo 🙂

 

Dobrý článok? Chceš dostávať ďalšie?

Už viac ako 4 000 z vás dostáva správy e-mailom. Nemusíš sa báť, nie každé ráno. Len občasne.

Váš email neposkytneme 3tím stranám. Posielame naňho len informácie z robime.it. Kedykoľvek sa môžete odhlásiť.

Livia Petričková

Livia Petričková

Predtým zarytá excelistka, teraz čoraz väčšia fanynka Rka. Hľadá si zaujímavú prácu v mladom a dynamickom teame ako štatistička, data analytička a časom data scientistka. Vo voľnom čase rada husľuje a folklóruje.

3366 total views, 2 today

Tags: , ,