Asi každý začínajúci analytik sa zaoberá otázkou či sa začať učiť R alebo Python, keď chce robiť analýzu dát. Ja osobne mám skúsenosť s Rkom, nakoľko sa ho učíme v škole, avšak k diplomovej práci, ktorá sa bude zaoberať analýzou dát a predikciou, mi bolo odporúčané robiť v Pythone. Preto som začala pátrať a skúmať, ktorý z týchto dvoch programovacích jazykov je na to vhodnejší. Základy v Pythone som sa učila pomocou aplikácie SoloLearn a neprišlo mi to nejako náročné, ale to ani Rko 🙂
Ak by som mala spraviť jednoduchý záver z toho, čo som si prečítala z viacerých článkov o porovnávaní Rka a Pythona, tak ani v jednom sa nezhodli na tom, ktorý z nich je všeobecne lepší. Závisí naozaj od toho, čo chcete s dátami robiť a do akej miery sa chcete „ponoriť” do sveta data science.
Ktorý je používanejší?
Prieskum KDnuggets, webstránky, kde nájdete veľa zaujímavých informácii o data science, jasne ukazuje, že Python sa teší väčšej popularite aj medzi analytikmi. Na rozdiel od roku 2016, kedy bolo medzi analytikmi (zahŕňam sem štatistikov, data scientistov a každého kto pracuje v tejto oblasti) najpoužívanejšie Rko, v roku 2018 to vyhral Python. Dôvodom je najmä rozmach machine learningu, ale aj ďalšia výhoda Pythonu, a to jednoduché napojenie na web či webovú aplikáciu, odkiaľ si vie rýchlo a bez problémov „naťahať” dáta. Preto ak viete, že budete úlohy dátovej analýzy integrovať s webovou aplikáciou alebo produkčnou databázou, odporúča sa pracovať v Pythone.
Ktorý je jednoduchší?
Vo všeobecnosti sa Python považuje za jednoduchší programovací jazyk. Jeho syntax je intuitívna, kód prehľadný. Odporúča sa aj pre úplnych začiatočníkov v programovaní. Nemyslím si však, že jazyk R je ťažký. Práve naopak, bol vytvorený pre štatistikov, pre spracovanie, analyzovanie dát a vykonanie jednoduchších či zložitejších štatistických metód. Preto ak vám ide „iba” o čisto štatistiku ako takú, s Rkom budete spokojní. Určite však odporúčam prečítať si tento blog od Dataquest, kde aj reálne uvidíte porovnanie kódov v Rku a Pythone na jednoduchých úlohách.
Na nasledujúcom obrázku možeme vidieť porovnanie R a Pythona pri kalkulácii funkcie summary (podáva výsledky z modelu). V tomto prípade má výhodu Rko lebo je táto funkcia (ako aj mnohé ďalšie štatistické funkcie) zabudované priamo v ňom. Kdežto do Pythona musíte naimportovať balík statsmodel.
Záver
Obidva programovacie jazyky sú voľne dostupné, k obidvom máte na internete veľa tutoriálov a komunít, kde vám vedia pomôcť pri riešení problému. Ak s programovaním začínate, dobré základy z Rka nájdete na DataCampe, k Pythonu som našla tento free kurz, ktorý si v blízkej budúcnosti plánujem prejsť.
Ak sa chcete pohrať iba so štatistikou, zanalyzovať dáta a spraviť z nich výskum, odporúča sa na začiatok Rko. Obsahuje všetko, čo k tomu potrebujete. Môj subjektívny názor je, že je to taká základná výbava dátového analytika. Ak vás to bude baviť a budete chcieť alebo už chcete robiť komplikovanješie algoritmy, metódy s veľkými datasetmi prepojenými na aplikácie, odporúča sa naučiť aj Python. Výhoda pri ovládaní jazyka Python je aj tá, že ak by vás svet data science omrzel, s Pythonom môžete skúsiť napríklad aj web development (vývoj webu).
Budem rada, ak sa v komentároch podelíte o svoje skúsenosti s týmito programovacími jazykmi.