ja.som.it Startup TextMania - Prostredie pre inteligentnú analýzu slovenského textu

TextMania – Prostredie pre inteligentnú analýzu slovenského textu

O ČOM JE NÁŠ PROJEKT?

V súčasnosti nás obklopuje veľké množstvo textu v elektronickej podobe a inteligentná analýza textu je v dnešnej dobe veľmi zaujímavou témou v oblasti informačných technológií. Po schválení viacerých zákonov Európskou úniou týkajúcich sa textov a prejavov na internete, budú nástroje zaoberajúce sa automatizovaným spracovaním textu ešte viac žiadané.

Projekt TextMania vznikol ako odpoveď na problém nedostatku času manuálne analyzovať textové dokumenty, resp. pre potrebu analýzy textu v reálnom čase (segmentácia textu, detekcia tém, určovanie vhodnosti textu pre určité skupiny ľudí a podobne). Nespornou výhodou je podpora slovenského textu, čím v podstate vypĺňa „dieru na trhu“. Výsledky textovej analýzy využijú nielen používatelia pri triedení a filtrovaní svojich článkov, ale aj dátoví vedci pre vylepšovanie algoritmov.

Dnes už síce existujú nástroje zaoberajúce sa spracovaním a vizualizáciou textových dát, avšak žiaden z nich nie je vhodný pre texty v slovenskom jazyku a jeho špecifické črty (napr. rôzne tvary slov). Z tohto dôvodu sme sa v rámci nášho projektu rozhodli vytvoriť webové prostredie pre inteligentnú analýzu textu, ktoré by zjednodušilo vykonávať textovej analýzu nielen dátovým vedcom, ale aj bežným používateľom.

PONÚKANÉ RIEŠENIE?

Cieľom projektu TextMania je vytvoriť prostredie pre inteligentnú analýzu textu napísaného v slovenskom jazyku. Finálny produkt ponúkne možnosť importovať, analyzovať a automaticky spracovať články na základe ich obsahu pre rôzne úlohy klasifikácie textov či extrakcie čŕt. Systém inteligentnej analýzy textu sme sa rozhodli navrhnúť ako webovú aplikáciu.

Na začiatku získame vybrané články (podľa tématiky) zo stránok: wikipédia.sk a webnoviny.sk. Následne ich označíme podľa kategórie, z ktorej boli stiahnuté a uložíme ich do databázy. Ďalej sa vykoná lexikálna a syntaktická analýza vložených textov, aby bolo možné následne aplikovať požadované metódy strojového učenia pre identifikáciu entít v texte či klasifikáciu textu z rôznych hľadísk (napr. určenie témy alebo vhodnosti textu pre určitú vekovú skupinu ľudí). Texty sa analyzujú pomocou pripravených metód spracovania prirodzeného jazyka, ktoré bude možné rozšíriť a vzájomne porovnávať. Ďalej sa vytvorí napr. invertovaný index pre urýchlenie a zjednodušenie vyhľadávania v článkoch a korpusoch, čo tiež umožní identifikovať kroky použitých algoritmov v prípade potreby ich vylepšenia. Pre určenie „relevantnosti“ je zatiaľ použitá extrakcia čŕt pomocou štatistickej metódy tf-idf (term frequency–inverse document frequency), avšak počíta sa s rozšírením o ďalšie algoritmy.

Naše webové riešenie poskytuje aj možnosť skúmať text formou hry, ktorá zobrazí používateľovi náhodne vybranú vetu z niektorého z článkov a používateľ má za úlohu vybrať prislúchajúci korpus a svoj výber podložiť stávkou z bodov (peňazí) pridelených na začiatku hry. Touto formou vieme získať dodatočné dáta, ktoré môžu poslúžiť na vylepšenie použitých algoritmov. Môže byť napríklad zaujímavé porovnávať dáta vypočítané „strojom“ s dátami od reálnych používateľov.

POUŽITÉ TECHNOLÓGIE:

  • Node.js
  • Python Django
  • Angular Framework
  • Express Framework
  • MongoDB

Kto sme?

Náš tím pozostáva z 7 študentov prvého ročníka inžinierskeho štúdia na Slovenskej technickej univerzite – Fakulte informatiky a informačných technológií v Bratislave v odbore Inteligentné softvérové systémy. Projekt Textmania je výsledkom spolupráce nasledujúcich členov tímu: Dávid Csomor, Adam Ďuriš, Alan Kováč, Daniel Kováč, Peter Križan, Patrik Melicherík, Krištof Orlovský. Vedúcim projektu je Ing. Miroslav Blšták.

Dobrý článok? Chceš dostávať ďalšie?

Už viac ako 6 200 ITečkárov dostáva správy e-mailom. Nemusíš sa báť, nie každé ráno. Len občasne.

Súhlasím so spracovaním mojich osobných údajov. ( Viac informácií. )

Tvoj email neposkytneme 3tím stranám. Posielame naňho len informácie z robime.it. Kedykoľvek sa môžeš odhlásiť.

Business Analyst for medical project

Pozícia: Business Analyst Plat: 1700+ EUR/Brutto Lokalita: Košice Zmluva: Full-TimeMedzinárodná spoločnosť a líder vo vývoji digitálnych produktov hľadá obchodného analytika. Spoločnosť prevádzkuje...

ReactNative Developer (Android/iOS)

Pozícia: ReactNative Developer (Android/iOS) Plat: 2000+ EUR/Brutto Lokalita: Banska Bystrica, Žilina, košice Zmluva: Full-TimeMedzinárodná spoločnosť a líder vo vývoji digitálnych produktov hľadá...

Senior Project Manager

Pozícia: Project Manager Plat: 3500+ EUR/Brutto Lokalita: Žilina Zmluva: Full-TimeMedzinárodná spoločnosť a líder vo vývoji digitálnych produktov hľadá senior projektového manažéra. Spoločnosť...

Senior QA Engineer

Pozícia: Senior QA Engineer Plat: 1700 – 2600 EUR/Brutto Lokalita: Košice Zmluva: Full-TimeMedzinárodná spoločnosť a líder vo vývoji digitálnych produktov hľadá senior...

Frontend Developer + 3D vizualizácia

Pozícia: Frontend Developer Pracovný pomer: TPP Miesto práce: Bratislava Plat: 1800+ EUR/Brutto (12 fix + 3,5 variable)  (15.5 platov dokopy)Slovenská IT firma...

.Net/Angular Developer

Pozícia: .Net/Angular Developer Pracovný pomer: TPP, Kontrakt Miesto práce: Bratislava Plat: TPP: 2000 - 3000+ EUR/BruttoVyvíjame systém školení pre študentov. Do nášho...

Odporuč nám kamaráta a pomôžeme mu spolu!

Máš kamaráta, ktorý hľadá prácu v IT? Alebo máš pocit, že sa trápi v tej súčasnej? Potrebuje sa zorientovať...

Scratch Match 2020 priviedol k záujmu o IT ďalšie nádejné programátorky

Vo štvrtok 28. mája 2020 porota celoslovenskej súťaže Scratch Match 2020 už po štvrtý raz ocenila nádejné...

Aké novinky sa dozviete na konferencii Power BI Day ONLINE?

Zaujímate sa o novinky zo sveta Business Intelligence? Posuňte vašu firmu z minulosti...

TP CUP 2020 je tu, vyber najlepší tím!

Každoročná súťaž TP Cup dáva študentom inžinierskeho štúdia príležitosť preukázať svoje schopnosti...

Čítaj ďalej:

Dobrý článok? Chceš dostávať ďalšie?

Už viac ako 6 200 ITečkárov dostáva správy e-mailom. Nemusíš sa báť, nie každé ráno. Len občasne.

Súhlasím so spracovaním mojich osobných údajov. ( Viac informácií. )

Tvoj email neposkytneme 3tím stranám. Posielame naňho len informácie z robime.it. Kedykoľvek sa môžeš odhlásiť.