Blog TP CUP 2014: ResearchRank - automatické získavanie ohlasov a ich normalizácia

TP CUP 2014: ResearchRank – automatické získavanie ohlasov a ich normalizácia

Vedecké pracoviská fungujú z veľkej časti na základe príjmov z grantov, na ktoré prispieva ministerstvo školstva SR. Ak pracoviská chcú získavať tieto granty, musia sa usilovať o výskumnú činnosť a výsledky z nej publikovať. Výsledky výskumnej činnosti sa okrem vedeckých digitálnych knižníc evidujú v našej krajine do Centrálneho registra publikačnej činnosti (CREPČ).

Jedným zo základných kvalitatívnych ukazovateľov výsledkov výskumnej činnosti je počet ohlasov na publikované diela, čo znamená, že časť daného diela bola citovaná v inom diele. Počet ohlasov predstavuje najmä mieru užitočnosti článku, čím autori preukazujú praktický prínos ich výskumnej činnosti.

Získavanie prehľadu o ohlasoch na autorove vlastné diela je veľmi ťažkou a zdĺhavou manuálnou činnosťou. Záznamy popisujúce jednotlivé diela totiž môžu byť v zdrojových databázach zadané chybne alebo v rôznych variantoch. Informácie o týchto dielach sa napríklad do CREPČ zadávajú manuálne a dôvodom občasnej chyby pri zadávaní je vo väčšine prípadov ľudský faktor.

Cieľom nášho projektu je uľahčiť autorom túto prácu a vytvoriť informačný systém, ktorý umožní automatizovať celý proces párovania záznamov o jednotlivých dielach vo viacerých heterogénnych zdrojoch a následne získavať a spracovávať ohlasy na dané diela. V prvom rade sa pri získavaní ohlasov zameriavame na najprestížnejšie citačné indexy ktorými sú WoS a Scopus a neskôr môžu byť pridané i ďalšie zdroje.

Obr. 1: Zoznam publikácií

Obr. 2: Podobné publikácie

Náš systém je založený na predchádzajúcej práci študentov pod vedením našej vedúcej pani doktorky Andrejčíkovej. Využili sme znalosti a skúsenosti, ktoré naši predchodcovia dosiahli, a vylepšili sme nimi vyvinutý systém. V súlade so štandardmi a s ohľadom na udržiavateľnosť produktu sme navrhli novú modulárnu architektúru. Pretože viaceré komponenty sa môžu meniť často, je navrhnutá tak, aby pridanie nového komponentu alebo zmena existujúceho bola jednoducho realizovateľná.

Pretože zdrojové databázy obsahujú viacero formátov, v ktorých sa údaje nachádzajú, implementovali sme rozhrania, ktoré dokážu spracovávať údaje napríklad vo forme XML exportov z CREPČ, MARC21, UNIMARC alebo v iných formátoch. Taktiež sme vytvorili dátový model, v ktorom dokážeme uložiť všetky údaje, ktoré dané formáty obsahujú.

Dátový model je normalizovaný a jednoducho rozšíriteľný, preto náš systém podporuje pridanie nového vstupného formátu. Modelovali sme v ňom aj základné vzťahy medzi publikáciami, autormi a inštitúciami. Takým vzťahom môže byť napríklad to, že autor pracuje v určitej inštitúcii, publikácia má určitú zdrojovú publikáciu alebo to, že autor má určitých spoluautorov. Okrem základných vzťahov môžeme uvažovať rôzne iné vzťahy, ktoré sa dajú v tejto oblasti odhaľovať.

Jedným z hlavných vylepšení, ktoré sme implementovali, je proces párovania publikácií a autorov. Naštudovali sme viacero algoritmov na porovnávanie dvoch entít, pričom sme porovnávali ich efektívnosť v problémovej oblasti. Implementovali sme algoritmus Jaro-Winkler na porovnávanie dvoch reťazcov a na základe heuristík sme vyvinuli algoritmus na porovnávanie komplexných entít, teda publikácií a autorov. Tým sme dosiahli spoľahlivé párovanie dvoch entít, ktoré odhaľuje preklepy a citlivo rozhoduje o identickosti dvoch objektov.

Získané údaje, priame a odhalené vzťahy medzi publikáciami, autormi a inštitúciami prezentujeme používateľom vo forme webového informačného systému, ktorý je primárne určený pre výskumníkov. Systém im priamo ponúka prehľad získaných ohlasov, ale tiež zoznam diel, ktoré systém z rôznych dôvodov nemohol automaticky plne prepojiť a autor môže sám rozhodnúť, či ide o identické dielo, či ohlas na jeho dielo.

Podstatným prínosom nášho projektu je pripravená infraštruktúra pre hlbšie skúmanie vzťahov medzi dielami, autormi, organizáciami a akciami. Náš projekt zabezpečuje základné činnosti, potrebné pre odhaľovanie týchto vzťahov. Z pohľadu architektúry je naše riešenie pripravené na ďalšie rozširovanie funkcionality.

Vývojový tím tvoria študenti programov Informačné systémy a Softvérové inžinierstvo Fakulty informatiky a informačných technológií Bc. Michael Gloger, Bc. Tomáš Jánošík, Bc. Daniel Kĺč, Bc. Šimon Kompas, Bc. Rastislav Kostrab a Bc. Stanislav Kubica. Naším pedagogickým vedúcim je Ing. Nadežda Andrejčíková, PhD.

Obr. 3: Tím ResearchRank


Dobrý článok? Chceš dostávať ďalšie?

Už viac ako 6 200 ITečkárov dostáva správy e-mailom. Nemusíš sa báť, nie každé ráno. Len občasne.



Súhlasím so spracovaním mojich osobných údajov. ( Viac informácií. )

Tvoj email neposkytneme 3tím stranám. Posielame naňho len informácie z robime.it. Kedykoľvek sa môžeš odhlásiť.

TP Cup
TP Cuphttp://www.fiit.stuba.sk/tp-cup/index.html
Prestížna súťaž TP Cup dáva študentom inžinierskeho štúdia FIIT v Bratislave príležitosť preukázať svoje schopnosti pri tvorbe jedinečných riešení v rámci predmetu, v ktorom sa v tíme dva semestre vytvára riešenie problému spojeného s odborom, ktorý študenti študujú.

Automation Tester

Máš skúsenosti s automatizovaným testovaním? Pre Automatizovaného testera máme príležitosť v oblasti digitálneho bankovníctva. Ide o projekt na kontrakt s odmenou...

Java Junior/Medior Developer

Osamostatni sa a pracuj sólo! Práve teraz je tu príležitosť pre Junior/Medior Java Developera pracovať na projekte pre medzinárodnú...

MS BI Developer / REMOTE

Sprav krok vpred s novým projektom v oblasti bankovníctva. Ide o projekt na kontrakt s dĺžkou trvania 2 roky. Odmena...

Business Development Manager

Máš skúsenosť s aktívnymi akvizíciami SW riešení pre banky/poisťovne? Pre stabilnú československú spoločnosť hľadáme Business Development Managera, ktorý sa vyzná...

Julia Developer / REMOTE

Projekt pre nadšencov Julia a machine learning. Pre spoločnosť, ktorá používa matematické metódy a metódy AI / ML na...

Scala Medior/Senior Developer

Nechceš denne dochádzať do práce? Chcel by si byť súčasťou dlhoročného startupu, len senior ľudia (žiadni študenti) a pracovať...

Junior Scala Developer

Nechceš denne dochádzať do práce? Chcel by si byť súčasťou dlhoročného startupu, len senior ľudia (žiadni študenti) a pracovať...

Čo sa udialo na internete v roku 2020?

Slovensko sa v roku 2020 naučilo niekoľko nových slovíčok a nadobudlo mnoho nových digitálnych zručností. Pojmy ako videokonferencia, práca na diaľku /...

Toto sme stihli v roku 2020!

Rok 2020 bol určite neobyčajným rokom pre mnohých nielen z oblasti IT. Presunuli sme sa z kancelárií a open...

Tieto projekty získajú podporu z fondu SK-NIC

Poslednú tohtoročnú výzvu Fondu SK-NIC sme vyhlásili 1. septembra 2020 a otvorená bola až do 15. októbra. Do termínu uzávierky prišlo rekordných...

Čítaj ďalej:

Dobrý článok? Chceš dostávať ďalšie?

Už viac ako 6 200 ITečkárov dostáva správy e-mailom. Nemusíš sa báť, nie každé ráno. Len občasne.

Súhlasím so spracovaním mojich osobných údajov. ( Viac informácií. )

Tvoj email neposkytneme 3tím stranám. Posielame naňho len informácie z robime.it. Kedykoľvek sa môžeš odhlásiť.