Blog TP CUP 2014: ResearchRank - automatické získavanie ohlasov a ich normalizácia

TP CUP 2014: ResearchRank – automatické získavanie ohlasov a ich normalizácia

Vedecké pracoviská fungujú z veľkej časti na základe príjmov z grantov, na ktoré prispieva ministerstvo školstva SR. Ak pracoviská chcú získavať tieto granty, musia sa usilovať o výskumnú činnosť a výsledky z nej publikovať. Výsledky výskumnej činnosti sa okrem vedeckých digitálnych knižníc evidujú v našej krajine do Centrálneho registra publikačnej činnosti (CREPČ).

Jedným zo základných kvalitatívnych ukazovateľov výsledkov výskumnej činnosti je počet ohlasov na publikované diela, čo znamená, že časť daného diela bola citovaná v inom diele. Počet ohlasov predstavuje najmä mieru užitočnosti článku, čím autori preukazujú praktický prínos ich výskumnej činnosti.

Získavanie prehľadu o ohlasoch na autorove vlastné diela je veľmi ťažkou a zdĺhavou manuálnou činnosťou. Záznamy popisujúce jednotlivé diela totiž môžu byť v zdrojových databázach zadané chybne alebo v rôznych variantoch. Informácie o týchto dielach sa napríklad do CREPČ zadávajú manuálne a dôvodom občasnej chyby pri zadávaní je vo väčšine prípadov ľudský faktor.

Cieľom nášho projektu je uľahčiť autorom túto prácu a vytvoriť informačný systém, ktorý umožní automatizovať celý proces párovania záznamov o jednotlivých dielach vo viacerých heterogénnych zdrojoch a následne získavať a spracovávať ohlasy na dané diela. V prvom rade sa pri získavaní ohlasov zameriavame na najprestížnejšie citačné indexy ktorými sú WoS a Scopus a neskôr môžu byť pridané i ďalšie zdroje.

Obr. 1: Zoznam publikácií

Obr. 2: Podobné publikácie

Náš systém je založený na predchádzajúcej práci študentov pod vedením našej vedúcej pani doktorky Andrejčíkovej. Využili sme znalosti a skúsenosti, ktoré naši predchodcovia dosiahli, a vylepšili sme nimi vyvinutý systém. V súlade so štandardmi a s ohľadom na udržiavateľnosť produktu sme navrhli novú modulárnu architektúru. Pretože viaceré komponenty sa môžu meniť často, je navrhnutá tak, aby pridanie nového komponentu alebo zmena existujúceho bola jednoducho realizovateľná.

Pretože zdrojové databázy obsahujú viacero formátov, v ktorých sa údaje nachádzajú, implementovali sme rozhrania, ktoré dokážu spracovávať údaje napríklad vo forme XML exportov z CREPČ, MARC21, UNIMARC alebo v iných formátoch. Taktiež sme vytvorili dátový model, v ktorom dokážeme uložiť všetky údaje, ktoré dané formáty obsahujú.

Dátový model je normalizovaný a jednoducho rozšíriteľný, preto náš systém podporuje pridanie nového vstupného formátu. Modelovali sme v ňom aj základné vzťahy medzi publikáciami, autormi a inštitúciami. Takým vzťahom môže byť napríklad to, že autor pracuje v určitej inštitúcii, publikácia má určitú zdrojovú publikáciu alebo to, že autor má určitých spoluautorov. Okrem základných vzťahov môžeme uvažovať rôzne iné vzťahy, ktoré sa dajú v tejto oblasti odhaľovať.

Jedným z hlavných vylepšení, ktoré sme implementovali, je proces párovania publikácií a autorov. Naštudovali sme viacero algoritmov na porovnávanie dvoch entít, pričom sme porovnávali ich efektívnosť v problémovej oblasti. Implementovali sme algoritmus Jaro-Winkler na porovnávanie dvoch reťazcov a na základe heuristík sme vyvinuli algoritmus na porovnávanie komplexných entít, teda publikácií a autorov. Tým sme dosiahli spoľahlivé párovanie dvoch entít, ktoré odhaľuje preklepy a citlivo rozhoduje o identickosti dvoch objektov.

Získané údaje, priame a odhalené vzťahy medzi publikáciami, autormi a inštitúciami prezentujeme používateľom vo forme webového informačného systému, ktorý je primárne určený pre výskumníkov. Systém im priamo ponúka prehľad získaných ohlasov, ale tiež zoznam diel, ktoré systém z rôznych dôvodov nemohol automaticky plne prepojiť a autor môže sám rozhodnúť, či ide o identické dielo, či ohlas na jeho dielo.

Podstatným prínosom nášho projektu je pripravená infraštruktúra pre hlbšie skúmanie vzťahov medzi dielami, autormi, organizáciami a akciami. Náš projekt zabezpečuje základné činnosti, potrebné pre odhaľovanie týchto vzťahov. Z pohľadu architektúry je naše riešenie pripravené na ďalšie rozširovanie funkcionality.

Vývojový tím tvoria študenti programov Informačné systémy a Softvérové inžinierstvo Fakulty informatiky a informačných technológií Bc. Michael Gloger, Bc. Tomáš Jánošík, Bc. Daniel Kĺč, Bc. Šimon Kompas, Bc. Rastislav Kostrab a Bc. Stanislav Kubica. Naším pedagogickým vedúcim je Ing. Nadežda Andrejčíková, PhD.

Obr. 3: Tím ResearchRank


Dobrý článok? Chceš dostávať ďalšie?

Už viac ako 6 200 ITečkárov dostáva správy e-mailom. Nemusíš sa báť, nie každé ráno. Len občasne.



Súhlasím so spracovaním mojich osobných údajov. ( Viac informácií. )

Tvoj email neposkytneme 3tím stranám. Posielame naňho len informácie z robime.it. Kedykoľvek sa môžeš odhlásiť.

TP Cup
TP Cuphttp://www.fiit.stuba.sk/tp-cup/index.html
Prestížna súťaž TP Cup dáva študentom inžinierskeho štúdia FIIT v Bratislave príležitosť preukázať svoje schopnosti pri tvorbe jedinečných riešení v rámci predmetu, v ktorom sa v tíme dva semestre vytvára riešenie problému spojeného s odborom, ktorý študenti študujú.

Scala Developer/ka

Máš rád svoju slobodu, pracuješ na projektoch, ideálne remote? Staň sa súčasťou startupu, ktorý buduje platformu na podporu maloobchodu a...

Java Software Architect

Mrháš svojim talentom? Urob prvý krok a zistí čo Ti dnešok ponúka. Medziiným aj prácu v medzinárodnej IT spoločnosti,...

Back-End Developer / REMOTE

Pracuj na svetovom SW produkte, ktorý je používaný miliónmi používateľov! Firma rýchlo rastie a vyvíja nové features. Poznáme ich prostredie...

FullStack PHP Developer

Chcel by si dlhodobú spoluprácu, dobré pracovné podmienky, seriózny prístup? Hľadáme FullStack PHP Developera pre spoločnosť, ktorá sa zaoberá...

Python Medior/Senior Developer

Si Python developer, chceš sa naučiť Go, ideálne remote? Spoločnosť, ktorá sa zaoberá pokročilou analýzou dát a automatizáciou marketingu...

Data Scientist / REMOTE

Pre mladý startup vyvíjajúci softvér, ktorý prispieva hráčom k lepšiemu zážitku z hrania, hľadáme Data Scientist. Založili ho dvaja...

IT Aplikačný Architekt

Chceš stabilné zamestnanie, vychutnávať si skvelý kolektív a mať priestor na realizáciu svojich riešení? Pre spoločnosť pôsobiacu v energetike...

Zapojte sa do prvého NCC hackathonu!

Nenechajte si ujsť prvý hackathon Národného kompetenčného centra pre HPC a využite jedinečnú príležitosť podieľať sa na vývoji aplikácie,...

Zviditeľnite sa v médiách ako odborník v oblasti IT

Zaujímajú vás novinky zo sveta IT a chýbajú vám v médiách? Pomôžte budovať povedomie v oblasti informačných technológií a...

Súťaž Scracth Match 2021 zaznamenala nárast, dominovali jej edukatívne hry

Porota celoslovenskej súťaže Scratch Match 2021 už po piaty raz ocenila nádejné programátorky vo veku 8-15 okov. Medzi ocenenými...

Čítaj ďalej:

Dobrý článok? Chceš dostávať ďalšie?

Už viac ako 6 200 ITečkárov dostáva správy e-mailom. Nemusíš sa báť, nie každé ráno. Len občasne.

Súhlasím so spracovaním mojich osobných údajov. ( Viac informácií. )

Tvoj email neposkytneme 3tím stranám. Posielame naňho len informácie z robime.it. Kedykoľvek sa môžeš odhlásiť.