TP CUP 2014: ResearchRank - automatické získavanie ohlasov a ich normalizácia

Vedecké pracoviská fungujú z veľkej časti na základe príjmov z grantov, na ktoré prispieva ministerstvo školstva SR. Ak pracoviská chcú získavať tieto granty, musia sa usilovať o výskumnú činnosť a výsledky z nej publikovať. Výsledky výskumnej činnosti sa okrem vedeckých digitálnych knižníc evidujú v našej krajine do Centrálneho registra publikačnej činnosti (CREPČ).

Jedným zo základných kvalitatívnych ukazovateľov výsledkov výskumnej činnosti je počet ohlasov na publikované diela, čo znamená, že časť daného diela bola citovaná v inom diele. Počet ohlasov predstavuje najmä mieru užitočnosti článku, čím autori preukazujú praktický prínos ich výskumnej činnosti.

Získavanie prehľadu o ohlasoch na autorove vlastné diela je veľmi ťažkou a zdĺhavou manuálnou činnosťou. Záznamy popisujúce jednotlivé diela totiž môžu byť v zdrojových databázach zadané chybne alebo v rôznych variantoch. Informácie o týchto dielach sa napríklad do CREPČ zadávajú manuálne a dôvodom občasnej chyby pri zadávaní je vo väčšine prípadov ľudský faktor.

Cieľom nášho projektu je uľahčiť autorom túto prácu a vytvoriť informačný systém, ktorý umožní automatizovať celý proces párovania záznamov o jednotlivých dielach vo viacerých heterogénnych zdrojoch a následne získavať a spracovávať ohlasy na dané diela. V prvom rade sa pri získavaní ohlasov zameriavame na najprestížnejšie citačné indexy ktorými sú WoS a Scopus a neskôr môžu byť pridané i ďalšie zdroje.

Obr. 1: Zoznam publikácií

Obr. 2: Podobné publikácie

Náš systém je založený na predchádzajúcej práci študentov pod vedením našej vedúcej pani doktorky Andrejčíkovej. Využili sme znalosti a skúsenosti, ktoré naši predchodcovia dosiahli, a vylepšili sme nimi vyvinutý systém. V súlade so štandardmi a s ohľadom na udržiavateľnosť produktu sme navrhli novú modulárnu architektúru. Pretože viaceré komponenty sa môžu meniť často, je navrhnutá tak, aby pridanie nového komponentu alebo zmena existujúceho bola jednoducho realizovateľná.

Pretože zdrojové databázy obsahujú viacero formátov, v ktorých sa údaje nachádzajú, implementovali sme rozhrania, ktoré dokážu spracovávať údaje napríklad vo forme XML exportov z CREPČ, MARC21, UNIMARC alebo v iných formátoch. Taktiež sme vytvorili dátový model, v ktorom dokážeme uložiť všetky údaje, ktoré dané formáty obsahujú.

Dátový model je normalizovaný a jednoducho rozšíriteľný, preto náš systém podporuje pridanie nového vstupného formátu. Modelovali sme v ňom aj základné vzťahy medzi publikáciami, autormi a inštitúciami. Takým vzťahom môže byť napríklad to, že autor pracuje v určitej inštitúcii, publikácia má určitú zdrojovú publikáciu alebo to, že autor má určitých spoluautorov. Okrem základných vzťahov môžeme uvažovať rôzne iné vzťahy, ktoré sa dajú v tejto oblasti odhaľovať.

Jedným z hlavných vylepšení, ktoré sme implementovali, je proces párovania publikácií a autorov. Naštudovali sme viacero algoritmov na porovnávanie dvoch entít, pričom sme porovnávali ich efektívnosť v problémovej oblasti. Implementovali sme algoritmus Jaro-Winkler na porovnávanie dvoch reťazcov a na základe heuristík sme vyvinuli algoritmus na porovnávanie komplexných entít, teda publikácií a autorov. Tým sme dosiahli spoľahlivé párovanie dvoch entít, ktoré odhaľuje preklepy a citlivo rozhoduje o identickosti dvoch objektov.

Získané údaje, priame a odhalené vzťahy medzi publikáciami, autormi a inštitúciami prezentujeme používateľom vo forme webového informačného systému, ktorý je primárne určený pre výskumníkov. Systém im priamo ponúka prehľad získaných ohlasov, ale tiež zoznam diel, ktoré systém z rôznych dôvodov nemohol automaticky plne prepojiť a autor môže sám rozhodnúť, či ide o identické dielo, či ohlas na jeho dielo.

Podstatným prínosom nášho projektu je pripravená infraštruktúra pre hlbšie skúmanie vzťahov medzi dielami, autormi, organizáciami a akciami. Náš projekt zabezpečuje základné činnosti, potrebné pre odhaľovanie týchto vzťahov. Z pohľadu architektúry je naše riešenie pripravené na ďalšie rozširovanie funkcionality.

Vývojový tím tvoria študenti programov Informačné systémy a Softvérové inžinierstvo Fakulty informatiky a informačných technológií Bc. Michael Gloger, Bc. Tomáš Jánošík, Bc. Daniel Kĺč, Bc. Šimon Kompas, Bc. Rastislav Kostrab a Bc. Stanislav Kubica. Naším pedagogickým vedúcim je Ing. Nadežda Andrejčíková, PhD.

Obr. 3: Tím ResearchRank

Sleduj nás na LinkedIn-e

TP CUP 2014: ResearchRank – automatické získavanie ohlasov a ich normalizácia

PREDVYBRANÉ PRACOVNÉ PONUKY »

Odporuč nám kamaráta a pomôžeme mu spolu!

NAJNOVŠIE BLOGY

PyData Slovakia [PyDataSK] a Národné superpočítačové centrum [NSCC] oznámili spoluprácu a pozývajú na v poradí 30. PyData Slovakia Meetup už tento týždeň

Získajte až 1000 € na vzdelávanie, ktoré Vám pomôže lepšie sa udržať a uplatniť na trhu práce!

Startup Weekend Žilina: Zaži víkend, kde sa mení budúcnosť!

Čítaj ďalej:

Služby

Informácie

Sleduj nás