Blog TP CUP 2014: ResearchRank - automatické získavanie ohlasov a ich normalizácia

TP CUP 2014: ResearchRank – automatické získavanie ohlasov a ich normalizácia

Vedecké pracoviská fungujú z veľkej časti na základe príjmov z grantov, na ktoré prispieva ministerstvo školstva SR. Ak pracoviská chcú získavať tieto granty, musia sa usilovať o výskumnú činnosť a výsledky z nej publikovať. Výsledky výskumnej činnosti sa okrem vedeckých digitálnych knižníc evidujú v našej krajine do Centrálneho registra publikačnej činnosti (CREPČ).

Jedným zo základných kvalitatívnych ukazovateľov výsledkov výskumnej činnosti je počet ohlasov na publikované diela, čo znamená, že časť daného diela bola citovaná v inom diele. Počet ohlasov predstavuje najmä mieru užitočnosti článku, čím autori preukazujú praktický prínos ich výskumnej činnosti.

Získavanie prehľadu o ohlasoch na autorove vlastné diela je veľmi ťažkou a zdĺhavou manuálnou činnosťou. Záznamy popisujúce jednotlivé diela totiž môžu byť v zdrojových databázach zadané chybne alebo v rôznych variantoch. Informácie o týchto dielach sa napríklad do CREPČ zadávajú manuálne a dôvodom občasnej chyby pri zadávaní je vo väčšine prípadov ľudský faktor.

Cieľom nášho projektu je uľahčiť autorom túto prácu a vytvoriť informačný systém, ktorý umožní automatizovať celý proces párovania záznamov o jednotlivých dielach vo viacerých heterogénnych zdrojoch a následne získavať a spracovávať ohlasy na dané diela. V prvom rade sa pri získavaní ohlasov zameriavame na najprestížnejšie citačné indexy ktorými sú WoS a Scopus a neskôr môžu byť pridané i ďalšie zdroje.

Obr. 1: Zoznam publikácií

Obr. 2: Podobné publikácie

Náš systém je založený na predchádzajúcej práci študentov pod vedením našej vedúcej pani doktorky Andrejčíkovej. Využili sme znalosti a skúsenosti, ktoré naši predchodcovia dosiahli, a vylepšili sme nimi vyvinutý systém. V súlade so štandardmi a s ohľadom na udržiavateľnosť produktu sme navrhli novú modulárnu architektúru. Pretože viaceré komponenty sa môžu meniť často, je navrhnutá tak, aby pridanie nového komponentu alebo zmena existujúceho bola jednoducho realizovateľná.

Pretože zdrojové databázy obsahujú viacero formátov, v ktorých sa údaje nachádzajú, implementovali sme rozhrania, ktoré dokážu spracovávať údaje napríklad vo forme XML exportov z CREPČ, MARC21, UNIMARC alebo v iných formátoch. Taktiež sme vytvorili dátový model, v ktorom dokážeme uložiť všetky údaje, ktoré dané formáty obsahujú.

Dátový model je normalizovaný a jednoducho rozšíriteľný, preto náš systém podporuje pridanie nového vstupného formátu. Modelovali sme v ňom aj základné vzťahy medzi publikáciami, autormi a inštitúciami. Takým vzťahom môže byť napríklad to, že autor pracuje v určitej inštitúcii, publikácia má určitú zdrojovú publikáciu alebo to, že autor má určitých spoluautorov. Okrem základných vzťahov môžeme uvažovať rôzne iné vzťahy, ktoré sa dajú v tejto oblasti odhaľovať.

Jedným z hlavných vylepšení, ktoré sme implementovali, je proces párovania publikácií a autorov. Naštudovali sme viacero algoritmov na porovnávanie dvoch entít, pričom sme porovnávali ich efektívnosť v problémovej oblasti. Implementovali sme algoritmus Jaro-Winkler na porovnávanie dvoch reťazcov a na základe heuristík sme vyvinuli algoritmus na porovnávanie komplexných entít, teda publikácií a autorov. Tým sme dosiahli spoľahlivé párovanie dvoch entít, ktoré odhaľuje preklepy a citlivo rozhoduje o identickosti dvoch objektov.

Získané údaje, priame a odhalené vzťahy medzi publikáciami, autormi a inštitúciami prezentujeme používateľom vo forme webového informačného systému, ktorý je primárne určený pre výskumníkov. Systém im priamo ponúka prehľad získaných ohlasov, ale tiež zoznam diel, ktoré systém z rôznych dôvodov nemohol automaticky plne prepojiť a autor môže sám rozhodnúť, či ide o identické dielo, či ohlas na jeho dielo.

Podstatným prínosom nášho projektu je pripravená infraštruktúra pre hlbšie skúmanie vzťahov medzi dielami, autormi, organizáciami a akciami. Náš projekt zabezpečuje základné činnosti, potrebné pre odhaľovanie týchto vzťahov. Z pohľadu architektúry je naše riešenie pripravené na ďalšie rozširovanie funkcionality.

Vývojový tím tvoria študenti programov Informačné systémy a Softvérové inžinierstvo Fakulty informatiky a informačných technológií Bc. Michael Gloger, Bc. Tomáš Jánošík, Bc. Daniel Kĺč, Bc. Šimon Kompas, Bc. Rastislav Kostrab a Bc. Stanislav Kubica. Naším pedagogickým vedúcim je Ing. Nadežda Andrejčíková, PhD.

Obr. 3: Tím ResearchRank


Dobrý článok? Chceš dostávať ďalšie?

Už viac ako 6 200 ITečkárov dostáva správy e-mailom. Nemusíš sa báť, nie každé ráno. Len občasne.



Súhlasím so spracovaním mojich osobných údajov. ( Viac informácií. )

Tvoj email neposkytneme 3tím stranám. Posielame naňho len informácie z robime.it. Kedykoľvek sa môžeš odhlásiť.

Junior / Senior Java Backend Software Engineer

JOB Position: Java Backend Software Engineer Contract type: TPP, Contract Location: Bratislava Salary Junior: 1500 EUR/Brutto Salary Senior: 2200 EUR/Brutto Rate: 3000 -4000 EUR/monthlyPrimary Job...

Senior Sieťový Špecialista

PRÁCA Pozícia: Sieťový špecialista Pracovný pomer:  TPP Miesto práce: Bratislava, on-site Plat: od 1700+ EUR/Brutto/mesačneHlavné zodpovednosti:Navrhuje architektúru, štruktúru a IP adresácie multiplatformových LAN/MAN/WAN sietí ...

Data Mining Expert

PRÁCA Pozícia: Data Mining Expert Pracovný pomer:  TPP Miesto práce: Bratislava, on-site Plat: od 2000+ EUR/Brutto/mesačneAké výzvy ťa čakajú?Vynikajúca pracovná príležitosť pre nadšenca práca...

Artificial Intelligence Consultant

JOB Position: Artificial Intelligence Consultant Contract type: Full-Time Location: Bratislava Salary: 2000 EUR/Brutto/monthsResponsibilities:conceptual processing and development of the new solutions in the area e.g....

Artificial Intelligence Expert

JOB Position: Artificial Intelligence Expert Contract type: Full-Time Location: Bratislava Salary: 2000 EUR/Brutto/monthsSuccessful adaptation of technologies like machine learning, deep learning, artificial inteligence will determine companies...

Senior Front-end / Angular Developer / Tvorba serverovej a aplikačnej logiky

PRÁCA Pozícia: FE/ Angular developer Pracovný pomer:  TPP, živnosť Miesto práce: Bratislava, Prievidza, Žilina Plat: od 1700+ EUR/Brutto/mesačneNáplň práce:Spolupráca na vývoji SW...

Senior .NET/Angular developer

PRÁCA Pozícia: .NET/Angular developer Pracovný pomer:  TPP Miesto práce: Bratislava, on-site Plat: od 1700+ EUR/Brutto/mesačneČo bude Vašou náplňou práce:spolupodieľanie sa na vývoji SW riešenia...

Nexteria – IT Club

Prednášky, diskusie, workshopy priamo od expertov z praxe.    Prepájame študentov a ľudí, ktorí...

Campus cowork

Campus cowork je medzinárodný coworking v Bratislave s dvoma lokáciami. Campus MLYNY...

Čo sme stihli v roku 2019

Každý rok je niečím špeciálny a rok 2019 nie je výnimkou. V...

Čítaj ďalej:

Dobrý článok? Chceš dostávať ďalšie?

Už viac ako 6 200 ITečkárov dostáva správy e-mailom. Nemusíš sa báť, nie každé ráno. Len občasne.

Súhlasím so spracovaním mojich osobných údajov. ( Viac informácií. )

Tvoj email neposkytneme 3tím stranám. Posielame naňho len informácie z robime.it. Kedykoľvek sa môžeš odhlásiť.