ja.som.it Startup NAUTILUS - Pomáhame sprístupniť informácie

NAUTILUS – Pomáhame sprístupniť informácie

Sémantické vyhľadávanie sa v súvislosti s nárastom počtu informácií, ale často aj s potrebou nájsť rýchlo tie správne informácie, stáva nevyhnutnosťou. Úspešnosť vyhľadávania však závisí aj od dostupnosti zdrojov samotných. Periodické dokumenty predstavujú bohatý a nenahraditeľný zdroj informácií. V súčasnosti, keď ich príprava, či samotné publikovanie je realizované v elektronickej podobe, ich dostupnosť nie je problém. Toto sa ale nedá povedať o tých starších dokumentoch, ktoré existujú len v papierovej podobe, pripadne na mikrofišoch. Procesom digitalizácie môžeme získať ich elektronickú podobu, ale ani to nenahradí ich analytický rozpis, ktorý môžeme vidieť pri vybraných špecializovaných odborných periodikách. Pre používateľa je totiž dôležité, aby ho vyhľadávanie naviedlo na konkrétny článok a nie na celé číslo časopisu.

Preto sme sa rozhodli v našom projekte vyriešiť proces automatizácie takto zdigitalizovaných periodík až na úroveň analytického rozpisu článkov. Aplikácia, ktorá je výsledkom nášho projektu, pomáha knihovníkom pri spracovaní analytického rozpisu archivovaných periodík a sprístupniť ich tak širokému spektru používateľov. Takto spracované periodiká umožnia bežnému používateľovi nielen rýchlejšie nájsť to, čo práve potrebuje, ale následne tiež identifikovať a odhaliť nové poznatky, ktoré tieto staré dokumenty v sebe ukrývajú.

SPRACOVANIE ZDROJOV V SÚČASTNOSTI

Súčasťou procesu digitalizácie je rozpoznávanie znakov, k čomu sa využíva Adobe Recognition Software. Tento umožňuje zdigitalizované obrazy klasických dokumentov stransformovať do špeciálnych XML dokumentov. Takéto súbory, ale aj bežné txt dokumenty, či dokumenty vytvorené v bežných textových editoroch sú tie, na ktoré sa zameriavame a ktoré sú na vstupe do nášho procesu.

Tieto špeciálne XML súbory síce obsahujú množstvo informácií, ale sú to zväčša informácie týkajúce sa formátovania a úpravy textu, čo pre účely vyhľadávania nemá dostatočný význam.

NÁŠ CIEĽ A AKO TO ROBÍME

Našim hlavným cieľom v tomto projekte je, ako sme už uviedli, identifikovať tie informácie, ktoré nám umožnia správne rozpoznať názvy a k nim prislúchajúce texty konkrétnych článkov. Ako to robíme?

KROK 1: PREDSPRACOVANIE ČLÁNKOV

Aby sme mohli pracovať s textom na úrovni článkov, potrebovali sme najprv predspracovať XML súbory tak, aby vo výslednej forme boli paragrafy jednotlivých článkov v rovnakých skupinách. Vykonali sme podrobnú analýzu nad našimi dátami, na základe čoho sme navrhli algoritmus na čo najpresnejšiu automatickú extrakciu článkov. Tento algoritmus je založený na rozpoznávaní nadpisov a textov, a následnom priraďovaní jednotlivých textov k prislúchajúcim nadpisom. Vďaka našej metóde sme už dnes schopní odhaliť až 70% článkov zo vstupných XML súborov jednotlivých čísel periodík.

Následne sa snažíme tieto texty spracovať a identifikovať v nich kľúčové slová, neskôr aj význam, v akom boli tieto slová v danom texte použité. Na základe takto získaných údajov generujeme bibliografické záznamy pre dané číslo periodika, ako aj pre konkrétne články, ktoré sú v ňom obsiahnuté, samozrejme vždy s väzbou na dané číslo periodika. Tieto záznamy generujeme vo formáte MARC21 podľa platných katalogizačných pravidiel, aby s nimi mohli priamo pracovať aj knižnično-informačné systémy. K jednotlivým bibliografickým záznamom ukladáme do nášho repozitára aj plné texty a ich vizualizované obrazy tak, aby boli vzájomne prepojené a používateľ ich mohol získať spolu s bibliografickým záznamom.

KROK 2: WEBOVÁ APLIKÁCIA

Keďže kvalita primárnych zdrojov, ako aj schopnosti OCR nástrojov rozpoznávať znaky, nemusí byť stopercentná, je súčasťou nášho projektu tiež návrh a realizácia aplikácie, ktorá umožňuje zamestnancom inštitúcií pre archiváciu takýchto zdrojov, prípadne iným používateľom, editovať výsledky OCR spracovania, teda umožňuje im priamo opravovať daný text. Rovnako, pomocou tejto aplikácie, môžu upravovať výsledky nášho algoritmu a upresniť, či inak preorganizovať rozdelenie dokumentu na články, pretože vplyvom nekonzistencie tlače a aj iných faktorov, nie je možné garantovať 100%-nú úspešnosť rozpoznania článkov z týchto údajov.

PRÍNOS TOHTO PROJEKTU

Výsledná aplikácia nášho projektu pomáha urýchliť a skvalitniť proces spracovania archivovaných periodických dokumentov a tím ich sprístupniť širokému spektru používateľov. Naše riešenie prináša metódu, ako automatizovať proces extrakcie konkrétnych článkov obsiahnutých v dokumente a zároveň pre každý z nich generovať plnohodnotný bibliografický záznam s väzbou na plný text článku a jeho vizualizovaný obraz. Vďaka výsledkom nášho projektu bude možné značne urýchliť a tiež následne skvalitniť spracovanie periodických dokumentov v tlačenej podobe, čo následne vedie k novým možnostiam sprístupňovania týchto dokumentov, ale tiež k novým možnostiam vyhľadávania v nich, ako aj k odhaľovaniu nových poznatkov, ktoré tieto dokumenty ukrývajú. Bežní používatelia tak získajú nový plnohodnotný zdroj širokého spektra informácií.

O NÁS

Tím Nautilis , to sme my, mladí motivovaní študenti Fakulty informatiky a informačných technológií STU v Bratislave a pod vedením Ing. Nadeždy Andrejčíkovej, PhD., sa snažíme využiť IKT tak, aby priamo pomáhali pri sprístupňovaní kultúrneho dedičstva. Na tomto projekte sme tiež priamo spolupracovali s jednou z popredných našich inštitúcií v tejto oblasti a to s Univerzitnou knižnicou v Bratislave, ktorá okrem iného spravuje rozsiahly fond tlačených periodických dokumentov.


Dobrý článok? Chceš dostávať ďalšie?

Už viac ako 6 200 ITečkárov dostáva správy e-mailom. Nemusíš sa báť, nie každé ráno. Len občasne.



Súhlasím so spracovaním mojich osobných údajov. ( Viac informácií. )

Tvoj email neposkytneme 3tím stranám. Posielame naňho len informácie z robime.it. Kedykoľvek sa môžeš odhlásiť.

TP Cup
TP Cuphttp://www.fiit.stuba.sk/tp-cup/index.html
Prestížna súťaž TP Cup dáva študentom inžinierskeho štúdia FIIT v Bratislave príležitosť preukázať svoje schopnosti pri tvorbe jedinečných riešení v rámci predmetu, v ktorom sa v tíme dva semestre vytvára riešenie problému spojeného s odborom, ktorý študenti študujú.

C/C++ Developer

Chce to niečo výnimočné? Zmeň prostredie a získaj nadšenie z práce! Spoločnosť, ktorá vyvíja hardvérové čipy hľadá C/C++ Developera. Zakladateľ...

Senior UX/UI Designer

Senior UX/UI Designer_Accenture_IT001 Máš rád voľnosť, pracuješ na projektoch, ideálne remote? Ide o projekt na kontrakt s odmenou 4000 - 5000+...

Front End Developer

Pracuj na svetovom SW produkte, ktorý je používaný miliónmi používateľov! Firma rýchlo rastie a vyvíja nové features. Poznáme ich prostredie...

IT Architekt

Chceš stabilné zamestnanie, vychutnávať si skvelý kolektív a mať priestor na realizáciu svojich riešení? Pre spoločnosť pôsobiacu v energetike...

Data Scientist / REMOTE

Pre mladý startup vyvíjajúci softvér, ktorý prispieva hráčom k lepšiemu zážitku z hrania, hľadáme Data Scientist. Založili ho dvaja...

Python Medior/Senior Developer

Si Python developer, chceš sa naučiť Go, ideálne remote? Spoločnosť, ktorá sa zaoberá pokročilou analýzou dát a automatizáciou marketingu...

FullStack PHP Developer

Chcel by si dlhodobú spoluprácu, dobré pracovné podmienky, seriózny prístup? Hľadáme FullStack PHP Developera pre spoločnosť, ktorá sa zaoberá...

Angelika Fogášová: aby technológie neboli na školách strašiakom

Angelika bola učiteľkou informatiky na základnej škole, je spoluzakladateľkou projektu Informatika 2.0, ktorého cieľom je pomôcť všetkým učiteľom informatiky...

Spoznaj robime.it tím, ktorý zabojuje v CS:GO na firemnej e-športovej lige

12.10. začala pod záštitou Y-zone Firemná e-športová liga. Ide o jedinečný teambuilding určený pre všetkých zamestnancov, ktorí sa chcú...

Prehľad o všetkom dôležitom v IT za dva dni – TechEd Online 2021

19. ročník najväčšej československej IT odbornej konferencie Informácie o novinkách z prestížnych odborných konferencií a seminárov organizovaných po celom svete Prednášky zamerané na...

Čítaj ďalej:

Dobrý článok? Chceš dostávať ďalšie?

Už viac ako 6 200 ITečkárov dostáva správy e-mailom. Nemusíš sa báť, nie každé ráno. Len občasne.

Súhlasím so spracovaním mojich osobných údajov. ( Viac informácií. )

Tvoj email neposkytneme 3tím stranám. Posielame naňho len informácie z robime.it. Kedykoľvek sa môžeš odhlásiť.