ja.som.it Startup NAUTILUS - Pomáhame sprístupniť informácie

NAUTILUS – Pomáhame sprístupniť informácie

Sémantické vyhľadávanie sa v súvislosti s nárastom počtu informácií, ale často aj s potrebou nájsť rýchlo tie správne informácie, stáva nevyhnutnosťou. Úspešnosť vyhľadávania však závisí aj od dostupnosti zdrojov samotných. Periodické dokumenty predstavujú bohatý a nenahraditeľný zdroj informácií. V súčasnosti, keď ich príprava, či samotné publikovanie je realizované v elektronickej podobe, ich dostupnosť nie je problém. Toto sa ale nedá povedať o tých starších dokumentoch, ktoré existujú len v papierovej podobe, pripadne na mikrofišoch. Procesom digitalizácie môžeme získať ich elektronickú podobu, ale ani to nenahradí ich analytický rozpis, ktorý môžeme vidieť pri vybraných špecializovaných odborných periodikách. Pre používateľa je totiž dôležité, aby ho vyhľadávanie naviedlo na konkrétny článok a nie na celé číslo časopisu.

Preto sme sa rozhodli v našom projekte vyriešiť proces automatizácie takto zdigitalizovaných periodík až na úroveň analytického rozpisu článkov. Aplikácia, ktorá je výsledkom nášho projektu, pomáha knihovníkom pri spracovaní analytického rozpisu archivovaných periodík a sprístupniť ich tak širokému spektru používateľov. Takto spracované periodiká umožnia bežnému používateľovi nielen rýchlejšie nájsť to, čo práve potrebuje, ale následne tiež identifikovať a odhaliť nové poznatky, ktoré tieto staré dokumenty v sebe ukrývajú.

SPRACOVANIE ZDROJOV V SÚČASTNOSTI

Súčasťou procesu digitalizácie je rozpoznávanie znakov, k čomu sa využíva Adobe Recognition Software. Tento umožňuje zdigitalizované obrazy klasických dokumentov stransformovať do špeciálnych XML dokumentov. Takéto súbory, ale aj bežné txt dokumenty, či dokumenty vytvorené v bežných textových editoroch sú tie, na ktoré sa zameriavame a ktoré sú na vstupe do nášho procesu.

Tieto špeciálne XML súbory síce obsahujú množstvo informácií, ale sú to zväčša informácie týkajúce sa formátovania a úpravy textu, čo pre účely vyhľadávania nemá dostatočný význam.

NÁŠ CIEĽ A AKO TO ROBÍME

Našim hlavným cieľom v tomto projekte je, ako sme už uviedli, identifikovať tie informácie, ktoré nám umožnia správne rozpoznať názvy a k nim prislúchajúce texty konkrétnych článkov. Ako to robíme?

KROK 1: PREDSPRACOVANIE ČLÁNKOV

Aby sme mohli pracovať s textom na úrovni článkov, potrebovali sme najprv predspracovať XML súbory tak, aby vo výslednej forme boli paragrafy jednotlivých článkov v rovnakých skupinách. Vykonali sme podrobnú analýzu nad našimi dátami, na základe čoho sme navrhli algoritmus na čo najpresnejšiu automatickú extrakciu článkov. Tento algoritmus je založený na rozpoznávaní nadpisov a textov, a následnom priraďovaní jednotlivých textov k prislúchajúcim nadpisom. Vďaka našej metóde sme už dnes schopní odhaliť až 70% článkov zo vstupných XML súborov jednotlivých čísel periodík.

Následne sa snažíme tieto texty spracovať a identifikovať v nich kľúčové slová, neskôr aj význam, v akom boli tieto slová v danom texte použité. Na základe takto získaných údajov generujeme bibliografické záznamy pre dané číslo periodika, ako aj pre konkrétne články, ktoré sú v ňom obsiahnuté, samozrejme vždy s väzbou na dané číslo periodika. Tieto záznamy generujeme vo formáte MARC21 podľa platných katalogizačných pravidiel, aby s nimi mohli priamo pracovať aj knižnično-informačné systémy. K jednotlivým bibliografickým záznamom ukladáme do nášho repozitára aj plné texty a ich vizualizované obrazy tak, aby boli vzájomne prepojené a používateľ ich mohol získať spolu s bibliografickým záznamom.

KROK 2: WEBOVÁ APLIKÁCIA

Keďže kvalita primárnych zdrojov, ako aj schopnosti OCR nástrojov rozpoznávať znaky, nemusí byť stopercentná, je súčasťou nášho projektu tiež návrh a realizácia aplikácie, ktorá umožňuje zamestnancom inštitúcií pre archiváciu takýchto zdrojov, prípadne iným používateľom, editovať výsledky OCR spracovania, teda umožňuje im priamo opravovať daný text. Rovnako, pomocou tejto aplikácie, môžu upravovať výsledky nášho algoritmu a upresniť, či inak preorganizovať rozdelenie dokumentu na články, pretože vplyvom nekonzistencie tlače a aj iných faktorov, nie je možné garantovať 100%-nú úspešnosť rozpoznania článkov z týchto údajov.

PRÍNOS TOHTO PROJEKTU

Výsledná aplikácia nášho projektu pomáha urýchliť a skvalitniť proces spracovania archivovaných periodických dokumentov a tím ich sprístupniť širokému spektru používateľov. Naše riešenie prináša metódu, ako automatizovať proces extrakcie konkrétnych článkov obsiahnutých v dokumente a zároveň pre každý z nich generovať plnohodnotný bibliografický záznam s väzbou na plný text článku a jeho vizualizovaný obraz. Vďaka výsledkom nášho projektu bude možné značne urýchliť a tiež následne skvalitniť spracovanie periodických dokumentov v tlačenej podobe, čo následne vedie k novým možnostiam sprístupňovania týchto dokumentov, ale tiež k novým možnostiam vyhľadávania v nich, ako aj k odhaľovaniu nových poznatkov, ktoré tieto dokumenty ukrývajú. Bežní používatelia tak získajú nový plnohodnotný zdroj širokého spektra informácií.

O NÁS

Tím Nautilis , to sme my, mladí motivovaní študenti Fakulty informatiky a informačných technológií STU v Bratislave a pod vedením Ing. Nadeždy Andrejčíkovej, PhD., sa snažíme využiť IKT tak, aby priamo pomáhali pri sprístupňovaní kultúrneho dedičstva. Na tomto projekte sme tiež priamo spolupracovali s jednou z popredných našich inštitúcií v tejto oblasti a to s Univerzitnou knižnicou v Bratislave, ktorá okrem iného spravuje rozsiahly fond tlačených periodických dokumentov.


Dobrý článok? Chceš dostávať ďalšie?

Už viac ako 6 200 ITečkárov dostáva správy e-mailom. Nemusíš sa báť, nie každé ráno. Len občasne.



Súhlasím so spracovaním mojich osobných údajov. ( Viac informácií. )

Tvoj email neposkytneme 3tím stranám. Posielame naňho len informácie z robime.it. Kedykoľvek sa môžeš odhlásiť.

TP Cup
TP Cuphttp://www.fiit.stuba.sk/tp-cup/index.html
Prestížna súťaž TP Cup dáva študentom inžinierskeho štúdia FIIT v Bratislave príležitosť preukázať svoje schopnosti pri tvorbe jedinečných riešení v rámci predmetu, v ktorom sa v tíme dva semestre vytvára riešenie problému spojeného s odborom, ktorý študenti študujú.

React Senior Developer

Ak si React Developer, nedovoľ, aby ti uletel projekt z oblasti digitálneho bankovníctva.Ide o projekt na kontrakt s odmenou...

Java Technology Architect

Si skúsený Javista, ktorý má chuť viesť projekt digitálneho bankovníctva?Ide o prácu na kontrakt s odmenou od 5000-6000+ EUR/mesačne....

FrontEnd React.js Developer

Chceš pracovať na dlhodobom, technologicky inovatívnom projekte v oblasti prediktívneho modelovania?Pre spoločnosť, ktorá používa matematické metódy a metódy AI...

Mobile Tech Lead Developer

Máš rád svoju slobodu, pracuješ na projektoch, ideálne remote?Ide o kontrakt s odmenou 4000 - 5000+ Eur mesačne. Projekt...

Fronted Developer / Aplikácie pre diabetikov

Páčila by sa Ti zmysluplná práca na produkte - aplikácií, ktorá pomáha ľuďom s tým najcennejším, čo majú -...

Linux Admin

Pre spoločnosť, ktorá sa sa zaoberá hostingom webov a aktuálne rýchlo expanduje, hľadáme Linux Admina.Môžeš pracovať na kontrakt alebo...

Lead Developer Architect

Hľadáš istotu a stabilitu v zamestnaní? Medzinárodná spoločnosť, ktorá vyvíja finančný softvér hľadá Lead Developer Architect-a.Ide o prácu na...

.NET Bratislava Meetup #31

.NET Bratislava Meetup is a monthly meetup organized by .NET enthusiasts in Bratislava. Learn more at https://net-ba.github.io/ Meetup will...

Mária Masárová: V IT je potreba kontinuálneho vzdelávania veľmi dôležitá

Mária Masárová študuje posledný rok na VUT v Brne odbor Bioinformatika a biocomputing. Pracuje ako PHP a JavaScript developer...

Prvá LGBT+ digitálna banková platforma bola spustená v USA. Stojí za tým slovenský aktivista a EY technologický podnikateľ Matej Ftáčnik.

Daylight reaguje na finančné potreby viac ako 30 miliónov Američanov, ktorí sa hlásia k LGBT+ komunite. Táto prvá LGBT+...

Čítaj ďalej:

Dobrý článok? Chceš dostávať ďalšie?

Už viac ako 6 200 ITečkárov dostáva správy e-mailom. Nemusíš sa báť, nie každé ráno. Len občasne.

Súhlasím so spracovaním mojich osobných údajov. ( Viac informácií. )

Tvoj email neposkytneme 3tím stranám. Posielame naňho len informácie z robime.it. Kedykoľvek sa môžeš odhlásiť.