Sémantické vyhľadávanie sa v súvislosti s nárastom počtu informácií, ale často aj s potrebou nájsť rýchlo tie správne informácie, stáva nevyhnutnosťou. Úspešnosť vyhľadávania však závisí aj od dostupnosti zdrojov samotných. Periodické dokumenty predstavujú bohatý a nenahraditeľný zdroj informácií. V súčasnosti, keď ich príprava, či samotné publikovanie je realizované v elektronickej podobe, ich dostupnosť nie je problém. Toto sa ale nedá povedať o tých starších dokumentoch, ktoré existujú len v papierovej podobe, pripadne na mikrofišoch. Procesom digitalizácie môžeme získať ich elektronickú podobu, ale ani to nenahradí ich analytický rozpis, ktorý môžeme vidieť pri vybraných špecializovaných odborných periodikách. Pre používateľa je totiž dôležité, aby ho vyhľadávanie naviedlo na konkrétny článok a nie na celé číslo časopisu.
Preto sme sa rozhodli v našom projekte vyriešiť proces automatizácie takto zdigitalizovaných periodík až na úroveň analytického rozpisu článkov. Aplikácia, ktorá je výsledkom nášho projektu, pomáha knihovníkom pri spracovaní analytického rozpisu archivovaných periodík a sprístupniť ich tak širokému spektru používateľov. Takto spracované periodiká umožnia bežnému používateľovi nielen rýchlejšie nájsť to, čo práve potrebuje, ale následne tiež identifikovať a odhaliť nové poznatky, ktoré tieto staré dokumenty v sebe ukrývajú.
SPRACOVANIE ZDROJOV V SÚČASTNOSTI
Súčasťou procesu digitalizácie je rozpoznávanie znakov, k čomu sa využíva Adobe Recognition Software. Tento umožňuje zdigitalizované obrazy klasických dokumentov stransformovať do špeciálnych XML dokumentov. Takéto súbory, ale aj bežné txt dokumenty, či dokumenty vytvorené v bežných textových editoroch sú tie, na ktoré sa zameriavame a ktoré sú na vstupe do nášho procesu.
Tieto špeciálne XML súbory síce obsahujú množstvo informácií, ale sú to zväčša informácie týkajúce sa formátovania a úpravy textu, čo pre účely vyhľadávania nemá dostatočný význam.
NÁŠ CIEĽ A AKO TO ROBÍME
Našim hlavným cieľom v tomto projekte je, ako sme už uviedli, identifikovať tie informácie, ktoré nám umožnia správne rozpoznať názvy a k nim prislúchajúce texty konkrétnych článkov. Ako to robíme?
KROK 1: PREDSPRACOVANIE ČLÁNKOV
Aby sme mohli pracovať s textom na úrovni článkov, potrebovali sme najprv predspracovať XML súbory tak, aby vo výslednej forme boli paragrafy jednotlivých článkov v rovnakých skupinách. Vykonali sme podrobnú analýzu nad našimi dátami, na základe čoho sme navrhli algoritmus na čo najpresnejšiu automatickú extrakciu článkov. Tento algoritmus je založený na rozpoznávaní nadpisov a textov, a následnom priraďovaní jednotlivých textov k prislúchajúcim nadpisom. Vďaka našej metóde sme už dnes schopní odhaliť až 70% článkov zo vstupných XML súborov jednotlivých čísel periodík.
Následne sa snažíme tieto texty spracovať a identifikovať v nich kľúčové slová, neskôr aj význam, v akom boli tieto slová v danom texte použité. Na základe takto získaných údajov generujeme bibliografické záznamy pre dané číslo periodika, ako aj pre konkrétne články, ktoré sú v ňom obsiahnuté, samozrejme vždy s väzbou na dané číslo periodika. Tieto záznamy generujeme vo formáte MARC21 podľa platných katalogizačných pravidiel, aby s nimi mohli priamo pracovať aj knižnično-informačné systémy. K jednotlivým bibliografickým záznamom ukladáme do nášho repozitára aj plné texty a ich vizualizované obrazy tak, aby boli vzájomne prepojené a používateľ ich mohol získať spolu s bibliografickým záznamom.
KROK 2: WEBOVÁ APLIKÁCIA
Keďže kvalita primárnych zdrojov, ako aj schopnosti OCR nástrojov rozpoznávať znaky, nemusí byť stopercentná, je súčasťou nášho projektu tiež návrh a realizácia aplikácie, ktorá umožňuje zamestnancom inštitúcií pre archiváciu takýchto zdrojov, prípadne iným používateľom, editovať výsledky OCR spracovania, teda umožňuje im priamo opravovať daný text. Rovnako, pomocou tejto aplikácie, môžu upravovať výsledky nášho algoritmu a upresniť, či inak preorganizovať rozdelenie dokumentu na články, pretože vplyvom nekonzistencie tlače a aj iných faktorov, nie je možné garantovať 100%-nú úspešnosť rozpoznania článkov z týchto údajov.
PRÍNOS TOHTO PROJEKTU
Výsledná aplikácia nášho projektu pomáha urýchliť a skvalitniť proces spracovania archivovaných periodických dokumentov a tím ich sprístupniť širokému spektru používateľov. Naše riešenie prináša metódu, ako automatizovať proces extrakcie konkrétnych článkov obsiahnutých v dokumente a zároveň pre každý z nich generovať plnohodnotný bibliografický záznam s väzbou na plný text článku a jeho vizualizovaný obraz. Vďaka výsledkom nášho projektu bude možné značne urýchliť a tiež následne skvalitniť spracovanie periodických dokumentov v tlačenej podobe, čo následne vedie k novým možnostiam sprístupňovania týchto dokumentov, ale tiež k novým možnostiam vyhľadávania v nich, ako aj k odhaľovaniu nových poznatkov, ktoré tieto dokumenty ukrývajú. Bežní používatelia tak získajú nový plnohodnotný zdroj širokého spektra informácií.
O NÁS
Tím Nautilis , to sme my, mladí motivovaní študenti Fakulty informatiky a informačných technológií STU v Bratislave a pod vedením Ing. Nadeždy Andrejčíkovej, PhD., sa snažíme využiť IKT tak, aby priamo pomáhali pri sprístupňovaní kultúrneho dedičstva. Na tomto projekte sme tiež priamo spolupracovali s jednou z popredných našich inštitúcií v tejto oblasti a to s Univerzitnou knižnicou v Bratislave, ktorá okrem iného spravuje rozsiahly fond tlačených periodických dokumentov.