ja.som.it Startup WEB EXTRACTION - Extrakcia dát z webu

WEB EXTRACTION – Extrakcia dát z webu

Viacero ľudí, či už z odbornej praxe alebo pre rôzne iné účely navštevuje pravidelne webové stránky za účelom zistenia si informácií. Môžu si vytvárať rôzne štatistiky, zbierajú dáta z rôznych domén a podôb do jednej, prehľadnejšej podoby a pod.

Samotná aktivita, ktorá spočíva v pravidelnom a opakujúcom sa vyhľadávaní je pomerne otravná a zaberá zbytočný čas a energiu. Tento fakt bol pre náš tím motiváciou. Vyvinúť aplikáciu, ktorá by spomenutú aktivitu automatizovala, čím by sa ušetrilo množstvo času a energie používateľom.

Aké riešenie ponúkame?

Pri návrhu riešenia sa dbalo na fakt, aby službu mohli používať aj menej skúsení používatelia, no na druhej strane, aby ponúkla funkcionalitu aj používateľom skúsenejším, či náročnejším. Náš systém automaticky, na základe používateľom definovaných intervalov sťahuje dáta zo stránok podľa vopred definovaného skriptu. Skladá sa z dvoh základných častí, a to webovej aplikácie a rozšírenia do prehliadača Google Chrome.

Webová aplikácia poskytuje správu používateľov (prihlásenia a registráciu), manažment projektov používateľa (projekty predstavujú určitú doménu, do ktorej sa extrahované dáta zaraďujeme), zahŕňajúci definíciu a správu dátových polí. Okrem toho aplikácia poskytuje prehľad vykonaných extrakcií, spolu so štatistickými informáciami a výsledným stavom extrakcie. Dáta získané počas extrakcie sú tak isto k dispozícií, pričom používateľ si ich môže aj stiahnuť pomocou API alebo vo formáte CSV.

Príklad rozhrania webovej aplikácie

Rozšírenie do prehliadača Chrome pokytuje rozhranie, ktorým si používateľ pre požadovanú stránku zvolí elementy, ktoré chce extrahovať. Dáta, ktoré záska je možné po extrahovaní spracovať pomocou post-procesorov (napr. vykonať vnorenú extrakciu, vyčistiť text od prebytočných znakov na začiatku a na konci a pod.)

Ukážka rozhrania rozšírenia do prehliadača Google Chrome

Porovnanie s alternatívami

Oproti už existujúcim riešeniam náš systém ponúka už skôr spomenutú možnosť plánovania extrakcií (pravidelne sa opakujúce extrahovanie), zobrazenie výsledkov v prehľadných tabuľkách, podľa definovaných polí daného projektu a najmä možnosť využiť pre získanie dát API alebo CSV formát.

Ďalšým pozitívom je základná myšlienka, ktorá sprevádza projekt od začiatku a to je kladenie dôrazu na použiteľnosť. Ponúkaný systém je vhodný pre rôzne typy používateľov a nevyžaduje podrobnú znalosť problematiky extrakcie dát.

Kto sme?

Náš tím s názvom WebX at FIIT STU (WebX = Web eXtraction) tvorí partia 7 študentov (Ján Brechtl, Tomáš Juhaniak, Martin Kalužník, Rastislav Krchňavý, Michal Kren, Martin Lacek a Andrej Vaculčiak), z ktorých každý sa zameriava na svoju špecifickú oblasť záujmu (od sietí, cez server administrátora, developerov, až po front-end developera web aplikácií). Pomiešanie tejto zmesi rôznych zameraní z nás ale vytvorilo dobre fungujúci tím, v ktorom každý vie, aká je jeho úloha. Spojili sme svoje sily a vydali sa na cestu riešenia pomerne aktuálneho problému.

V prípade, že sa chcete o našom projekte dozvedieť viac, môžete nás kontaktovať buď


Dobrý článok? Chceš dostávať ďalšie?

Už viac ako 6 200 ITečkárov dostáva správy e-mailom. Nemusíš sa báť, nie každé ráno. Len občasne.



Súhlasím so spracovaním mojich osobných údajov. ( Viac informácií. )

Tvoj email neposkytneme 3tím stranám. Posielame naňho len informácie z robime.it. Kedykoľvek sa môžeš odhlásiť.

Senior Sieťový Špecialista

PRÁCA Pozícia: Sieťový špecialista Pracovný pomer:  TPP Miesto práce: Bratislava, on-site Plat: od 1700+ EUR/Brutto/mesačneHlavné zodpovednosti:Navrhuje architektúru, štruktúru a IP adresácie multiplatformových LAN/MAN/WAN sietí ...

Data Mining Expert

PRÁCA Pozícia: Data Mining Expert Pracovný pomer:  TPP Miesto práce: Bratislava, on-site Plat: od 2000+ EUR/Brutto/mesačneAké výzvy ťa čakajú?Vynikajúca pracovná príležitosť pre nadšenca práca...

Artificial Intelligence Consultant

JOB Position: Artificial Intelligence Consultant Contract type: Full-Time Location: Bratislava Salary: 2000 EUR/Brutto/monthsResponsibilities:conceptual processing and development of the new solutions in the area e.g....

Artificial Intelligence Expert

JOB Position: Artificial Intelligence Expert Contract type: Full-Time Location: Bratislava Salary: 2000 EUR/Brutto/monthsSuccessful adaptation of technologies like machine learning, deep learning, artificial inteligence will determine companies...

Senior Front-end / Angular Developer / Tvorba serverovej a aplikačnej logiky

PRÁCA Pozícia: FE/ Angular developer Pracovný pomer:  TPP, živnosť Miesto práce: Bratislava, Prievidza, Žilina Plat: od 1700+ EUR/Brutto/mesačneNáplň práce:Spolupráca na vývoji SW...

Senior .NET/Angular developer

PRÁCA Pozícia: .NET/Angular developer Pracovný pomer:  TPP Miesto práce: Bratislava, on-site Plat: od 1700+ EUR/Brutto/mesačneČo bude Vašou náplňou práce:spolupodieľanie sa na vývoji SW riešenia...

Senior SAP XI/PI/PO Konzultant

Základné informáciePozícia: Senior SAP XI/PI/PO Konzultant Pracovný pomer:  TPP, Živnosť Miesto práce: 95% Homeoffice - 5% on-site - Bratislava/nemecko Plat: od 2500...

Srdečne ťa pozývame na stretnutie DDD Community – Analýza domény

Na začiatku nového roka sa zameriame na analytické uchopenie domény pomocou DDD....

TOP 10 skillov programátora

Chceš vedieť na akých 10 skillov by si sa ako programátor mal/a zamerať? Sú to skilly, ktoré ti pomôžu si nájsť prácu, či byť označovaný/á ako "guru".

SanDisk Connect Wireless Stick

Je USB kľúč, ktorý má vo svojom tele vo veľkosti necelých 8x2 cm zabudovanú batériu a wifi...

Čítaj ďalej:

Dobrý článok? Chceš dostávať ďalšie?

Už viac ako 6 200 ITečkárov dostáva správy e-mailom. Nemusíš sa báť, nie každé ráno. Len občasne.

Súhlasím so spracovaním mojich osobných údajov. ( Viac informácií. )

Tvoj email neposkytneme 3tím stranám. Posielame naňho len informácie z robime.it. Kedykoľvek sa môžeš odhlásiť.