Kovács Péter: Web harvesztelés : Automatikus módszerekkel [DKA metaadatok]

D O K U M E N T U M A Z O N O S Í T Ó

U R L : http://keptar.oszk.hu/061000/061048

F á j l n é v : kpeter_webarch.jpg

B é l y e g k é p : http://keptar.oszk.hu/061000/061048/kpeter_webarch_kiskep.jpg

C Í M

F ő c í m : Web harvesztelés

B e s o r o l á s i c í m : Web harvesztelés

E G Y É B C Í M

E g y é b c í m : Automatikus módszerekkel

M i n ő s í t ő : alcím

A L K O T Ó

S z e r e p : létrehozó

B e s o r o l á s i n é v : Kovács

U t ó n é v : Péter

I n v e r t á l a n d ó n é v : N

D Á T U M

E s e m é n y : felvéve

I d ő p o n t : 2016-08-04

E s e m é n y : létrehozva

I d ő p o n t : 2010-03-19

D á t u m r a v o n a t k o z ó m e g j e g y z é s : A prezentáció készítésének dátuma

D O K U M E N T U M T Í P U S

A t í p u s n e v e : prezentáció

R É S Z G Y Ű J T E M É N Y

M e g n e v e z é s : Prezentáció

M e g n e v e z é s : Könyvtártudomány - prezentáció

E R E D E T I K I A D V Á N Y , O B J E K T U M

S Z Á R M A Z Á S I H E L Y

M e g n e v e z é s : Networkshop

U R L : https://nws.niif.hu/ncd2010/docs/phu/241.pdf

J O G K E Z E L É S

C r e a t i v e C o m m o n s k ó d : Attribution-NonCommercial 2.5

T É M A

T é m a k ö r : Számítástechnika, hálózatok

A l t é m a k ö r : Internet általában

T é m a k ö r : Számítástechnika, hálózatok

A l t é m a k ö r : Internet használat

T Á R G Y S Z Ó

T á r g y s z ó : internet

M i n ő s í t ő : tárgyszó/kulcsszó

T á r g y s z ó : alkalmazás

M i n ő s í t ő : tárgyszó/kulcsszó

T á r g y s z ó : web

M i n ő s í t ő : tárgyszó/kulcsszó

T á r g y s z ó : weblap

M i n ő s í t ő : tárgyszó/kulcsszó

T á r g y s z ó : adatgyűjtés

M i n ő s í t ő : tárgyszó/kulcsszó

T á r g y s z ó : adatfeldolgozás

M i n ő s í t ő : tárgyszó/kulcsszó

I D Ő - H E L Y T Á R G Y S Z Ó

L E Í R Á S

K é p a l á í r á s : Webharvesztelés Automatikus módszerekkel

N y e r s v a g y O C R - e s s z ö v e g : Web harvesztelés Automatikus módszerekkel Kovács Péter Országos Széchényi Könyvtár Miről lesz szó? Mi is az a web harvesztelés? Mire és hol használjuk? Miért hasznos? Saját megvalósításaink Mi a web harvesztelés? (web aratás) Interneten található weboldalak begyűjtése, majd az adatok feldolgozása (Pl.: kereshetővé tétele) Lépések Adatok begyűjtése (crawl) Feldolgozás (index) Közzététel (search) Nem egy új keletű dolog Mire és hol használjuk a szolgáltatást, miért hasznos? Főként keresésre használjuk Otthon, munkahelyen, iskolákban – mindenhol, ahol internet van Hasznos Gyors, egyszerű keresés Szűrési lehetőségek („” , site: stb.) Tárolt változat Hasznosak, ingyenesek, DE… Nem a sajátunk, ezért Nem azt aratjuk, amit mi szeretnénk Nem akkor aratunk, amikor mi szeretnénk Forráskód nincs a birtokukban, ez fejlesztési szempontból hátrány Harvesztelt adatok sincsenek a birtokunkban Kulturális értékeket meg kell őrizni, ennek a legjobb módja, ha eltároljuk őket Saját megoldások Szerettünk volna olyan megoldást, ahol MI irányítjuk a harvesztelést + adott esetben fejleszteni is tudjuk a szolgáltatást 3 dolog hiányzott: Szerver, tárhely, ember. Open Source programokat kerestünk Ingyenesek Forráskód, beállítások elérhetők Segítség (Forum, wiki, howto) Szerver Teszteléshez használt konfiguráció (Hp Proliant ML350) 2 magos Intel Xeon Processzor (32 bit) 2 GB RAM SCSI merevlemez Javasolt szerver konfiguráció (Ideális esetben 3 szerver) 2*2 vagy 1*4 magos processzor (64 bit) 8 GB RAM SAS vagy SSD merevlemez Operációs rendszer Debian linux 5.0 (Lenny) Linux disztribúciók közül az egyik legjobb Vannak tapasztalataink Gyors, stabil, biztonságos Ingyenes Felhasznált programok Crawler – adatok begyűjtését végzi Indexer - fulltext kereséshez Indexer – URL kereséshez Java alap kereső felületekhez használjuk Folyamat Adat gyűjtés (Crawl) Adatok indexelése (Fulltext és URL kereséshez) Központi adattároló (Storage) Kereső felületek Heritrix Aktuális stabil verzió: 3.0.0 Weboldalak begyűjtését végzi (crawl) Warc.gz fájlokban tárolja az adatokat WARC (Web ARChive) fájl – képeket, dokumentumokat stb. is a fájlban tárolunk Tömörített fájl – helymegtakarítás fontos a nagyobb harveszteléseknél Szabványnak köszönhetően más programok gond nélkül kezelik WARC fájl – timestamp (időbélyeg) Fájl névben van egy időbélyeg – mikor készült a fájl Minden egyes url mellé a Heritrix szintén hozzáad egy időbélyeget Pl.: 20090914123124 – Egyedi Fontos szerepe van Heritrix - GUI nutchwax Jelenlegi stabil verzió 0.13 Begyűjtött adatokat indexeljük vele I/O műveletek miatt magas memória és gyors merevlemez igény Index adatbázisban keresünk Fulltext keresés Mindent leindexel ami a warc fájlban van Szöveges dokumentumokban (PDF, DOC, RTF stb.) is kereshetek Képek, videók, flash fájlok stb nevére kereshetek Nutchwax - Search Java alapú kereső, Apache Tomcat alatt fut Java miatt lassú, nem könnyű szerkeszteni Nutchwax - Opensearch Nem kell hozzá Java, HTML alapú Gyors, könnyű beágyazni weblapokba Nucthwax – search vs. opensearch Opensearch - all versions Wayback machine Jelenlegi stabil verzió 1.4.2 Szintén a begyűjtött adatokat indexeljük vele Index adatbázisában keresünk (kisebb méret) URL-ek keresésére használjuk Kezeli az időbélyegeket Azonos URL címek között különbséget tesz Verziókövetésre kiváló Timestamp példa http://www.oszk.hu/index.html aratva lett: 20090914123124 = 2009.09.14 12:31:24 20091023092522 = 2009.10.22 09:25:22 Bár az URL cím ugyanaz, az időbélyeg, mint egy egyedi azonosító megkülönbözteti a 2 harvesztelést Wayback kereső www.oszk.hu/index.html - 2009.09.14 www.oszk.hu/index.html - 2009.10.22 Heritrix vs. Google Hol tartunk, tervek Tesztelési fázis Kell még tesztelni Új szerver – 6.0-ás Debián tesztje Tervek Teljes magyar domain (.hu) fél évenkénti, illetve különböző oldalak - események időszakos harvesztelése Két további szerverre lenne szükség, ezzel kapcsolatban már fordultunk a fenntartókhoz Forrásanyagok http://crawler.archive.org/ http://archive-access.sourceforge.net/projects/nutch/ http://www.archive.org/web/web.php http://tomcat.apache.org/ Köszönöm a figyelmet kovacs.peter@oszk.hu

D o k u m e n t u m n y e l v e : magyar

K A P C S O L A T O K

K a p c s o l ó d ó d o k u m e n t u m n e v e : Drótos László: Mi a MIA? Javaslat egy Magyar Internet Archívum létrehozására

U R L : http://dka.oszk.hu/030300/030362

F O R M Á T U M

A f o r m á t u m n e v e : PowerPoint prezentáció

O l d a l a k s z á m a : 28

T e c h n i k a i m e g j e g y z é s : Microsoft Office PowerPoint 2003

M e t a a d a t a d o k u m e n t u m b a n : N

A f o r m á t u m n e v e : HTML dokumentum

T e c h n i k a i m e g j e g y z é s : HTML 5 verzió

M e t a a d a t a d o k u m e n t u m b a n : N

M I N Ő S É G

L e g j o b b f o r m á t u m : JPEG képállomány

L e g n a g y o b b k é p m é r e t : 770x433 pixel

L e g j o b b f e l b o n t á s : 96 DPI

S z í n : színes

T ö m ö r í t é s m i n ő s é g e : közepesen tömörített

S T Á T U S Z

A z a d a t r e k o r d s t á t u s z a : KÉSZ

F E L D O L G O Z Ó

S z e r e p / m i n ő s é g : katalogizálás

A f e l d o l g o z ó n e v e : Nagy Zsuzsanna