D O K U M E N T U M A Z O N O S Í T Ó F á j l n é v : kpeter_webarch.jpg B é l y e g k é p : http://keptar.oszk.hu/061000/061048/kpeter_webarch_kiskep.jpg F ő c í m : Web harvesztelés B e s o r o l á s i c í m : Web harvesztelés E g y é b c í m : Automatikus módszerekkel M i n ő s í t ő : alcím S z e r e p : létrehozó B e s o r o l á s i n é v : Kovács U t ó n é v : Péter I n v e r t á l a n d ó n é v : N E s e m é n y : felvéve I d ő p o n t : 2016-08-04 E s e m é n y : létrehozva I d ő p o n t : 2010-03-19 D á t u m r a v o n a t k o z ó m e g j e g y z é s : A prezentáció készítésének dátuma A t í p u s n e v e : prezentáció M e g n e v e z é s : Prezentáció M e g n e v e z é s : Könyvtártudomány - prezentáció M e g n e v e z é s : Networkshop C r e a t i v e C o m m o n s k ó d : Attribution-NonCommercial 2.5 T é m a k ö r : Számítástechnika, hálózatok A l t é m a k ö r : Internet általában T é m a k ö r : Számítástechnika, hálózatok A l t é m a k ö r : Internet használat T á r g y s z ó : internet M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : alkalmazás M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : web M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : weblap M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : adatgyűjtés M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : adatfeldolgozás M i n ő s í t ő : tárgyszó/kulcsszó K é p a l á í r á s : Webharvesztelés Automatikus módszerekkel N y e r s v a g y O C R - e s s z ö v e g : Web harvesztelés Automatikus módszerekkel
Kovács Péter
Országos Széchényi Könyvtár
Miről lesz szó?
Mi is az a web harvesztelés?
Mire és hol használjuk? Miért hasznos?
Saját megvalósításaink
Mi a web harvesztelés? (web aratás)
Interneten található weboldalak begyűjtése, majd az adatok feldolgozása (Pl.: kereshetővé tétele)
Lépések
Adatok begyűjtése (crawl)
Feldolgozás (index)
Közzététel (search)
Nem egy új keletű dolog
Mire és hol használjuk a szolgáltatást, miért hasznos?
Főként keresésre használjuk
Otthon, munkahelyen, iskolákban – mindenhol, ahol internet van
Hasznos
Gyors, egyszerű keresés
Szűrési lehetőségek („” , site: stb.)
Tárolt változat
Hasznosak, ingyenesek, DE…
Nem a sajátunk, ezért
Nem azt aratjuk, amit mi szeretnénk
Nem akkor aratunk, amikor mi szeretnénk
Forráskód nincs a birtokukban, ez fejlesztési szempontból hátrány
Harvesztelt adatok sincsenek a birtokunkban
Kulturális értékeket meg kell őrizni, ennek a legjobb módja, ha eltároljuk őket
Saját megoldások
Szerettünk volna olyan megoldást, ahol MI irányítjuk a harvesztelést + adott esetben fejleszteni is tudjuk a szolgáltatást
3 dolog hiányzott: Szerver, tárhely, ember.
Open Source programokat kerestünk
Ingyenesek
Forráskód, beállítások elérhetők
Segítség (Forum, wiki, howto)
Szerver
Teszteléshez használt konfiguráció (Hp Proliant ML350)
2 magos Intel Xeon Processzor (32 bit)
2 GB RAM
SCSI merevlemez
Javasolt szerver konfiguráció (Ideális esetben 3 szerver)
2*2 vagy 1*4 magos processzor (64 bit)
8 GB RAM
SAS vagy SSD merevlemez
Operációs rendszer
Debian linux 5.0 (Lenny)
Linux disztribúciók közül az egyik legjobb
Vannak tapasztalataink
Gyors, stabil, biztonságos
Ingyenes
Felhasznált programok
Crawler – adatok begyűjtését végzi
Indexer - fulltext kereséshez
Indexer – URL kereséshez
Java alap kereső felületekhez használjuk
Folyamat
Adat gyűjtés (Crawl)
Adatok indexelése (Fulltext és URL kereséshez)
Központi adattároló (Storage)
Kereső felületek
Heritrix
Aktuális stabil verzió: 3.0.0
Weboldalak begyűjtését végzi (crawl)
Warc.gz fájlokban tárolja az adatokat
WARC (Web ARChive) fájl – képeket, dokumentumokat stb. is a fájlban tárolunk
Tömörített fájl – helymegtakarítás fontos a nagyobb harveszteléseknél
Szabványnak köszönhetően más programok gond nélkül kezelik
WARC fájl – timestamp (időbélyeg)
Fájl névben van egy időbélyeg – mikor készült a fájl
Minden egyes url mellé a Heritrix szintén hozzáad egy időbélyeget
Pl.: 20090914123124 – Egyedi
Fontos szerepe van
Heritrix - GUI
nutchwax
Jelenlegi stabil verzió 0.13
Begyűjtött adatokat indexeljük vele
I/O műveletek miatt magas memória és gyors merevlemez igény
Index adatbázisban keresünk
Fulltext keresés
Mindent leindexel ami a warc fájlban van
Szöveges dokumentumokban (PDF, DOC, RTF stb.) is kereshetek
Képek, videók, flash fájlok stb nevére kereshetek
Nutchwax - Search
Java alapú kereső, Apache Tomcat alatt fut
Java miatt lassú, nem könnyű szerkeszteni
Nutchwax - Opensearch
Nem kell hozzá Java, HTML alapú
Gyors, könnyű beágyazni weblapokba
Nucthwax – search vs. opensearch
Opensearch - all versions
Wayback machine
Jelenlegi stabil verzió 1.4.2
Szintén a begyűjtött adatokat indexeljük vele
Index adatbázisában keresünk (kisebb méret)
URL-ek keresésére használjuk
Kezeli az időbélyegeket
Azonos URL címek között különbséget tesz
Verziókövetésre kiváló
Timestamp példa
http://www.oszk.hu/index.html aratva lett:
20090914123124 = 2009.09.14 12:31:24
20091023092522 = 2009.10.22 09:25:22
Bár az URL cím ugyanaz, az időbélyeg, mint egy egyedi azonosító megkülönbözteti a 2 harvesztelést
Wayback kereső
www.oszk.hu/index.html - 2009.09.14
www.oszk.hu/index.html - 2009.10.22
Heritrix vs. Google
Hol tartunk, tervek
Tesztelési fázis
Kell még tesztelni
Új szerver – 6.0-ás Debián tesztje
Tervek
Teljes magyar domain (.hu) fél évenkénti, illetve különböző oldalak - események időszakos harvesztelése
Két további szerverre lenne szükség, ezzel kapcsolatban már fordultunk a fenntartókhoz
Forrásanyagok
http://crawler.archive.org/
http://archive-access.sourceforge.net/projects/nutch/
http://www.archive.org/web/web.php
http://tomcat.apache.org/
Köszönöm a figyelmet
kovacs.peter@oszk.hu D o k u m e n t u m n y e l v e : magyar K a p c s o l ó d ó d o k u m e n t u m n e v e : Drótos László: Mi a MIA? Javaslat egy Magyar Internet Archívum létrehozására U R L : http://dka.oszk.hu/030300/030362 A f o r m á t u m n e v e : PowerPoint prezentáció O l d a l a k s z á m a : 28 T e c h n i k a i m e g j e g y z é s : Microsoft Office PowerPoint 2003 M e t a a d a t a d o k u m e n t u m b a n : N A f o r m á t u m n e v e : HTML dokumentum T e c h n i k a i m e g j e g y z é s : HTML 5 verzió M e t a a d a t a d o k u m e n t u m b a n : N L e g j o b b f o r m á t u m : JPEG képállomány L e g n a g y o b b k é p m é r e t : 770x433 pixel L e g j o b b f e l b o n t á s : 96 DPI S z í n : színes T ö m ö r í t é s m i n ő s é g e : közepesen tömörített A z a d a t r e k o r d s t á t u s z a : KÉSZ S z e r e p / m i n ő s é g : katalogizálás A f e l d o l g o z ó n e v e : Nagy Zsuzsanna |