D O K U M E N T U M A Z O N O S Í T Ó F á j l n é v : sarkozi-lzsofia_elteDH_cikk_kereso.jpg B é l y e g k é p : https://dka.oszk.hu/078300/078376/sarkozi-lzsofia_elteDH_cikk_kereso_kiskep.jpg F ő c í m : A Digitális Örökség Nemzeti Laboratórium internetes újságcikk-kereső és archiváló szolgáltatása B e s o r o l á s i c í m : Digitális Örökség Nemzeti Laboratórium internetes újságcikk-kereső és archiváló szolgáltatása S z e r e p : létrehozó B e s o r o l á s i n é v : Sárközi-Lindner U t ó n é v : Zsófia I n v e r t á l a n d ó n é v : N S z e r e p : létrehozó B e s o r o l á s i n é v : Indig U t ó n é v : Balázs I n v e r t á l a n d ó n é v : N E s e m é n y : felvéve I d ő p o n t : 2021-05-20 E s e m é n y : elérhető I d ő p o n t : 2021-04-08 D á t u m r a v o n a t k o z ó m e g j e g y z é s : Az előadás időpontja. A t í p u s n e v e : prezentáció A t í p u s n e v e : előadás M e g n e v e z é s : Prezentáció M e g n e v e z é s : Könyvtártudomány - prezentáció M e g n e v e z é s : Networkshop 2021 M e g n e v e z é s : Videotorium A j o g t u l a j d o n o s n e v e : Sárközi-Lindner Zsófia, Indig Balázs S z e r z ő i j o g i m e g j e g y z é s e k : Jogvédett T é m a k ö r : Könyvtártan, információtudomány A l t é m a k ö r : Könyvtárvezetés, könyvtárügy T é m a k ö r : Média, tömegkommunikáció A l t é m a k ö r : Online média T é m a k ö r : Média, tömegkommunikáció A l t é m a k ö r : Írott sajtó T é m a k ö r : Könyvtártan, információtudomány A l t é m a k ö r : Elektronikus szöveg és könyvtár T é m a k ö r : Számítástechnika, hálózatok A l t é m a k ö r : Internet használat T á r g y s z ó : könyvtárügy M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : tartalomszolgáltatás M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : keresőszolgáltatás M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : újságcikk M i n ő s í t ő : műfaj T á r g y s z ó : archivált példány M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : on-line katalógus M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : web M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : metaadat M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : jogszabály M i n ő s í t ő : műfaj T á r g y s z ó : 2021 M i n ő s í t ő : időszak K é p a l á í r á s : A Digitális Örökség Nemzeti Laboratórium internetes újságcikk-kereső és archiváló szolgáltatása N y e r s v a g y O C R - e s s z ö v e g : A Digitális Örökség Nemzeti Laboratórium internetes újságcikk-kereső és archiváló szolgáltatása
Sárközi-Lindner Zsófia, Indig Balázs
2021, Budapest
NWS2021
Cikk-kereső
ELTE BTK TI Digitális Bölcsészet Tanszék / Webaratás projekt
Digitális Örökség Nemzeti Laboratórium / Magyar nyelvű anyagok webaratása
Elsődleges céljaink:
archiválás
anyagok tisztítása, metaadatolása, repozitóriumba szervezése
kutatható formában való közzététel
jogi háttér tisztázása
Bevezetés
digitális térben keletkező kulturális örökség
a jövő történeti dokumentumai
nyomtatott sajtó digitalizálása és közzététele vs. online hírportálok
kereshetőség
Az ELTE DH webaratás projektje
webcrawler: saját fejlesztés, szabad szoftver
célzott webaratás = előre meghatározott weboldalak specifikus bejárása
lényege: kevés paraméter konfigurációjával, több ismétlődő szint elemzésére épít.
előnye: duplikáció minimalizálása, alacsony erőforrásigény, fenntarthatóság
Az archiválás formátuma: WARC (Internet Archive, ISO szabvány.)
hitelesített "pillanatfelvételek"
legfontosabb szempontok, előnyök:
eltűnéstől, módosulástól való védelem
az eredeti anyagok bármikor elérhetőek, a hibák utólag javíthatóak
a feldolgozott anyagok reprodukálhatóak és hitelességük az archivált forráskódok segítségével ellenőrizhető
A feldolgozás kimeneti formátuma: TEI XML
Text Encoding Initiative által karbantartott XML szabvány
a bölcsészettudományok különböző szövegeinek modellezésére fejlesztették ki
metaadatokat és a dokumentumtörzs strukturálisan egy fájlban
A Schema.org metaadat-szabvány:
webes erőforrásokkal kapcsolatos információk tárolására tervezték
kompatibilis a szemantikus web technológiával
A szövegtörzs kódolása
a TEI ajánlásokat, szabályokat követve testreszabott sémában
az online cikkek sajátos strukturális-tartalmi egységeit tükrözi
a különböző portálok egységesítésével
Az archivált anyag átdolgozása
A normalizálás, a konzisztencia megteremtése során figyelmet fordítunk:
deskriptív szövegek, multimédiás tartalmak, tipográfiai elemek
releváns szövegegységek és tagolók megkülönböztetése
külső-belső hivatkozási rendszert alkotó linkek megőrzése
"zajos" normalizált, konzisztens, valid
Alapozás: sablonszűrés
Az aktuális portál sémájának feltérképezése: címkekészlet, felépítés kivonata
Kiértékelése: sablonszűrés finomítása, címkekészlet megfeleltetése a használt szövegegység típusoknak
Konvertálás: a konfigurációs fájlok + a kimeneti séma szabályai alapján automatizáltan.
A módszer előnyei és hátrányai
- több időt igényel, mint egy általános, automatikus eszköz
- több karbantartást igényel (konfigurációs fájlok kezelése)
+ teljes kontroll a szövegek kezelése felett
+ a kül. portálok közötti konzisztencia megteremtése ('emberi' szempontok alapján)
+ pontosabb, széleskörűbb metaadatolás
+ a crawling során keletkezett hibák, hiányosságok gyorsabb, pontosabb detektálása (szövegminőség, hiányzó oldalak, további szintek)
+ a tapasztalatok felhasználásával a feldolgozás ideje redukálható, a folyamat automatizálhatóbb
Repozitórium: Zenodo
nyílt hozzáférésű repozitórium, European OpenAIRE program keretében fejlesztették ki, a CERN működteti
tanulmányok, dokumentumok, adatkészletek, szoftverek etc.
minden feltöltött objektumhoz szabványos DOI-t biztosít
50 GB/objektum méretű feltöltéseket tesz lehetővé
A learatott és feldolgozott anyag repozitálásának szisztémája :
(portálonként 3 objektum-típusban reprezentálva)
WARC fájlok + dokumentáció / crawling folyamat (portálonként több objektum)
TEI XML fájlok + konfigurációs fájlok + log-ok 3)
A fenti 2 vagy több objektumot összefogó, azok viszonyát tisztázó "meta-objektum"
Az aratástól a keresőig
A kereső felülete
Technikai háttér: SQL adatbázis, PHP lekérdezőfelület
szabadszöveges + metaadatokban való keresés
kiküszöböli az egyes portálok archívumainak különbségeit
Szerzői jogi szempontok:
a kereső csak a metaadatokat jeleníti meg
linkkel hivatkozik az eredeti cikk URL-jére
a letöltött anyag és a kereső csak kutatók számára, non-profit céllal érhető el
https://cikk-kereso.elte-dh.hu/
Összefoglalás és jövőbeli tervek
Folyamatosan bővülő, hiteles anyag gondozottan, repozitóriumba gyűjtve
Nyílt, átlátható, testreszabható know-how.
Metaadat kereső
A kutatók számára azonnal elérhető!
Szemantikus adatgazdagítás (NLP, NER, Wikifikáció)
Nagyobb automatizálás, kevesebb emberi interakció
https://zenodo.org/communities/elte-dh/
https://github.com/elte-dh
Magyar nyelvű anyagok webaratása - DH-LAB
https://cikk-kereso.elte-dh.hu/
Köszönöm a figyelmet ! D o k u m e n t u m n y e l v e : magyar K a p c s o l ó d ó d o k u m e n t u m n e v e : Ipacs Eszter: Online időszaki kiadványok megőrzése az OSZK Webarchívumában és az EPA-ban A f o r m á t u m n e v e : PowerPoint prezentáció O l d a l a k s z á m a : 12 T e c h n i k a i m e g j e g y z é s : Microsoft Office PowerPoint 2016 M e t a a d a t a d o k u m e n t u m b a n : N A f o r m á t u m n e v e : PDF dokumentum O l d a l a k s z á m a : 12 M e t a a d a t a d o k u m e n t u m b a n : N A f o r m á t u m n e v e : HTML dokumentum T e c h n i k a i m e g j e g y z é s : HTML 5 verzió M e t a a d a t a d o k u m e n t u m b a n : N L e g j o b b f o r m á t u m : JPEG képállomány L e g n a g y o b b k é p m é r e t : 770x433 pixel L e g j o b b f e l b o n t á s : 72 DPI S z í n : színes T ö m ö r í t é s m i n ő s é g e : közepesen tömörített A z a d a t r e k o r d s t á t u s z a : KÉSZ A d o k u m e n t u m s t á t u s z a : INSIDE S z e r e p / m i n ő s é g : katalogizálás A f e l d o l g o z ó n e v e : Nagy Zsuzsanna |