<?xml version='1.0' encoding='iso-8859-2' ?>
<?xml-stylesheet type='text/css' href='/html/lista.css' ?>
<link rel='stylesheet' type='text/css' href='/html/lista.css' ?>
<DKA>
<identifier> 
	<URLOfDoc>https://dka.oszk.hu/078300/078376</URLOfDoc> 
	<Filename>sarkozi-lzsofia_elteDH_cikk_kereso.jpg</Filename>
        <Thumbnail>https://dka.oszk.hu/078300/078376/sarkozi-lzsofia_elteDH_cikk_kereso_kiskep.jpg</Thumbnail> 
</identifier>
<DKAtitle> 
	<MainTitle>A Digitális Örökség Nemzeti Laboratórium internetes újságcikk-kereső és archiváló szolgáltatása</MainTitle>
	<UniformTitle>Digitális Örökség Nemzeti Laboratórium internetes újságcikk-kereső és archiváló szolgáltatása</UniformTitle>
</DKAtitle>
<creator> 
	<RoleOfCreator>létrehozó</RoleOfCreator> 
	<CreatorFamilyName>Sárközi-Lindner</CreatorFamilyName> 
        <CreatorGivenName>Zsófia</CreatorGivenName> 
        <CreatorInvert>N</CreatorInvert>
</creator>
<creator> 
	<RoleOfCreator>létrehozó</RoleOfCreator> 
	<CreatorFamilyName>Indig</CreatorFamilyName> 
        <CreatorGivenName>Balázs</CreatorGivenName> 
        <CreatorInvert>N</CreatorInvert>
</creator>
<date>
        <Pevent>felvéve</Pevent>
        <PdateChar>2021-05-20</PdateChar>
        <Pdate>2021-05-20</Pdate>
</date>
<date>
        <Pevent>elérhető</Pevent>
        <PdateChar>2021-04-08</PdateChar>
        <Pdate>2021-04-08</Pdate>
        <PdateNote>Az előadás időpontja.</PdateNote>
</date>
<type>
        <NameOfType>prezentáció</NameOfType>
        <NameOfType>előadás</NameOfType>
</type>
<subcollection>
        <NameOfCollection>Prezentáció</NameOfCollection>
</subcollection>
<subcollection>
        <NameOfCollection>Könyvtártudomány - prezentáció</NameOfCollection>
</subcollection>
<subcollection>
        <NameOfCollection>Networkshop 2021</NameOfCollection>
</subcollection>
<source>
        <NameOfSource>Videotorium</NameOfSource>
        <URLOfSource>https://kifu.videotorium.hu/hu/recordings/42822/a-digitalis-orokseg-nemzeti-laboratorium-internetes-ujsagcikk-kereso-es-archivalo-szolgaltatasa</URLOfSource>
</source>
<rights>
        <OwnerOfRights>Sárközi-Lindner Zsófia, Indig Balázs</OwnerOfRights>
        <NoteOfRights>Jogvédett</NoteOfRights>
</rights>
<topic>
        <Topic>Könyvtártan, információtudomány</Topic>
        <Subtopic>Könyvtárvezetés, könyvtárügy</Subtopic>
</topic>
<topic>
        <Topic>Média, tömegkommunikáció</Topic>
        <Subtopic>Online média</Subtopic>
</topic>
<topic>
        <Topic>Média, tömegkommunikáció</Topic>
        <Subtopic>Írott sajtó</Subtopic>
</topic>
<topic>
        <Topic>Könyvtártan, információtudomány</Topic>
        <Subtopic>Elektronikus szöveg és könyvtár</Subtopic>
</topic>
<topic>
        <Topic>Számítástechnika, hálózatok</Topic>
        <Subtopic>Internet használat</Subtopic>
</topic>
<subject>
        <Keyword>könyvtárügy</Keyword>
        <SubjectRefinement>tárgyszó/kulcsszó</SubjectRefinement>
</subject>
<subject>
        <Keyword>tartalomszolgáltatás</Keyword>
        <SubjectRefinement>tárgyszó/kulcsszó</SubjectRefinement>
</subject>
<subject>
        <Keyword>keresőszolgáltatás</Keyword>
        <SubjectRefinement>tárgyszó/kulcsszó</SubjectRefinement>
</subject>
<subject>
        <Keyword>újságcikk</Keyword>
        <SubjectRefinement>műfaj</SubjectRefinement>
</subject>
<subject>
        <Keyword>archivált példány</Keyword>
        <SubjectRefinement>tárgyszó/kulcsszó</SubjectRefinement>
</subject>
<subject>
        <Keyword>on-line katalógus</Keyword>
        <SubjectRefinement>tárgyszó/kulcsszó</SubjectRefinement>
</subject>
<subject>
        <Keyword>web</Keyword>
        <SubjectRefinement>tárgyszó/kulcsszó</SubjectRefinement>
</subject>
<subject>
        <Keyword>metaadat</Keyword>
        <SubjectRefinement>tárgyszó/kulcsszó</SubjectRefinement>
</subject>
<subject>
        <Keyword>jogszabály</Keyword>
        <SubjectRefinement>műfaj</SubjectRefinement>
</subject>
<coverage>
        <CoverageKeyword>2021</CoverageKeyword>
        <CoverageRefinement>időszak</CoverageRefinement>
</coverage>
<description>
        <Caption>A Digitális Örökség Nemzeti Laboratórium internetes újságcikk-kereső és archiváló szolgáltatása</Caption>
        <OCRText>A Digitális Örökség Nemzeti Laboratórium internetes újságcikk-kereső és archiváló  szolgáltatása
Sárközi-Lindner Zsófia, Indig Balázs
2021, Budapest
NWS2021
Cikk-kereső
ELTE BTK TI Digitális Bölcsészet Tanszék / Webaratás projekt
Digitális Örökség Nemzeti Laboratórium / Magyar nyelvű anyagok webaratása
Elsődleges céljaink:
archiválás
anyagok tisztítása, metaadatolása, repozitóriumba szervezése
kutatható formában való közzététel
jogi háttér tisztázása
Bevezetés
digitális térben keletkező kulturális örökség
a jövő történeti dokumentumai
nyomtatott sajtó digitalizálása és közzététele vs. online hírportálok
kereshetőség
Az ELTE DH webaratás projektje
webcrawler: saját fejlesztés, szabad szoftver
célzott webaratás = előre meghatározott weboldalak speci&#64257;kus bejárása
lényege: kevés paraméter kon&#64257;gurációjával, több ismétlődő szint elemzésére épít.
előnye: duplikáció minimalizálása, alacsony erőforrásigény, fenntarthatóság
Az archiválás formátuma: WARC (Internet Archive, ISO szabvány.)
hitelesített "pillanatfelvételek"
legfontosabb szempontok, előnyök:
eltűnéstől, módosulástól való védelem
az eredeti anyagok bármikor elérhetőek, a hibák utólag javíthatóak
a feldolgozott anyagok reprodukálhatóak és hitelességük az archivált forráskódok  segítségével ellenőrizhető
A feldolgozás kimeneti formátuma: TEI XML
Text Encoding Initiative által karbantartott XML szabvány
a bölcsészettudományok különböző szövegeinek modellezésére fejlesztették ki
metaadatokat és a dokumentumtörzs strukturálisan egy fájlban
A Schema.org metaadat-szabvány:
webes erőforrásokkal kapcsolatos információk tárolására tervezték
kompatibilis a szemantikus web technológiával
A szövegtörzs kódolása
a TEI ajánlásokat, szabályokat követve testreszabott sémában
az online cikkek sajátos strukturális-tartalmi egységeit tükrözi
a különböző portálok egységesítésével
Az archivált anyag átdolgozása
A normalizálás, a konzisztencia megteremtése során &#64257;gyelmet fordítunk:
deskriptív szövegek, multimédiás tartalmak, tipográ&#64257;ai elemek
releváns szövegegységek és tagolók megkülönböztetése
külső-belső hivatkozási rendszert alkotó linkek megőrzése
"zajos" normalizált, konzisztens, valid
Alapozás: sablonszűrés
Az aktuális portál sémájának feltérképezése: címkekészlet, felépítés kivonata
Kiértékelése: sablonszűrés &#64257;nomítása, címkekészlet megfeleltetése a használt  szövegegység típusoknak
Konvertálás: a kon&#64257;gurációs fájlok + a kimeneti séma szabályai alapján automatizáltan.
A módszer előnyei és hátrányai
- több időt igényel, mint egy általános, automatikus eszköz
- több karbantartást igényel  (kon&#64257;gurációs fájlok kezelése)
+ teljes kontroll a szövegek kezelése felett
+ a kül. portálok közötti konzisztencia megteremtése ('emberi' szempontok alapján)
+ pontosabb, széleskörűbb metaadatolás
+ a crawling során keletkezett hibák, hiányosságok gyorsabb, pontosabb detektálása  (szövegminőség, hiányzó oldalak, további szintek)
+ a tapasztalatok felhasználásával a feldolgozás  ideje redukálható, a folyamat  automatizálhatóbb
Repozitórium: Zenodo
nyílt hozzáférésű repozitórium, European OpenAIRE program keretében fejlesztették  ki, a CERN működteti
tanulmányok, dokumentumok, adatkészletek, szoftverek etc.
minden feltöltött objektumhoz szabványos DOI-t biztosít
50 GB/objektum méretű feltöltéseket tesz lehetővé
A learatott és feldolgozott anyag repozitálásának szisztémája :
(portálonként 3 objektum-típusban reprezentálva)
WARC fájlok + dokumentáció / crawling folyamat	(portálonként több objektum)
TEI XML fájlok + kon&#64257;gurációs fájlok + log-ok  3)
A fenti 2 vagy több objektumot összefogó, azok viszonyát tisztázó "meta-objektum"
Az aratástól a keresőig
A kereső felülete
Technikai háttér: SQL adatbázis, PHP  lekérdezőfelület
szabadszöveges + metaadatokban való keresés
kiküszöböli az egyes portálok archívumainak  különbségeit
Szerzői jogi szempontok:
a kereső csak a metaadatokat jeleníti meg
linkkel hivatkozik az eredeti cikk URL-jére
a letöltött anyag és a kereső csak kutatók számára,  non-pro&#64257;t céllal érhető el
https://cikk-kereso.elte-dh.hu/
Összefoglalás és jövőbeli tervek
Folyamatosan bővülő, hiteles anyag  gondozottan, repozitóriumba gyűjtve
Nyílt, átlátható, testreszabható know-how.
Metaadat kereső
A kutatók számára azonnal elérhető!
Szemantikus adatgazdagítás (NLP, NER, Wiki&#64257;káció)
Nagyobb automatizálás, kevesebb emberi interakció
https://zenodo.org/communities/elte-dh/
https://github.com/elte-dh
Magyar nyelvű anyagok webaratása - DH-LAB
https://cikk-kereso.elte-dh.hu/
Köszönöm a &#64257;gyelmet !</OCRText>
        <LanguageOfDocument>magyar</LanguageOfDocument>
</description>
<relation>
        <NameOfRelation>Ipacs Eszter: Online időszaki kiadványok megőrzése az OSZK Webarchívumában és az EPA-ban</NameOfRelation>
        <URLOfRelation>https://dka.oszk.hu/078300/078364</URLOfRelation>
</relation>
<format>
        <FormatName>PowerPoint prezentáció</FormatName>
        <PageNumber>12</PageNumber>
        <NoteOfTechnology>Microsoft Office PowerPoint 2016</NoteOfTechnology>
        <Metadata>N</Metadata>
</format>
<format>
        <FormatName>PDF dokumentum</FormatName>
        <PageNumber>12</PageNumber>
        <Metadata>N</Metadata>
</format>
<format>
        <FormatName>HTML dokumentum</FormatName>
        <NoteOfTechnology>HTML 5 verzió</NoteOfTechnology>
        <Metadata>N</Metadata>
</format>
<quality>
        <FinestFormat>JPEG képállomány</FinestFormat>
        <MaxImageSize>770x433</MaxImageSize>
        <FinestResolution>72</FinestResolution>
        <ColorOfImage>színes</ColorOfImage>
        <CompressionQuality>közepesen tömörített</CompressionQuality>
</quality>
<status>
        <StatusOfRecord>KÉSZ</StatusOfRecord>
        <StatusOfDocument>INSIDE</StatusOfDocument>
</status>
<operator>
        <RoleOfOperator>katalogizálás</RoleOfOperator>
        <NameOfOperator>Nagy Zsuzsanna</NameOfOperator>
</operator>
</DKA>