D O K U M E N T U M A Z O N O S Í T Ó F á j l n é v : nemeth_marton_webarchivum.jpg B é l y e g k é p : https://dka.oszk.hu/121400/121435/nemeth_marton_webarchivum_kiskep.jpg F ő c í m : Webarchívum mint a tudományos kutatások tárgya B e s o r o l á s i c í m : Webarchívum mint a tudományos kutatások tárgya S z e r e p : létrehozó B e s o r o l á s i n é v : Németh U t ó n é v : Márton I n v e r t á l a n d ó n é v : N E s e m é n y : felvéve I d ő p o n t : 2019-09-09 E s e m é n y : létrehozva I d ő p o n t : 2019-04-26 D á t u m r a v o n a t k o z ó m e g j e g y z é s : Az előadás dátuma. A t í p u s n e v e : prezentáció M e g n e v e z é s : Prezentáció M e g n e v e z é s : Könyvtártudomány - prezentáció M e g n e v e z é s : OSZK MEK S z e r z ő i j o g i m e g j e g y z é s e k : Nem jogvédett T é m a k ö r : Könyvtártan, információtudomány A l t é m a k ö r : Könyvtárvezetés, könyvtárügy T é m a k ö r : Számítástechnika, hálózatok A l t é m a k ö r : Internetes technológia T é m a k ö r : Könyvtártan, információtudomány A l t é m a k ö r : Elektronikus szöveg és könyvtár T á r g y s z ó : web M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : dokumentumgyűjtemény M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : kutatás M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : internetszolgáltatás M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : adatkezelés M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : szemantikus web M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : 2019 M i n ő s í t ő : időszak
L E Í R Á S N y e r s v a g y O C R - e s s z ö v e g : Németh Márton
Országos Széchényi Könyvtár
Webarchívum mint a
tudományos kutatások tárgya
A kutatás digitális forrásai
Az archivált webes anyagok önmagukban is a tudományos kutatás tárgyául szolgálhatnak.
Könyvtárosok, levéltárosok, információtudósok, digitális bölcsészeti szakemberek, adattudósok és informatikus szoftverfejlesztők dolgozhatnak együtt nagymennyiségű webes adattömegek strukturális és tartalmi alapú vizsgálatában.
A legutóbbi tíz évben új tudományos diszciplínák születnek - pl. webtörténelem.
Fő témakörök
Web történelem és web historiográfia
Webarchívumok és nagymennyiségű adatok (big data)
Webarchívumok és a szemantikus világháló
Web történelem és web historiográfia
Digitális Bölcsészet
(Nyílt hozzáférésű tudományos folyóirat)
A kutatás tárgya
A világháló műszaki infrastruktúrájának története;
A világháló kommunikációs és publikációs felületének története;
Egy adott témakör, esemény, intézmény, személy stb. világhálós történeti lenyomatának vizsgálata;
Szöveges vagy vizuális webes tartalmak illetve webes naplófájlok mint a big data elemzés tárgyai (pl. gépi tanulás a felhasználói szokások, viselkedés elemzésére).
A világháló műszaki infrastruktúrájának története;
A világháló kommunikációs és publikációs felületének története;
Egy adott témakör, esemény, intézmény, személy stb. világhálós történeti lenyomatának vizsgálata;
Szöveges vagy vizuális webes tartalmak illetve webes naplófájlok mint a big data elemzés tárgyai (pl. gépi tanulás a felhasználói szokások, viselkedés elemzésére).
A kutatás szintjei
Egyedi fájlok vagy weboldalak;
Egyedi webhely(ek);
Egyedi domén(ek);
Az egész világháló
Kihívások, problémák
Hiányos memento, archívum vagy megjelenítési hibák;
Temporal drift és live web leakage (egy adott weboldal vagy webhely egyes részeinek különféle időszakokban archivált részei amelyek egységes keretben jelennek meg)
Az archivált fájlok hitelessége;
Duplikátumok és URL cím megváltozása;
Egy adott domén tartalmának teljes megváltozása, stb.
A nemzeti webarchívumok közös kereshetőségének, kutatási infrastruktúrájának megteremtése - Niels Brügger EU-projekt terve -Transnational Research Use of Web ARChives (TRUeWARC).
Webarchívumok és a nagymennyiségű adatok kezelése
A webarchívumok mint nagyméretű webes korpuszok számos adattudományi projekt középpontjában állnak.
A nyílt kapcsolt adatok koncepciója kapcsán a webarchívumokban tárolt, részben strukturált adatok feldolgozása, illetve rejtett, releváns információk feltárása.
Újfajta együttműködési lehetőségek közgyűjtemények, webarchiváló szakemberek és adattudósok között.
Adattípusok és adatbányászati tevékenységek fajtái
Webtranzakciós adatok (pl. naplófájlok, geolokáció);
Strukturált adatok (pl. linkgráfok) ;
A tartalomhoz kötődő adatok (pl. szöveges vagy vizuális információk).
Adatbányászat és webhasználat;
Adatbányászat és webes struktúrák;
Adatbányászat és webes tartalmak.
Példa: BUDDAH (Big UK Domain Data for the Arts and Humanities)
65 TB begyűjtött tartalom
Az .uk domain 1996 és 2013 között;
SHINE történeti keresőmotor;
Trendek vizsgálata;
Információ vizualizáció ...
honlap: buddah.projects.history.ac.uk
Webarchívumok és a szemantikus web
Az archivált tartalmak hatékony és a tartalmi jelentésre irányuló visszakeresési módszereinek hiánya komoly akadálya annak, hogy a webarchívumokat használható és hasznos információforrássá lehessen alakítani.
Jelentős információtudományi kihívás a szemantikus webes módszerek és eszközök meghonosítása a webarchívumok környezetében.
A webarchívumoknak részévé kell válniuk a nyílt, kapcsolt adatok univerzumának, fejlett lekérdezési és adatintegrációs képességekkel. Meg kell teremteni a webarchívumok lekérdezésének lehetőségét külső rendszerek, szoftvereszközök által is.
Néhány lehetséges módszer
Entitások kinyerése;
RDF tripletek generálása;
Entitások gazdagítása külső erőforrásokból;
Kapcsolt adatok publikálása;
Szemantikus alapú fejlett lekérdezési lehetőségek és rangsorolási módszerek kialakítása
SolrMIA ( a magyar demo webarchívum keresőmotorja)
webadmin.oszk.hu/solrmia
Solr-alapú teljesszövegű index;
Metaadat alapú szűrés és találati listák megjelenítése;
Jövőbeni tervek:
Entitások kinyerése;
Metaadat gazdagítás névterekből és tezauruszokból.
Köszönjük a figyelmüket! Kérdések?
Magyar webarchiválási projekt: http://mekosztaly.oszk.hu/mia/
Demo webarchívum: http://mekosztaly.oszk.hu/mia/demo/
Válogatott bibliográfia a webarchiválás témakörében: http://mekosztaly.oszk.hu/mia/doc/webarchivalas-irodalom.html
e-mail: mia@mek.oszk.hu D o k u m e n t u m n y e l v e : magyar K a p c s o l ó d ó d o k u m e n t u m n e v e : Drótos László, Németh Márton: Kísérleti webaratás projekt az OSZK-ban A f o r m á t u m n e v e : PowerPoint prezentáció O l d a l a k s z á m a : 15 T e c h n i k a i m e g j e g y z é s : Microsoft Office PowerPoint 2007 M e t a a d a t a d o k u m e n t u m b a n : N A f o r m á t u m n e v e : HTML dokumentum T e c h n i k a i m e g j e g y z é s : HTML 5 verzió M e t a a d a t a d o k u m e n t u m b a n : N L e g j o b b f o r m á t u m : JPEG képállomány L e g n a g y o b b k é p m é r e t : 770x433 pixel L e g j o b b f e l b o n t á s : 140 DPI S z í n : színes T ö m ö r í t é s m i n ő s é g e : közepesen tömörített A z a d a t r e k o r d s t á t u s z a : KÉSZ A d o k u m e n t u m s t á t u s z a : INSIDE S z e r e p / m i n ő s é g : katalogizálás A f e l d o l g o z ó n e v e : Nagy Zsuzsanna |