D O K U M E N T U M A Z O N O S Í T Ó F á j l n é v : indig_balazs_online_sajtoc_adatb_rend.jpg F ő c í m : Online sajtócikkek adatbázisba rendezése webaratás segítségével B e s o r o l á s i c í m : Online sajtócikkek adatbázisba rendezése webaratás segítségével S z e r e p : létrehozó B e s o r o l á s i n é v : Indig U t ó n é v : Balázs I n v e r t á l a n d ó n é v : N E s e m é n y : felvéve I d ő p o n t : 2020-02-06 E s e m é n y : elérhető I d ő p o n t : 2019-11-14 D á t u m r a v o n a t k o z ó m e g j e g y z é s : A prezentáció előadásának időpontja. A t í p u s n e v e : prezentáció A t í p u s n e v e : előadás M e g n e v e z é s : Prezentáció M e g n e v e z é s : Könyvtártudomány - prezentáció M e g n e v e z é s : MEK Egyesület A j o g t u l a j d o n o s n e v e : Indig Balázs S z e r z ő i j o g i m e g j e g y z é s e k : Jogvédett T é m a k ö r : Könyvtártan, információtudomány A l t é m a k ö r : Könyvtárvezetés, könyvtárügy T é m a k ö r : Könyvtártan, információtudomány A l t é m a k ö r : Könyvtárhasználat T é m a k ö r : Média, tömegkommunikáció A l t é m a k ö r : Online média T á r g y s z ó : on-line adatbázis M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : újságcikk M i n ő s í t ő : műfaj T á r g y s z ó : szöveg M i n ő s í t ő : műfaj T á r g y s z ó : tartalom M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : tárolás M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : metaadat M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : 2019 M i n ő s í t ő : időszak
L E Í R Á S N y e r s v a g y O C R - e s s z ö v e g : Online sajtócikkek adatbázisba rendezése
webaratás segítségével
Indig Balázs
Eötvös Loránd Tudományegyetem, Digitális Bölcsészet Központ Nyelvtudományi Intézet, Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály
indig.balazs@btk.elte.hu
Vázlat
Motiváció
Módszerek
A klasszikus webaratás folyamata
Próbáljuk meg máshogy!
A puding próbája...
Következtetések
Motiváció
Hangzatos cikkek
Egy gép elolvasott 3,5 millió könyvet. Ezt tudta meg a nőkről és a férfiakról
Egyre több a gyűlöletbeszéd...
Kétszáz év alatt háromszor volt boldog a nyugati ember
Írj 10 mondatot, megmondom, ki vagy! Nyelvészet a bűnüldözés szolgálatában
Kulturális távolságok a nemzeti sztereotípiák alapján
De vajon hihetünk nekik? Reprodukálható, tudományos eredmények vagy bulvár? Melyik a kakukktojás?
Ha mások meg tudják csinálni, akkor a tudományos álláspontra is szükség lesz előbb-utóbb...
A csodák gyakorisága
Forrás: https://twitter.com/pickover/status/528708130520461312
Megnyugtatóan rendezett kérdések (xkcd.org/1235)
A szöveges tartalmak hiteles (!) megőrzése
Szöveget a szövegboltból... Nemzeti könyvtárak
Ha egy régi könyvet akarunk elolvasni, akkor könyvtárba megyünk
Van katalógus, amiben lehet keresni (metaadat)
Sárgák a lapok, tehát régi a könyv (hitelesség)
A Web 2.0 óta, rengeteg szöveg eleve digitális (born digital)
Van a Common Crawl és az Internet Archive), csak hiányosak
Egyik napról a másikra megváltozhat vagy eltűnhet egy oldal
Viszont könnyeben gyűjthetők, feldolgozhatók és hitelesíthetők (?)
A papír sárgul, a bitek rohadnak
Módszerek
A webaratás korának hajnala
Mit mond a Főnök?
Az általános nyelvtechnológiai munkafolyamat: 'Szerezz VALAMILYEN szöveget, amivel
dolgozhatunk! A pontos tartalom nem számít.'
Az átlagos digitális bölcsész, társadalomtudós munkafolyamat: 'Szerezd meg AZT A SPECIFIKUS szöveget, amivel dolgozhatunk! A pontos tartalom számít igazán.'
A klasszikus webaratás folyamata
Indíts el egy tipegőt (crawler) valamilyen kezdeti paraméterekkel
Induló oldalak, domain, mélység, szélesség
Automatikusan nyerjél ki metaadatokat
Rendezd adatbázisba és szolgáld ki
Mi van akkor ha egy történész egy specifikus hírportál összes cikkén szeretné vizsgálni az eredeti megnyilvánulásokat?
A klasszikus webaratás folyamata (problémák)
Miért bízzak meg az archívumban/archiválóban?
Feltörhették, módosíthatták
Mi van ha hiányos az archívum?
Nem elég a mélység
SEO csapdák
Dinamikus oldalak
Mi van ha sok a szemét, amiből ki kell bányászni a szöveget?
Túl sok a mélység
Minőségbiztosítás? Mire is?
Nem tudjuk, hogy 100 év múlva mire lesz szükség
De ha a mai igényekre nem jó, akkor biztos nem jó
A távoli olvasás (distant reading) a jövő útja
Próbáljuk meg máshogy!
A webarchiválás "távoli olvasás" megközelítésben
Tegyük fel a kutatási kérdéseinket tágan értelmezve
Gondosan válasszuk ki a learatandó oldalakat
Vizsgáljuk meg őket, hogy kinyerjük a lényeges tulajdonságaikat
A megszerzett információval felvértezve indítsuk az aratást
Mentsük el az oldalakat - ezek az elsődleges forrásdokumentumaink!
Használjunk portálra szabott sablonszűrést és metaadatkinyerést, futtassuk az eszközöket (szótövezés, stb.)
Mentsük el a korpuszt máshova - hiszen automatikusan reprodukálható
Szolgáljuk ki a szöveget és válaszoljuk meg a kérdéseinket
Találjunk és javítsunk hibákat a használt rendszerben
Menjünk vissza az 5-ös lépéshez és kezdjük újra UGYANAZZAL a szöveggel
A fő ötlet [Indig et al., 2019]
"Ha egy CIKK nincs A (PORTÁL) ARCHÍVUM(Á)BAN, akkor nem is létezik!" (ferdítve a Csillagok Háborújából)
A technikai részletek [Indig et al., 2019]
Kétszintes webaratás és portál-alapú sablonszűrés:
A legtöbb (hír) portál permalinkeket használ a cikkek azonosítására és van egy cikkarchívuma amiben a cikkek kereshetők
A cikkarchívum egyszerű felépítéséből fakadóan könnyen kinyerhetők a cikkek linkjei (dilemma: szabályok vagy gépi tanulás?)
Csak ezeket a linkeket járjuk végig
Gyakorlatilag nincs duplum vagy szemét!
Kevesebb zaj, kisebb terhelés, gyorsabb aratás
Az adott portálnak van egy sajátos designja, ami azonos vagy nagyon hasonló minden cikkre
Egyszerű, hatékony szabályokkal vagy célzott gépi tanulással kezelhető (újra egy dilemma)
Az ISO szabvány WARC archívum formátumot használjuk
Innentől minden reprodukálható, de még nem hiteles!
A kiválasztott oldalakhoz igazítottuk a webaratás és sablonkinyerés folyamatát
Mivel egy oldal sablonja ritkán változik, minden nap learatható
Egy könnyen ellenőrizhető keretrendszerben
Szükség szerint felülvizsgálhatók és javíthatók a szabályok
A puding próbája...
A feladat és az erőforrásaink
A feladat:
Hat (struktúrálisan) eléggé különböző magyar hírportálról
Nyerjünk ki metaadatokat: szerző, megjelenés dátuma, cím, lead, kulcsszavak, szöveg
Legyen az egész precíz és fenntartható, a futásidő másodlagos
Hasznosítsunk újra mindent, ha csak lehet!
Az erőforrásaink:
Egy "olcsó" irodai gép (4 GB RAM, Intel i3, 4 szál)
100 Mb/s kapcsolat
Összehasonlítás
A tipegő:
A program működése nem összevethető a meglévőkkel
Csak az eredmény!
A sablonszűrő eszközök összevetése (JusText [Pomikálek, 2011], Newspaper3k [Ou-Yang, 2013], mi szabályaink) [Indig et al., 2019]:
Mindegyik szabályalapú, nehezen összevethetőek
A miénk speciális és moduláris, a többi áltatlános és
monolitikus
A legtöbb eszköz, egyáltalán nem képes metaadat kinyerésre, vagy nem kezelik jól a magyar tipográfiát
Ahogy nőnek a számok, újabb problémák kerülnek felszínre
A learatott 2 227 180 darab cikk (6 hírportál) éves eloszlása
Következtetések
30 nap alatt egy olcsó PC-vel (és sebességkorlátozással)
Kevesebb mint 120 GB hely kellett (csak a HTML-ek warc.gz-ben)
Nagyjából egy milliárd token körül lehet az archívum és nő
Fenntartható, alacsony terhelés mindkét oldalon
Reprodukálható, javítható, kiterjeszthető
Úttörő munka számtalan későbbi kutatáshoz
Téma modellezés, stilometriai vizsgálatok (a rendelkezésre álló metaadattal)
Időbeli (socio-)lingvisztikai vizsgálatok (a megjelenés dátumával)
A munkafolyamat gépi tanulással való bővítéséhez tanuló adat
A célzott oldalak számának kiterjesztése
Jövőbeli tervek:
Sztenerdizált munkafolyamat, TEI kimenet, több összehasonlítással
A digitális dokumentumok hitelességének kérdése
Szemantikus kereső szolgáltatás
Felhasznált irodalom D o k u m e n t u m n y e l v e : magyar K a p c s o l ó d ó d o k u m e n t u m n e v e : Drótos László - Németh Márton: Kísérleti webaratás projekt az OSZK-ban A f o r m á t u m n e v e : PowerPoint prezentáció O l d a l a k s z á m a : 26 T e c h n i k a i m e g j e g y z é s : Microsoft Office PowerPoint 2007 M e t a a d a t a d o k u m e n t u m b a n : N A f o r m á t u m n e v e : HTML dokumentum T e c h n i k a i m e g j e g y z é s : HTML 5 verzió M e t a a d a t a d o k u m e n t u m b a n : N L e g j o b b f o r m á t u m : JPEG képállomány L e g n a g y o b b k é p m é r e t : 770x433 pixel L e g j o b b f e l b o n t á s : 71 DPI S z í n : színes T ö m ö r í t é s m i n ő s é g e : közepesen tömörített A z a d a t r e k o r d s t á t u s z a : KÉSZ S z e r e p / m i n ő s é g : katalogizálás A f e l d o l g o z ó n e v e : Nagy Zsuzsanna |