Indig Balázs: Online sajtócikkek adatbázisba rendezése webaratás segítségével [DKA metaadatok]

T á r g y s z ó : Budapest

G e o N a m e s I d : 3054643

M i n ő s í t ő : földrajzi hely

L E Í R Á S

N y e r s v a g y O C R - e s s z ö v e g : Online sajtócikkek adatbázisba rendezése webaratás segítségével Indig Balázs Eötvös Loránd Tudományegyetem, Digitális Bölcsészet Központ Nyelvtudományi Intézet, Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztály indig.balazs@btk.elte.hu Vázlat Motiváció Módszerek A klasszikus webaratás folyamata Próbáljuk meg máshogy! A puding próbája... Következtetések Motiváció Hangzatos cikkek Egy gép elolvasott 3,5 millió könyvet. Ezt tudta meg a nőkről és a férﬁakról Egyre több a gyűlöletbeszéd... Kétszáz év alatt háromszor volt boldog a nyugati ember Írj 10 mondatot, megmondom, ki vagy! Nyelvészet a bűnüldözés szolgálatában Kulturális távolságok a nemzeti sztereotípiák alapján De vajon hihetünk nekik? Reprodukálható, tudományos eredmények vagy bulvár? Melyik a kakukktojás? Ha mások meg tudják csinálni, akkor a tudományos álláspontra is szükség lesz előbb-utóbb... A csodák gyakorisága Forrás: https://twitter.com/pickover/status/528708130520461312 Megnyugtatóan rendezett kérdések (xkcd.org/1235) A szöveges tartalmak hiteles (!) megőrzése Szöveget a szövegboltból... Nemzeti könyvtárak Ha egy régi könyvet akarunk elolvasni, akkor könyvtárba megyünk Van katalógus, amiben lehet keresni (metaadat) Sárgák a lapok, tehát régi a könyv (hitelesség) A Web 2.0 óta, rengeteg szöveg eleve digitális (born digital) Van a Common Crawl és az Internet Archive), csak hiányosak Egyik napról a másikra megváltozhat vagy eltűnhet egy oldal Viszont könnyeben gyűjthetők, feldolgozhatók és hitelesíthetők (?) A papír sárgul, a bitek rohadnak Módszerek A webaratás korának hajnala Mit mond a Főnök? Az általános nyelvtechnológiai munkafolyamat: 'Szerezz VALAMILYEN szöveget, amivel dolgozhatunk! A pontos tartalom nem számít.' Az átlagos digitális bölcsész, társadalomtudós munkafolyamat: 'Szerezd meg AZT A SPECIFIKUS szöveget, amivel dolgozhatunk! A pontos tartalom számít igazán.' A klasszikus webaratás folyamata Indíts el egy tipegőt (crawler) valamilyen kezdeti paraméterekkel Induló oldalak, domain, mélység, szélesség Automatikusan nyerjél ki metaadatokat Rendezd adatbázisba és szolgáld ki Mi van akkor ha egy történész egy speciﬁkus hírportál összes cikkén szeretné vizsgálni az eredeti megnyilvánulásokat? A klasszikus webaratás folyamata (problémák) Miért bízzak meg az archívumban/archiválóban? Feltörhették, módosíthatták Mi van ha hiányos az archívum? Nem elég a mélység SEO csapdák Dinamikus oldalak Mi van ha sok a szemét, amiből ki kell bányászni a szöveget? Túl sok a mélység Minőségbiztosítás? Mire is? Nem tudjuk, hogy 100 év múlva mire lesz szükség De ha a mai igényekre nem jó, akkor biztos nem jó A távoli olvasás (distant reading) a jövő útja Próbáljuk meg máshogy! A webarchiválás "távoli olvasás" megközelítésben Tegyük fel a kutatási kérdéseinket tágan értelmezve Gondosan válasszuk ki a learatandó oldalakat Vizsgáljuk meg őket, hogy kinyerjük a lényeges tulajdonságaikat A megszerzett információval felvértezve indítsuk az aratást Mentsük el az oldalakat - ezek az elsődleges forrásdokumentumaink! Használjunk portálra szabott sablonszűrést és metaadatkinyerést, futtassuk az eszközöket (szótövezés, stb.) Mentsük el a korpuszt máshova - hiszen automatikusan reprodukálható Szolgáljuk ki a szöveget és válaszoljuk meg a kérdéseinket Találjunk és javítsunk hibákat a használt rendszerben Menjünk vissza az 5-ös lépéshez és kezdjük újra UGYANAZZAL a szöveggel A fő ötlet [Indig et al., 2019] "Ha egy CIKK nincs A (PORTÁL) ARCHÍVUM(Á)BAN, akkor nem is létezik!" (ferdítve a Csillagok Háborújából) A technikai részletek [Indig et al., 2019] Kétszintes webaratás és portál-alapú sablonszűrés: A legtöbb (hír) portál permalinkeket használ a cikkek azonosítására és van egy cikkarchívuma amiben a cikkek kereshetők A cikkarchívum egyszerű felépítéséből fakadóan könnyen kinyerhetők a cikkek linkjei (dilemma: szabályok vagy gépi tanulás?) Csak ezeket a linkeket járjuk végig Gyakorlatilag nincs duplum vagy szemét! Kevesebb zaj, kisebb terhelés, gyorsabb aratás Az adott portálnak van egy sajátos designja, ami azonos vagy nagyon hasonló minden cikkre Egyszerű, hatékony szabályokkal vagy célzott gépi tanulással kezelhető (újra egy dilemma) Az ISO szabvány WARC archívum formátumot használjuk Innentől minden reprodukálható, de még nem hiteles! A kiválasztott oldalakhoz igazítottuk a webaratás és sablonkinyerés folyamatát Mivel egy oldal sablonja ritkán változik, minden nap learatható Egy könnyen ellenőrizhető keretrendszerben Szükség szerint felülvizsgálhatók és javíthatók a szabályok A puding próbája... A feladat és az erőforrásaink A feladat: Hat (struktúrálisan) eléggé különböző magyar hírportálról Nyerjünk ki metaadatokat: szerző, megjelenés dátuma, cím, lead, kulcsszavak, szöveg Legyen az egész precíz és fenntartható, a futásidő másodlagos Hasznosítsunk újra mindent, ha csak lehet! Az erőforrásaink: Egy "olcsó" irodai gép (4 GB RAM, Intel i3, 4 szál) 100 Mb/s kapcsolat Összehasonlítás A tipegő: A program működése nem összevethető a meglévőkkel Csak az eredmény! A sablonszűrő eszközök összevetése (JusText [Pomikálek, 2011], Newspaper3k [Ou-Yang, 2013], mi szabályaink) [Indig et al., 2019]: Mindegyik szabályalapú, nehezen összevethetőek A miénk speciális és moduláris, a többi áltatlános és monolitikus A legtöbb eszköz, egyáltalán nem képes metaadat kinyerésre, vagy nem kezelik jól a magyar tipográﬁát Ahogy nőnek a számok, újabb problémák kerülnek felszínre A learatott 2 227 180 darab cikk (6 hírportál) éves eloszlása Következtetések 30 nap alatt egy olcsó PC-vel (és sebességkorlátozással) Kevesebb mint 120 GB hely kellett (csak a HTML-ek warc.gz-ben) Nagyjából egy milliárd token körül lehet az archívum és nő Fenntartható, alacsony terhelés mindkét oldalon Reprodukálható, javítható, kiterjeszthető Úttörő munka számtalan későbbi kutatáshoz Téma modellezés, stilometriai vizsgálatok (a rendelkezésre álló metaadattal) Időbeli (socio-)lingvisztikai vizsgálatok (a megjelenés dátumával) A munkafolyamat gépi tanulással való bővítéséhez tanuló adat A célzott oldalak számának kiterjesztése Jövőbeli tervek: Sztenerdizált munkafolyamat, TEI kimenet, több összehasonlítással A digitális dokumentumok hitelességének kérdése Szemantikus kereső szolgáltatás Felhasznált irodalom

D o k u m e n t u m n y e l v e : magyar

K A P C S O L A T O K

K a p c s o l ó d ó d o k u m e n t u m n e v e : Drótos László - Németh Márton: Kísérleti webaratás projekt az OSZK-ban

U R L : https://dka.oszk.hu/121400/121407

F O R M Á T U M

A f o r m á t u m n e v e : PowerPoint prezentáció

O l d a l a k s z á m a : 26

T e c h n i k a i m e g j e g y z é s : Microsoft Office PowerPoint 2007

M e t a a d a t a d o k u m e n t u m b a n : N

A f o r m á t u m n e v e : HTML dokumentum

T e c h n i k a i m e g j e g y z é s : HTML 5 verzió

M e t a a d a t a d o k u m e n t u m b a n : N

M I N Ő S É G

L e g j o b b f o r m á t u m : JPEG képállomány

L e g n a g y o b b k é p m é r e t : 770x433 pixel

L e g j o b b f e l b o n t á s : 71 DPI

S z í n : színes

T ö m ö r í t é s m i n ő s é g e : közepesen tömörített

S T Á T U S Z

A z a d a t r e k o r d s t á t u s z a : KÉSZ

F E L D O L G O Z Ó

S z e r e p / m i n ő s é g : katalogizálás

A f e l d o l g o z ó n e v e : Nagy Zsuzsanna