D O K U M E N T U M A Z O N O S Í T Ó F á j l n é v : bajzat_szlavich_szemes_magyar_regeny_korpusza.jpg F ő c í m : A magyar regény korpusza és a "távoli olvasás" B e s o r o l á s i c í m : Magyar regény korpusza és a "távoli olvasás" S z e r e p : létrehozó B e s o r o l á s i n é v : Bajzát U t ó n é v : Tímea Borbála I n v e r t á l a n d ó n é v : N S z e r e p : létrehozó B e s o r o l á s i n é v : Szemes U t ó n é v : Botond I n v e r t á l a n d ó n é v : N S z e r e p : létrehozó B e s o r o l á s i n é v : Szlávich U t ó n é v : Eszter I n v e r t á l a n d ó n é v : N E s e m é n y : felvéve I d ő p o n t : 2021-11-09 E s e m é n y : elérhető I d ő p o n t : 2021-04-08 D á t u m r a v o n a t k o z ó m e g j e g y z é s : Az előadás időpontja. A t í p u s n e v e : prezentáció A t í p u s n e v e : előadás M e g n e v e z é s : Prezentáció M e g n e v e z é s : Könyvtártudomány - prezentáció M e g n e v e z é s : Networkshop 2021 A j o g t u l a j d o n o s n e v e : Bajzát Tímea Borbála, Szemes Botond, Szlávich Eszter S z e r z ő i j o g i m e g j e g y z é s e k : Jogvédett T é m a k ö r : Könyvtártan, információtudomány A l t é m a k ö r : Tudománytörténet T é m a k ö r : Irodalomtörténet, irodalomtudomány A l t é m a k ö r : Tudománytörténet T á r g y s z ó : könyvtártudomány M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : irodalomtörténet M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : regény M i n ő s í t ő : műfaj T á r g y s z ó : idegen nyelvű irodalom M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : gyűjtemény M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : 2021 M i n ő s í t ő : időszak K é p a l á í r á s : A magyar regény korpusza és a "távoli olvasás" N y e r s v a g y O C R - e s s z ö v e g : Az ELTE DH Regénykorpusz-projekt munkatársai
Projektvezető: Dr. Palkó Gábor
TEI specifikáció: Fellegi Zsófia - Dr. Palkó Gábor
Jelölőnyelvi kódolás:
- Takács Emma
- Vétek Bence
- Bajzát Tímea Borbála
Regénykorpusz lekérdező-felület:
- Dr. Kundráth Péter
- Dr. Horváth Péter
Lekérdező-funkciók további fejlesztése:
- Szemes Botond
- Szlávich Eszter
- Bajzát Tímea Borbála
Cost Action Distant Reading projekt
European Cooperation in Science and Technology (1971-)
Kutatóhálózatok létrehozása európai partnerek között
Interdiszciplináris és nyitott kutatócsoportok
Workshopok, kutatócsoportok támogatása
Distant Reading for European Literary History
European Literary Text Collection (ELTeC)
A projekt célja: források és módszerek fejlesztése, az európai irodalomtörténet-írás modernizálása
Módszere: Distant Reading (nagy korpuszok digitális technológiai elemzése)
Szélesebb körű, hozzáférhetőbb és jobban megalapozott európai irodalomtörténet és közös kulturális identitás
Nemcsak a kutatást, de az intézmények (pl. könyvtárak) hozzáférhetőségét is szélesíti
Distant Reading for European Literary History
Európai irodalmi szövegkorpusz építése (ELTeC)
Kb. 2500 regény, minimum 10 európai nyelven
Innovatív digitális szövegvizsgálati módszerek tesztelése, összehasonlító vizsgálatok
Az eredmények alapján újragondolhatóvá, újraértelmezhetővé váljanak a hagyományos irodalomelméleti és irodalomtörténeti koncepciók és azok alapvető fogalmai (pl. kánon, stílus)
ELTeC - Kiválasztási alapelvek
A regénykorpusz forrásai
Az ELTE DH Regénykorpusz jelenlegi állapota
6.948.590 token
100 regény
81 szerző
Formai követelmények (XML és TEI)
A szövegek online tárolásának és feldolgozásának alapvető formátuma: XML (Extended Markup Laguage)
Metanyelv: más nyelvek leírására szolgál (= jelölőnyelv)
Mind az ember, mind a gép számára olvasható
Eszköz- és rendszerfüggetlen
Különböző adattípusok jelölése
Strukturált szöveg és információ megosztása az interneten
Text Encoding Initiative
Szövegek digitális megjelenésének standardizálása
Metaadatok szabályos jelölése a fejlécben
Minden tag jelentése előre meghatározott
ELTE DH Regénykorpusz
A Regénykorpusz magyar nyelvű regények digitalizált, annotált szövegtesteit tartalmazza
Szabadon hozzáférhető, keresőfelület biztosítja a részletes keresést
Lemmatizálás, morfológiai és szófaji elemzés - e-magyar elemzőlánc (Váradi-Simon-Sass et al. 2017)
http://regenykorpusz.elte-dh.hu/
Keresés a korpuszban I.: alkorpuszok létrehozása
Szövegre szűrés:
Azt szűkítjük, hogy az adott keresés milyen anyagokon fusson le.
Ezáltal számos alkorpusz létrehozható
Szerző/műcím: bármennyi szerzőt vagy művet kiválaszthatunk (vagy kizárhatunk a keresésből)
A keletkezés ideje (1840-1920 között)
Szerző neme (nemi eloszlás az irodalomban, gendernyelvészet, szociográfia stb)
Terjedelem (három kategória)
Kanonikusság (három fokozat)
Állítsuk be a keresőn, hogy a szűrést egy olyan alkorpuszon futtassa le, amelyben a XIX. század második felében létrejött, férfi által írt, magas kanonikusságú kisregények szerepelnek!
Keresés a korpuszban II.: tokenek és tokenkapcsolatok
Az annotált korpuszok alkalmasak különböző konstrukciók, nyelvi szerkezetek keresésére
Kiválaszthatjuk, hogy szótőre, szóalakra, vagy azok részére keresünk
Megadható a szófaj és a morfológiai felépítés (inflexiók)
Több tokenre szóközzel elválasztva kereshetünk
A tokenek távolsága és kapcsolata is megadható
Keressünk rá a következő szerkezetre: tőszámnév + többes számú főnév!
Két fő típus: archaikus három királyok; innovatív szokáskifejezés: húsz perceket várok
Keresés a korpuszban III.: eredmények feldolgozása
Keresőfelületen megadhatók a találatok megjelenítésére vonatkozó beállítások:
Kontextus típusa (szavak, szótövek, szófajok)
Kontextus mérete (bekezdés, mondat; egyéni szószám)
Találatok száma oldalanként
Találatok feldolgozása
Mentés (.tsv formátum)
Találatok mentése
Gyakorisági listák
Statisztika
Kiválasztott regények adatainak mentése
A Regénykorpusz fejlesztése
Minimum 500 regény terjedelem
Mintavételezési kritériumok csökkentése
(regények 1840 előtt és 1920 után is)
Új funkciók implementálása
Pl. tagmondatkapcsolat-felismerése D o k u m e n t u m n y e l v e : magyar K a p c s o l ó d ó d o k u m e n t u m n e v e : Regénykorpusz A f o r m á t u m n e v e : PowerPoint prezentáció O l d a l a k s z á m a : 19 T e c h n i k a i m e g j e g y z é s : Microsoft Office PowerPoint 2016 M e t a a d a t a d o k u m e n t u m b a n : N A f o r m á t u m n e v e : PDF dokumentum O l d a l a k s z á m a : 19 M e t a a d a t a d o k u m e n t u m b a n : N A f o r m á t u m n e v e : HTML dokumentum T e c h n i k a i m e g j e g y z é s : HTML 5 verzió M e t a a d a t a d o k u m e n t u m b a n : N L e g j o b b f o r m á t u m : JPEG képállomány L e g n a g y o b b k é p m é r e t : 770x433 pixel L e g j o b b f e l b o n t á s : 72 DPI S z í n : színes T ö m ö r í t é s m i n ő s é g e : közepesen tömörített Á l t a l á n o s m e g j e g y z é s : Networkshop 2021 konferencia A z a d a t r e k o r d s t á t u s z a : KÉSZ S z e r e p / m i n ő s é g : katalogizálás A f e l d o l g o z ó n e v e : Nagy Zsuzsanna |