D O K U M E N T U M A Z O N O S Í T Ó F á j l n é v : mihalyi_szucs_forraskiadas.jpg B é l y e g k é p : https://dka.oszk.hu/124900/124982/mihalyi_szucs_forraskiadas_kiskep.jpg F ő c í m : Forráskiadás közgyűjteményekben B e s o r o l á s i c í m : Forráskiadás közgyűjteményekben S z e r e p : létrehozó B e s o r o l á s i n é v : Szűcs U t ó n é v : Kata Ágnes I n v e r t á l a n d ó n é v : N S z e r e p : létrehozó B e s o r o l á s i n é v : Mihály U t ó n é v : Eszter I n v e r t á l a n d ó n é v : N E s e m é n y : felvéve I d ő p o n t : 2021-11-23 E s e m é n y : elérhető I d ő p o n t : 2021-04-08 D á t u m r a v o n a t k o z ó m e g j e g y z é s : Az előadás időpontja. A t í p u s n e v e : prezentáció A t í p u s n e v e : előadás M e g n e v e z é s : Prezentáció M e g n e v e z é s : Könyvtártudomány - prezentáció M e g n e v e z é s : Networkshop 2021 M e g n e v e z é s : Videotorium A j o g t u l a j d o n o s n e v e : Szűcs Kata Ágnes, Mihály Eszter S z e r z ő i j o g i m e g j e g y z é s e k : Jogvédett T é m a k ö r : Könyvtártan, információtudomány A l t é m a k ö r : Tudománytörténet T é m a k ö r : Szépirodalom, népköltészet A l t é m a k ö r : Klasszikus magyar irodalom T á r g y s z ó : automatizált munka M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : kézírás M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : felismerés M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : levelezés M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : kéziratos levél M i n ő s í t ő : műfaj T á r g y s z ó : közgyűjtemény M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : digitális technika M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : 2021 M i n ő s í t ő : időszak K é p a l á í r á s : Forráskiadás közgyűjteményekben N y e r s v a g y O C R - e s s z ö v e g : Forráskiadás közgyűjteményekben
Mihály Eszter - Szűcs Kata Ágnes
Közgyűjteményi feladatok kéziratos források esetén
leírás, metaadatolás, gyűjteményezés
archiválás, hosszútávú megőrzés
kereshetővé és hozzáférhetővé tétel -> mást jelent a digitális korban
honnan nevezzük publikációnak?
Több szinten lehetséges:
1. szkennelt képek közzététele -> gyűjteményi rekord metaadatok kereshetőek
(vö. hasonmás kiadás)
2. szkennelt képek és átiratok közzététele -> gyűjteményi rekord metaadatok + szöveg is kereshető
kétrétegű pdf -> akár az online katalógus felületén (Opac)
(vö. betűhű közlés)
3. TEI XML -> TEI XML metaadatok, teljes szöveg + egyéb annotációk kereshetőek, szűrhetőek
-> többféle megjelenítési mód külön publikáló felületen
-> számos egyéb funkció
(vö. forrás- és kritikai kiadás)
Miért jó a digitális szövegkiadás?
rugalmas, változó, javítható
nincs terjedelemhatár
annotálható
összeköthető egyéb tudástárakkal (pl. névtér)
több formában és folyamatosan publikálható
műveletek végezhetők vele (keresés, szűrés, adatvizualizáció stb.)
új módszerekkel kutatható
archiválásra alkalmas
Új feladatok, problémák
a digitalizáló műhely, a kézirattár és digitális bölcsészeti terület feladatainak összehangolása -> közös nevező
a digitális bölcsészeti eszközök integrációja a közgyűjteményi infrastruktúrába (és visszafelé)
gyűjteményi és digitális bölcsészeti szemlélet összeegyeztetése (pl. levelezés esetén 1 gyűjteményi rekord nem feltétlenül azonos 1 digitális objektummal (=levél)
humán erőforrás biztosítása (pl. szöveg átírása)
-> megoldások: univerzális és egyedi
Kiss József-projekt
Pilot projekt
Borbás Andrea; Horváth Dániel; Mészáros Tiborné; Mihály Eszter; Szűcs Kata Ágnes; Tóth Dóra; Török Sándor Mátyás; Vétek Bence
Első lépések
Közös nevezők:
szkennelés szabályainak kialakítása
névkonvenció meghatározása (fájlok elnevezése, strukturálása)
nyilvántartások, kimutatások készítése a projekt forrásairól
ütemezés
content management környezet kialakítása
eszközök kiválasztása
szerepek kiosztása
workflow megtervezése
Workflow,
infrastruktúra
Szkennelés
Szöveg átírása
Publikálás
HELYETT:
2 szintű publikáció:
kétrétegű PDF Opacon
TEI XML erre fejlesztett felületen
Publikáció 1.0 - Kétrétegű PDF
gyorsabb feldolgozás, közzététel
online katalógusfelület kezelni tudja (kapcsolt médiarekord)
kereshető, szűrhető
egyszerű integráció a meglévő gyűjteményi rendszerbe
Eszközök integrációja
Kézírás-felismertetés
Csak Kiss József kézírásával
TEI XML szerkesztés - publikáció 2.0
szerkesztőprogram: Oxygen
framework kialakítása
kiterjedt textológiai-filológiai jelölésrendszer
adatgazdagítás, metaadatok részletes kitöltése
külső adatbázisok bekapcsolása (névterek, bibliográfiák)
legkülönfélébb keresési lehetőségek megalapozása annotációkkal
text-image linking
Framework + Git alapú funkciók
automatizált műveletek beépítése (pl. transzformációk, azonosítókiosztás)
metaadatok beemelése Huntékából
metaadatok automatikus továbbítása
közvetlen publikáció a szerkesztőségi rendszerből
Oxygen-framework
Entitások azonosítása -
Együttműködés a PIM Névtérrel
Problémák, feladatok
hogyan jussanak el a projekt során előkerülő új adatok a PIM névtér szerkesztőihez?
mi legyen azokkal a személynevekkel, amelyek nem kerülhetnek be az éles névtérbe, mert még nincs elég adat, de fontosak a projektben?
mi legyen azokkal a nevekkel, amelyek csak az adott projektben bírnak jelentőséggel?
mi legyen azokkal a megjegyzésekkel, amelyek csak az adott projekt szempontjából adekvátak?
Huntéka fejlesztések - személynév
Együttműködés a PIM Névtérrel
Megoldások
workflow az új adatok továbbításához
új 090: Adatbázis a digitális filológiai projekteknek (összes a projektben előforduló név)
új forrástípusok felvétele:
analitikus forrás és lektorált internetes forrás
új megjegyzés mező:
projekt megjegyzés összekapcsolva a projekttel
feladat: külön megjelenítő felület
helynevek, testületi nevek
műcímek -> bibliográfia építése
Huntéka fejlesztések - személynév
PIM Névtér integráció frameworkbe - DIA
Névfelismerés pilot projekt
A cél: a PIM-ben jelenleg elérhető és a jövőben feldolgozni tervezetthez hasonló szövegek esetében megvizsgálni annak a lehetőségét, hogy hogyan tudjuk a nevek felismertetését automatikus eszközökkel megtámogatni -> normatív gold standard szövegkorpuszok
Források: a különféle műfajokat reprezentáló mintakorpuszt kell összeállítanunk
DIA: minden műfajból (kivéve rajz és bibliográfia) ~3.000 token = össz. ~33.000 token
Móricz-levelezés: ~3.000 token
MEK: két műfajból ~3-3000 token = ~6.000 token
Feldolgozás:
sima szöveg kinyerése
teljes szövegfeldolgozó eszközlánc + tulajdonnév-felismerés: emtsv
Kézi annotálás:
a Móricz-kutatócsoport tagjai végezték
Kiértékelés:
a kézi és az automatikus annotálás kimenetét összevetve:
átlagos F-mérték: DIA: 46,02%, MEK: 58,89%, Móricz: 52,41%
legrosszabb: dráma: 8,94%, legjobb: életrajz: 73,91%
TEI XML publikáció
git alapú automatizált rendszer
facsimile-szöveg együttes megjelenítés
text-image linking elsőként Magyarországon
facettált kereső
Adatvizualizációs lehetőségek I.
Adatvizualizációs lehetőségek II.
Adatvizualizációs lehetőségek III.
Levélkeltezések. Ahol Kiss József élete során megfordult.
Összegzés D o k u m e n t u m n y e l v e : magyar K a p c s o l ó d ó d o k u m e n t u m n e v e : Szűcs Kata Ágnes, Mihály Eszter: Automatikus kézírás-felismertetés Kiss József levelezésén A f o r m á t u m n e v e : PowerPoint prezentáció O l d a l a k s z á m a : 39 T e c h n i k a i m e g j e g y z é s : Microsoft Office PowerPoint 2016 M e t a a d a t a d o k u m e n t u m b a n : N A f o r m á t u m n e v e : PDF dokumentum O l d a l a k s z á m a : 39 M e t a a d a t a d o k u m e n t u m b a n : N A f o r m á t u m n e v e : HTML dokumentum T e c h n i k a i m e g j e g y z é s : HTML 5 verzió M e t a a d a t a d o k u m e n t u m b a n : N L e g j o b b f o r m á t u m : JPEG képállomány L e g n a g y o b b k é p m é r e t : 770x433 pixel L e g j o b b f e l b o n t á s : 72 DPI S z í n : színes T ö m ö r í t é s m i n ő s é g e : közepesen tömörített Á l t a l á n o s m e g j e g y z é s : Networkshop 2021 konferencia A z a d a t r e k o r d s t á t u s z a : KÉSZ S z e r e p / m i n ő s é g : katalogizálás A f e l d o l g o z ó n e v e : Nagy Zsuzsanna |