D O K U M E N T U M A Z O N O S Í T Ó F á j l n é v : mihalyi_szucs_automatikus_keziras_felismeres.jpg F ő c í m : Automatikus kézírás-felismertetés Kiss József levelezésén B e s o r o l á s i c í m : Automatikus kézírás-felismertetés Kiss József levelezésén S z e r e p : létrehozó B e s o r o l á s i n é v : Szűcs U t ó n é v : Kata Ágnes I n v e r t á l a n d ó n é v : N S z e r e p : létrehozó B e s o r o l á s i n é v : Mihály U t ó n é v : Eszter I n v e r t á l a n d ó n é v : N E s e m é n y : felvéve I d ő p o n t : 2021-11-23 E s e m é n y : elérhető I d ő p o n t : 2021-04-08 D á t u m r a v o n a t k o z ó m e g j e g y z é s : Az előadás időpontja. A t í p u s n e v e : prezentáció A t í p u s n e v e : előadás M e g n e v e z é s : Prezentáció M e g n e v e z é s : Könyvtártudomány - prezentáció M e g n e v e z é s : Networkshop 2021 M e g n e v e z é s : Videotorium A j o g t u l a j d o n o s n e v e : Szűcs Kata Ágnes, Mihály Eszter S z e r z ő i j o g i m e g j e g y z é s e k : Jogvédett T é m a k ö r : Könyvtártan, információtudomány A l t é m a k ö r : Tudománytörténet T é m a k ö r : Szépirodalom, népköltészet A l t é m a k ö r : Klasszikus magyar irodalom T á r g y s z ó : automatizált munka M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : kézírás M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : felismerés M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : levelezés M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : kéziratos levél M i n ő s í t ő : műfaj T á r g y s z ó : 2021 M i n ő s í t ő : időszak K é p a l á í r á s : Automatikus kézírás-felismertetés Kiss József levelezésén N y e r s v a g y O C R - e s s z ö v e g : Automatikus
kézírás-felismertetés Kiss József levelezésén
Networkshop 2021.04.08.
Szűcs Kata Ágnes - Mihály Eszter
Kiss
József-projekt
Pilot projekt
Borbás Andrea; Horváth Dániel; Mészáros Tiborné; Mihály Eszter; Szűcs Kata Ágnes; Tóth Dóra; Török Sándor Mátyás; Vétek Bence
https://resolver.pim.hu/gyujtemeny/levelek/media/csatolt/"Kiss József1843-1921"
Szűrési lehetőségek
TEI XML publikáció
Mindeközben: kézírásfelismerő modell építése
Első magyar publikus kézírásfelismerő modell
Folyamatban: vegyes kézírásmodell
+ egyéb modellek
Terv:
egyre általánosabb modellek építése
szótárak készítése
I.A Transkribus-ról röviden
Vázlat
Mi az a Transkribus
Mit tudunk az automatikus kézírás-felismertetésről
Milyen eredményeket értünk el eddig.
Transkribus
Text Region
Base Line
Line
II. A kézírás-felismertetésről
Hivatalos How-to-k a Transkribus oldalán
https://transkribus.eu/wiki/images/3/34/H owToTranscribe_Train_A_Model.pdf
Mi kell hozzá?
Adott nyelvhez kötődő HTR modell
Min. 5000-15000 szót tartalmazó átírt kéziratos dokumentum
HTR modell készítés
Trainig set (90%)
Validation set (10%)
A Validation set CER értéke:
20-30%-kal Keyword Spotting
10% alatti modell már jónak számít
5% alatti modell kevés energiaráfordítással javítható
Modellépítés - eredmények
III. Tapasztalatok
Mitől lesz "jó" egy modell?
egy kéz által írt szövegek
korban egymáshoz közel keletkezett szövegek
egyféle forrástípus (pl. napló, levelezés, számadáskönyv, stb.)
Első fázis
Második fázis
tollal/ceruzával/írógéppel/nyomtatottan írt levelek külön kezelésének megszüntetése
Harmadik fázis
Értelmezési lehetőségek
a felosztás módja: automatikus vagy manuális
felosztás jellege: reprezentatív
az alapmodell használata javít a modell teljesítményén, és lerövidíti a training idejét
használatakor el kell kerülni a bias lehetőségét
fontos az epochok számának megfelelő meghatározása
Javítási lehetőségek
adatmennyiség növelése
Base Model használata (nagyobb korpusznál)
szótárak beépítése
polygon-ok alakjának manuális módosításával / eredeti alakjának megőrzésével
a túltanulás és a bias elkerülése
reprezentatívabb training és validation set-ek válogatása
epochok számának növelése (időigényes lehet)
nyelvi modell használata (futtatáskor)
A HTR modell ismeretlen szövegen
Kitekintés - lehetőségek
Következő lépések
A letisztított, végleges modell későbbi alapmodell lesz egy vegyes
kézírás-modellhez
Beépítés workflow-ba
Újabb modellek létrehozása (pl. Móricz-levelezés)
Egyre jobb általános magyar nyelvű modell építése
Modellek közzététele (folyamatban)
Modellek
Köszönjük a figyelmet! D o k u m e n t u m n y e l v e : magyar K a p c s o l ó d ó d o k u m e n t u m n e v e : Szűcs Kata Ágnes, Mihályi Eszter: Forráskiadás közgyűjteményekben A f o r m á t u m n e v e : PowerPoint prezentáció O l d a l a k s z á m a : 36 T e c h n i k a i m e g j e g y z é s : Microsoft Office PowerPoint 2016 M e t a a d a t a d o k u m e n t u m b a n : N A f o r m á t u m n e v e : PDF dokumentum O l d a l a k s z á m a : 36 M e t a a d a t a d o k u m e n t u m b a n : N A f o r m á t u m n e v e : HTML dokumentum T e c h n i k a i m e g j e g y z é s : HTML 5 verzió M e t a a d a t a d o k u m e n t u m b a n : N L e g j o b b f o r m á t u m : JPEG képállomány L e g n a g y o b b k é p m é r e t : 770x433 pixel L e g j o b b f e l b o n t á s : 72 DPI S z í n : színes T ö m ö r í t é s m i n ő s é g e : közepesen tömörített Á l t a l á n o s m e g j e g y z é s : Networkshop 2021 konferencia A z a d a t r e k o r d s t á t u s z a : KÉSZ S z e r e p / m i n ő s é g : katalogizálás A f e l d o l g o z ó n e v e : Nagy Zsuzsanna |