D O K U M E N T U M A Z O N O S Í T Ó F á j l n é v : szatucsek_zoltan_kezirasfelismeres.jpg B é l y e g k é p : https://dka.oszk.hu/129500/129594/szatucsek_zoltan_kezirasfelismeres_kiskep.jpg F ő c í m : Kézírásfelismerés tapasztalatai az European Digital Treasures projekben B e s o r o l á s i c í m : Kézírásfelismerés tapasztalatai az European Digital Treasures projekben S z e r e p : létrehozó B e s o r o l á s i n é v : Szatucsek U t ó n é v : Zoltán I n v e r t á l a n d ó n é v : N K r o n o l o g i k u s k i e g é s z í t ő : 1969- V I A F I d : 70779137 E s e m é n y : felvéve I d ő p o n t : 2022-06-17 E s e m é n y : elérhető I d ő p o n t : 2022-04-21 D á t u m r a v o n a t k o z ó m e g j e g y z é s : Az előadás időpontja. A t í p u s n e v e : prezentáció A t í p u s n e v e : előadás M e g n e v e z é s : Prezentáció M e g n e v e z é s : Könyvtártudomány - prezentáció M e g n e v e z é s : Networkshop 2022 M e g n e v e z é s : Panopto A j o g t u l a j d o n o s n e v e : Szatucsek Zoltán S z e r z ő i j o g i m e g j e g y z é s e k : Jogvédett T é m a k ö r : Könyvtártan, információtudomány A l t é m a k ö r : Könyvtárvezetés, könyvtárügy T é m a k ö r : Számítástechnika, hálózatok A l t é m a k ö r : Hardver, digitális eszközök T á r g y s z ó : Magyar Nemzeti Levéltár (Budapest) M i n ő s í t ő : intézmény T á r g y s z ó : kézírás M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : felismerés M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : levéltár M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : levéltári irat M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : adatfeldolgozás M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : családkutatás M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : 2022 M i n ő s í t ő : időszak
L E Í R Á S K é p a l á í r á s : Kézírásfelismerés tapasztalatai az European Digital Treasures projekben N y e r s v a g y O C R - e s s z ö v e g : Kézírásfelismerés tapasztalatai az European Digital Treasures projekben
Szatucsek Zoltán
Networkshop 2022
Debrecen. 2022. április 21.
Európa Digitális Kincsei
nemzeti levéltárak: Málta. Portugália. Magyarország. Norvégia
Spanyolország: Kulturális. Oktatási és Sportminisztérium
Munster Egyetem. Írország
IcarUs. Ausztria
Új üzleti modellek megvalósítása. amelyek segítségével a levéltárak nagyobb hozzáadott értéket biztosítanak a felhasználóknak és kedvezőbb jövedelmezőséget szolgáltatásaik bővítéséhez.
A levéltárfelhasználók nagyobb diverzifikációja új közönségfejlesztési stratégiák és tevékenységek révén. különösen a fiatalabb és idősebb generációk tekintetében.
Az európai örökség. történelem és kultúra nagyobb láthatósága a gyűjtemények és szakemberek transznacionális mobilitásán keresztül.
EDT Activity #21 - Crowdsourcing
Sok ember számára a nyugdíjba vonulás kilátása lehetőséget ad arra. hogy új irányokat és új kihívásokat keressen. Az emberek nyugdíjas korukban több időt töltenek aktív életükkel. és sokan közülük hobbiknak. szabadidős és önkéntes tevékenységeknek vagy oktatásnak szeretnének hódolni. Az Egyesült Államokban a kertészkedést követő legelterjedtebb hobbi a családtörténet-kutatás
5 személyes találkozó és workshop valamennyi levéltárban
30 fő / esemény
900 résztvevő elérése
Adatkinyerés a levéltári forrásokból
A gépi feldolgozás. az adatok tömeges. automatikus kinyerése az egyedüli megoldás a nagy gyűjtemények hozzáférhetővé tételére
a dokumentumok komplexek
a gyűjtemények nehezen áttekinthetők
proveniencia vs. pertinencia
A Transkribus probléma
Keyword spotting - KWS
kikönnyített HTR. azzal a céllal. hogy meghatározza egy keresőszóval egyező szöveg lehetséges helyét egy szöveges dokumentum digitális fényképén. anélkül. hogy a dokumentum teljes szövegének átírására törekedne.
layout felismerés. szavakat vagy sorokat tartalmazó szövegdobozok.
szövegdobozok előfeldolgozása.
átírás optikai és nyelvi modellek segítségével.
valószínűségi indexálás.
Projekt munkafolyamat
Ugyan az eredeti elvárás a crowdsourcing tevékenységgel volt kapcsolatos a kézírásfelismerés bevonása izgalmasabbá. de egyúttal összetettebbé is tette a feladatot
gyűjtemények kiválasztása
annotálás (1. training)
1. kör HTR és Prix
GUI a szerkesztésre és keresésre
önkéntesek toborzása
validálás (2. training)
2. kör HTR/PrIx
Öt gyűjtemény öt országból
A legnagyobb nyomás a levéltárakon a családtörténeti kutatásokban hasznosítható gyűjteményeken van.
Novégia - Nemzeti népességnyilvántartás. 1960-
Portugália - VI. János rendeleteinek gyűjteménye 1792-1826
Magyarország - 1828. évi országos összeírás
Málta - Kivándorlási iratok. Határőrség. 1905-1966
Spanyolország - Spanyolország Bukenos Aires-i konzulátusának útlevélkiállítási nyilvántartása. 1936-1939
Kézírásfelismerés és valószínűségi indexálás (PrIx)
optikai és nyelvi modell használata
alternatív szóváltozatok létrehozása megbízhatósági érékekkel
elkülönített validálási és tanítási adatokon keresztül mérve. átlagoló metrikákkal
Az eredmények mind az öt gyűjtemény esetében kielégítőek voltak. A homogén dokumentumok esetében jobbak. a kevésbé szabályos heterogén kéziratok esetében pedig gyengébbek. De még ezeken az alacsonyabb teljesítményszinteken is használhatóak a rendszerek a gyakorlatban a releváns információk megbízható keresésére.
Tanulságok
Van élet a Transkribuson túl
Nem elsősorban technológiai kihívás
Crowdsourcing teljesen kultúrafüggő
http://edt.transkriptorium.com/hungary/
A jövő
Az OAIS-archívumokban tárolt összes adat korlátlan. mesterséges intelligenciával szemantikailag összekapcsolását lépésről lépésre megvalósítani az ehhez hasonló kis projekteken keresztül.
strukturált adatkinyerés
szemantikus taggelés
Named Entity Recognition
NLP alapú klaszterezés
gyűjtemények közötti kapcsolatok D o k u m e n t u m n y e l v e : magyar K a p c s o l ó d ó d o k u m e n t u m n e v e : Szatucsek Zoltán: Born digital archiválási, dokumentumkezelési gyakorlat a Magyar Nemzeti Levéltárban A f o r m á t u m n e v e : PowerPoint prezentáció O l d a l a k s z á m a : 12 T e c h n i k a i m e g j e g y z é s : Microsoft Office PowerPoint 2016 M e t a a d a t a d o k u m e n t u m b a n : N A f o r m á t u m n e v e : PDF dokumentum O l d a l a k s z á m a : 12 M e t a a d a t a d o k u m e n t u m b a n : N A f o r m á t u m n e v e : HTML dokumentum T e c h n i k a i m e g j e g y z é s : HTML 5 verzió M e t a a d a t a d o k u m e n t u m b a n : N L e g j o b b f o r m á t u m : JPEG képállomány L e g n a g y o b b k é p m é r e t : 770x433 pixel L e g j o b b f e l b o n t á s : 96 DPI S z í n : színes T ö m ö r í t é s m i n ő s é g e : közepesen tömörített Á l t a l á n o s m e g j e g y z é s : Networkshop konferencia 2022 A z a d a t r e k o r d s t á t u s z a : KÉSZ S z e r e p / m i n ő s é g : katalogizálás A f e l d o l g o z ó n e v e : Nagy Zsuzsanna |