D O K U M E N T U M A Z O N O S Í T Ó F á j l n é v : hegedus_istvan_masodik_vh.jpg B é l y e g k é p : https://dka.oszk.hu/129500/129578/hegedus_istvan_masodik_vh_kiskep.jpg F ő c í m : A második világháborús hadifoglyok és internáltak újbóli "hazatérése" B e s o r o l á s i c í m : Második világháborús hadifoglyok és internáltak újbóli "hazatérése" S z e r e p : létrehozó B e s o r o l á s i n é v : Hegedűs U t ó n é v : István I n v e r t á l a n d ó n é v : N E s e m é n y : felvéve I d ő p o n t : 2022-06-08 E s e m é n y : elérhető I d ő p o n t : 2022-04-21 D á t u m r a v o n a t k o z ó m e g j e g y z é s : Az előadás időpontja. A t í p u s n e v e : prezentáció A t í p u s n e v e : előadás M e g n e v e z é s : Prezentáció M e g n e v e z é s : Könyvtártudomány - prezentáció M e g n e v e z é s : Networkshop 2022 M e g n e v e z é s : Panopto A j o g t u l a j d o n o s n e v e : Hegedűs István S z e r z ő i j o g i m e g j e g y z é s e k : Jogvédett T é m a k ö r : Történelem, helytörténet A l t é m a k ö r : Magyar történelem 1919-1945 T é m a k ö r : Történelem, helytörténet A l t é m a k ö r : Levéltári kutatás T é m a k ö r : Könyvtártan, információtudomány A l t é m a k ö r : Információs források T é m a k ö r : Könyvtártan, információtudomány A l t é m a k ö r : Könyvtárvezetés, könyvtárügy T á r g y s z ó : második világháború M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : hadifogoly M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : magyarság M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : levéltári kutatás M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : adatkezelés M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : 2022 M i n ő s í t ő : időszak K é p a l á í r á s : A második világháborús hadifoglyok és internáltak újbóli "hazatérése" N y e r s v a g y O C R - e s s z ö v e g : A második világháborús hadifoglyok és internáltak újbóli "hazatérése"
Hegedűs István
Digitális Tartalomfejlesztési Osztály
2022. április 21.
Előzmények
A Magyar Nemzeti Levéltár és az Orosz Állami Hadilevéltár (RGVA) 2019. április 8-án kötött együttműködést
a második világháború idején a Vörös Hadsereg által foglyul ejtett és ezt követően a Szovjetunióban fogolyként nyilvántartott magyar nemzetiségű személyek nyilvántartó kartonjainak digitalizálásáról és a digitális másolatok átadásáról.
Közel 682 000 karton másolata
A Magyar Nemzeti Levéltárnak átadott iratmásolatokhoz egy orosz nyelvű, cirill betűs leírást is készített az orosz fél, amely a nyilvántartó kartonokon szereplő, az egyes személyekhez köthető legfontosabb információkat tartalmazta.
Ezért a személyneveknél és a földrajzi neveknél az átírás és a fordítás nyelvi feldolgozáson alapuló gépi algoritmusok segítségével történt - az ELKH Nyelvtudományi Intézetének bevonásával. 2020. végéig a fordító algoritmus számos finomításon esett át, így 2021-re a személyneveknél 90% feletti, míg a földrajzi neveknél 70%-ot meghaladó találati eredményt sikerült az algoritmusnak elérni.
A projekt második szakaszának célja (2021. szeptember – 2022 március)
Különálló adatbázisok rekordjai közötti kapcsolatok feltárása
Adatstruktúra kidolgozása, adatok tisztítása, normalizálása
AI használata a folyamat meggyorsításához (tanulóadatok, AI modell tanítás, alkalmazás)
Gráfadatbázis kialakítása az eredmények vizualizációjához
Keretrendszer kialakítása
Technológiai környezet és módszertani alapok lefektetése a hosszútávon elvégzendő adattisztítás és elemzési feladatok támogatásához
A projekt második szakaszának lépései
Adattisztítás és elemzés
Tábornevek kinyerése folyó szövegből
Nemek meghatározása
Nemzetiségek kategorizálása
Helyszínnevek tisztítása (lakhely, szül. hely, fogságba esés)
Beosztások hierarchiába rendezése
AI modell tervezés
Folyamatosan tanuló modell
Később továbbfejleszthető megoldás
Alkalmazás és adatbázis
Statisztikai módszerekkel előszűrés
Könnyen személyre szabható megoldás
Adatbázis
Felhasználói felület
Vizualizáció
Folyamatábra
Egy folyamatosan futó, tanuló, és továbbfejleszthető megoldás keretrendszerének sematikus ábrája:
A GT mellett a többi komponens is úgy lett kialakítva, hogy azok könnyen módosíthatóak, és a folyamat képes ezen módosításokat kezelni
Levéltáros/történész általi validáció/modelltanítás
Az AI modell tanítóadata nem állt rendelkezésre a megoldás átadásakor
Ezt az emberi munkaerő hozza létre azzal, hogy egy alapmodell eredményeit validálja (elfogadja, vagy elutasítja)
Így tudja a modell idővel kiváltani az emberi jóváhagyást
Az ember általi validáció által érhető el, hogy a modell tanuljon és egyre jobb legyen.
2. Ütem fejlesztési lépések
Nem eldönthető kategória bevezetése
Frontend felületen külön gombbal megjelenítve
Szűrések során „Nem eldönthető” döntés figyelembe vétele
Szűrések mentén történő validáció
A validáló felületen a megjelenített rekordok szűrhetőek: Adatbázis ID, Modell által javasolt egyezőség, Minimális validálások száma, Minimális egyező validálások száma, Maximális „Nem eldönthető” döntések száma alapján
Több személy általi validáció
Minden validálandó párt felkínál a rendszer több különböző validáló személynek is, előnyben részesítve a már validált párokat
Gyakorisági adatok kiszámítása
MNL által biztosított adattáblák alapján minden személy neve, és különböző településnév adatainak Népszámlási adatokból vett gyakorisága alapján egy gyakorisági érték számítása
Optimalizálás
Gyakorisági adatok számításnak optimalizálása
Validációs felület megjelenítésért felelős lekérdezésének optimalizálása
Vizsgált modellek
Logisztikus regresszió
A logisztikus regresszió során a modell célja, hogy egy olyan egyenletet állítson fel, melyben a bemeneti súlyok egy modell által meghatározott súllyal vett szorzatainak összege és egy konstans összege kiadja a modell kimenetét
Hagyományos döntési fa
Egy darab döntési fa felépítése, mely a bemeneti paraméterek értékkészletét olyan módon vágja több részre minden egyes paraméter mentén, hogy az ágak végén lévő leveleken egy csoportba (egyező/nem egyező) párok szerepeljenek csak túlnyomórészt
Random Forest
A döntési fa továbbfejlesztése, melyben több egyedi fából álló „erdő” létezik, és a modell ezen fák egyedi többségi döntését adja kimenetként
Gradient Boosted Tree
A random forest továbbfejlesztése, mely során a fák egymás után épülnek fel, így a korábbi fák tudását felhasználva jönnek létre egyre újabb fák
Neurális hálók
A bemeneti paraméterek gyakorlatilag egy logisztikus regresszióhoz hasonló módon a rejtett réteg mindegy egyes neuronját aszerint aktiválják, hogy a modell milyen súlyt rendel az egyes bemeneti változókhoz. Majd ezen rejtett rétegen szereplő különálló neuronok további rejtett rétegek neuronjait aktiválják hasonló módon, de itt már a neuronok kapnak saját súlyokat, és így tovább. A végén egy darab neuronban egyesülnek ezen aktivációk, mely meghatározza a kimenetet
Modellezési eredmények (validációs adatokon)
Logisztikus regresszió
Gyakorlatilag mindent „Egyező”-re prediktált
Az adatbázis ID kapta a legnagyobb súlyt
Döntési fa
Elég jó eredmény, komplexitásában az egyik legegyszerűbb és legjobban értelmezhető modell
Random forest
A döntési fánál csak minimálisan jobb eredmény
Neurális hálók
A neurális hálók csak speciális adatelőkészítés esetén működnek hatékonyan, és erőforrásigényesek
Választott modell (Gradient Boosted Tree)
Az eredmények javulásának elsődleges oka a pontosabb validálás és a több személy általi validálások által nyert magasabb bizonyosság
Emellett kisebb részben javított az eredményeken a modellek hiperparaméterezése
Több különböző modell architektúra is kipróbálásra került, azonban nem tudják olyan mértékben befolyásolni az eredményt, mint a jobb minőségű tanítóadat
Modell eredmények
A bal oldali diagramon látható, hogy minél több validálás történt egy adott páron, annál kisebb a modell eredményének szórása
A modell eredmények jellemzően a 2 szélső tartomány felé tendálnak (jobb oldali ábra), azaz elég biztosan alkot véleményt most már a modell
Modell eredménye
Az új modell eredményeként a következő megállapításokat tehetjük:
Az adatbázisban szereplő személyrekordok száma: 941 401
A modell futtatása után létrejövő mesterrekordok száma: 846 359
Ebből az egy személyrekordot tartalmazó mesterID-k: 806 141, azaz ennyi olyan személy van, akihez nem lehet másik személyrekordot rendelni
Tehát van 135 260 (941 401 - 806 141) olyan személyrekord, akik nem egyediek, ezek összesen 40 218 (846 359 - 806 141) mesterrekordba rendezhetőek össze
Emellett megállapíthatjuk, hogy a modell alapján találtunk 95 042 (941 401 - 846 359) duplikációt, melyek összevonhatóak egy- vagy több másik személyrekorddal
A projekt legfőbb eredménye olyan lehetséges kapcsolatok beazonosítása a kartonok között amelyek emberi munkaerővel, tömegesen nem felfedezhetők
Tanulságok
Előzetes adatelemzés -az adatok eloszlását, hiányzó értékeket, lehetséges értékkészletet elemezni!
2. Adatok tisztítása - további adattisztítási lépések bevezetése, hogy jobb összehasonlítási eredményeket kapjunk (Hol a határ?)
3. Keretrendszer és architektúra tervezés - Olyan architektúrát kell tervezni, mely eléggé nyitott, ahhoz, hogy más projektben is felhasználható legyen, de mégis hibatűrő
4. Adatbázis architektúra kialakítása - Köztes táblákat kellett bevezetni, melyek tárolják az egyes lépések értékeit, és a következő már erre tud építkezni.
5. AI modell megtervezése és kialakítása - Rengeteg hagyományos adatelemzési és előkészítési folyamat szükséges ahhoz, hogy megfelelő formába létrejöjjön az adat egy AI modell betanításához (adatelőkészítés fontossága!!)
6. Infrastruktúra biztonságossá tétele - AD integráció, adatbázis biztonsági szintek kialakítása, szerverek logikai, fizikai és hálózati szétválasztása biztosítja az illetéktelen módosítások elleni védelmet
7. Felhasználói felület fejlesztés - Mindezek után szükséges egy olyan felület, mely gyorsan és könnyen elérhetővé és használhatóvá teszi a felhasználó számára az így létrejött megoldást
Az elkészült fejlesztés csak az induló pontja annak a tevékenységnek amely során az adatok tisztasága, a hasonlóság számítások és a kapcsolatok feltárását célzó modellek folyamatosan javíthatók
adatbazisokonline.hu
Köszönöm a figyelmet!
Hegedűs István
Digitális Tartalomfejlesztési Osztály
Innovációs és Informatikai Igazgatóság
Magyar Nemzeti Levéltár
hegedus.istvan@mnl.gov.hu D o k u m e n t u m n y e l v e : magyar K a p c s o l ó d ó d o k u m e n t u m n e v e : Hegedűs István - Bánki Zsolt: Hiába Rázom, mégis Tiszalök A f o r m á t u m n e v e : PowerPoint prezentáció O l d a l a k s z á m a : 14 T e c h n i k a i m e g j e g y z é s : Microsoft Office PowerPoint 2016 M e t a a d a t a d o k u m e n t u m b a n : N A f o r m á t u m n e v e : PDF dokumentum O l d a l a k s z á m a : 14 M e t a a d a t a d o k u m e n t u m b a n : N A f o r m á t u m n e v e : HTML dokumentum T e c h n i k a i m e g j e g y z é s : HTML 5 verzió M e t a a d a t a d o k u m e n t u m b a n : N L e g j o b b f o r m á t u m : JPEG képállomány L e g n a g y o b b k é p m é r e t : 770x433 pixel L e g j o b b f e l b o n t á s : 96 DPI S z í n : színes T ö m ö r í t é s m i n ő s é g e : közepesen tömörített Á l t a l á n o s m e g j e g y z é s : Networkshop konferencia 2022 A z a d a t r e k o r d s t á t u s z a : KÉSZ A d o k u m e n t u m s t á t u s z a : INSIDE S z e r e p / m i n ő s é g : katalogizálás A f e l d o l g o z ó n e v e : Nagy Zsuzsanna |