D O K U M E N T U M A Z O N O S Í T Ó F á j l n é v : egyed_vajda_micsik_szociologia.jpg B é l y e g k é p : https://dka.oszk.hu/130100/130130/egyed_vajda_micsik_szociologia_kiskep.jpg F ő c í m : Szociológia, kutatási adatok, mesterséges intelligencia: lehetőségek és tapasztalatok B e s o r o l á s i c í m : Szociológia, kutatási adatok, mesterséges intelligencia: lehetőségek és tapasztalatok S z e r e p : létrehozó B e s o r o l á s i n é v : Vajda U t ó n é v : Róza I n v e r t á l a n d ó n é v : N S z e r e p : létrehozó B e s o r o l á s i n é v : Gergely U t ó n é v : Júlia I n v e r t á l a n d ó n é v : N S z e r e p : létrehozó B e s o r o l á s i n é v : Micsik U t ó n é v : András I n v e r t á l a n d ó n é v : N E s e m é n y : felvéve I d ő p o n t : 2022-06-20 E s e m é n y : kibocsátva I d ő p o n t : 2022-04-20 D á t u m r a v o n a t k o z ó m e g j e g y z é s : Az előadás időpontja. A t í p u s n e v e : prezentáció A t í p u s n e v e : előadás M e g n e v e z é s : Prezentáció M e g n e v e z é s : Könyvtártudomány - prezentáció M e g n e v e z é s : Networkshop 2022 M e g n e v e z é s : Panopto A j o g t u l a j d o n o s n e v e : Vajda Róza, Gergely Júlia, Micsik András S z e r z ő i j o g i m e g j e g y z é s e k : Jogvédett T é m a k ö r : Számítástechnika, hálózatok A l t é m a k ö r : Mesterséges intelligencia T é m a k ö r : Könyvtártan, információtudomány A l t é m a k ö r : Könyvtárvezetés, könyvtárügy T é m a k ö r : Könyvtártan, információtudomány A l t é m a k ö r : Tudománytörténet T á r g y s z ó : mesterséges intelligencia M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : digitális archívum M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : kutatás M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : tárgyszó M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : 2022 M i n ő s í t ő : időszak K é p a l á í r á s : Szociológia, kutatási adatok, mesterséges intelligencia: lehetőségek és tapasztalatok N y e r s v a g y O C R - e s s z ö v e g : Szociológia, kutatási adatok, mesterséges intelligencia: lehetőségek és tapasztalatok
Vajda Róza (TK KDK)
Gergely Júlia (TK KDK)
Micsik András (SZTAKI DSD)
Kik vagyunk? – a TK KDK bemutatása
kutatási adatrepozitóriumok + saját kutatások + adatmenedzsment szolgáltatások
kutatási anyagok, háttéranyagok (interjúk, kérdőívek, kitöltési útmutatók, kutatási tervek, terepnaplók, tanulmányvázlatok, adatbázisok stb.)
társadalom- és tudománytörténet, módszertan, újrahasznosítás
Két digitális dokumentumtárunk az interneten ingyenesen hozzáférhető - több tízezer digitális fájl
A metaadatok és a dokumentumok egy része szabad hozzáférésű, a többi regisztrációhoz kötött
a TK négy intézetében (JTI, KRTK, PTI, SZI) az elmúlt években zajlott kutatások anyagai
honlap: https://kdk.tk.hu/
repo: https://openarchive.tk.mta.hu/
a hazai kvalitatív társadalomkutatások öröksége (1960-2010)
honlap: https://20szazadhangja.tk.hu/
repo: https://voices.tk.mta.hu/
Mit? Miért?
Kereshetőség
tárgyszavazás nem egységes, nem dokumentumszintű
teljes szövegben keresésnél nem feltétlenül találjuk meg, ami érdekel minket
társadalmi mobilitás - "szegény", "pénz", "oktatás", stb.
Budapest - "Pest", "Margit körút"
Kutatások támogatása (tudománytörténet)
ki, mikor, mivel foglalkozott?
leggyakrabban említett szereplők, helyek, intézmények, időszakok?
Nagy és bővülő szövegkorpuszon kézi tárgyszó hozzárendelés hatalmas humán erőforrást igényelne -> mesterséges intelligencia alkalmazása: MILAB projekt
Projektcélok
Szempontok:
kutatási anyagaink kereshetőbbé, elérhetőbbé tétele
archívumaink átláthatóbbá, felhasználóbarátabbá tétele
rejtett összefüggések feltárása
összekapcsolódás más archívumokkal
= FAIR alapelvek biztosítása
-> metaadatok bővítése, fejlesztése
egységes tárgyszókészlet
névelemfelismerés
eredmények vizualizációja
Következő lépések:
statisztikák (témák, módszerek, szerzők, lokáció) + adatok interaktív vizualizációja
két archívum közös keresőfelületének kialakítása
Projekteredmények
egységes tárgyszókészlet és -struktúra kialakítása (fogalomháló)
tanulókorpusz létrehozása (a módszerek kikísérletezéséhez)
tárgyszavazás eddig: 21 manuálisan kódolt interjú,
368 gépileg kódolt interjú
tárgyszókészlet tesztelése
gép betanítása
gépi szövegelemző módszerek validálása
-> cél: gold standard a tömeges gépi kódoláshoz
Eredmények megjelenítése - interaktív felület
Lépések
Saját tárgyszókészlet létrehozása / javítása
Gépi kódolás manuális validálása
Tesztinterjúk gépi kódolása MI segítségével
Tanítóanyag készítése
Tanulókorpusz kiválasztása
Eredmények
Nagy mennyiségű interjú gépi kódolása
Eredmények beépítése archívumainkba
Egységes tárgyszókészleten alapuló közös kereső, interaktív vizualizáció
Saját tárgyszókészlet létrehozása / javítása
Forrás
Nincs:
magyar társadalomtudományos tárgyszókészlet
Van:
általános magyar tezaurusz (OSZK Köztaurusz)
szakkönyvek tárgymutatói
saját eddig használt tárgyszavaink (nem egységes)
nemzetközi társadalomtudományos tárgyszókészletek
választás: CESSDA ELSST - 14 nyelvű tezaurusz
Testreszabás
ELSST magyar fordítás saját testreszabott tezaurusz
maga a fordítás önálló projektté is vált
gépi fordítás (SZTAKI) + manuális javítás (KDK) + szakértői lektorálás (nyelvészeti, jogi)
3342 kifejezés 220 kifejezés (140 ELSST + 80 saját)
kifejezések az eredeti szókészlet szűkítésével + kiegészítésével
szempontok: relevancia, lefedettség, arányosság, tömbösítés, diszjunktivitás
többkörös folyamat
nemzetközi + szűk szókészlet + túlsúlyok az archívumok tartalmaihoz igazodva
ELSST
Fordítás
Tanítóanyag készítése
Szakaszok
teszt szakasz: 1 interjú, 43 oldal, 2 annotátor
első szakasz: 2 interjú, 64 oldal, 5-5 annotátor, 3341 elemű tárgyszólista
második szakasz: 10 interjú, 268 oldal, 2-2 annotátor, 641 elemű tárgyszólista
harmadik szakasz: 21 interjú, 735 oldal, 2-3 annotátor, 242 majd 220 elemű tárgyszólista
1. fázis
interjúk szakaszonkénti kódolása
irányelvek az annotátorok minél közelebbi kódolásának elérése céljából
tárgyszókészlet véglegesítése
2. fázis
gold standard kialakítása a speciális alkalmazáshoz igazítva
30% alatti egyezésnél (25%) harmadik, független annotátor
30% feletti egyezésnél (75%) az eredeti 2 annotátor megegyezése alapján
egyezés: ha a tárgyszóhoz tartozó, a hierarchiában a legfelső szinten lévő kifejezés azonos
Label Studio / annotálás
Label Studio / tárgyszavak
Label Studio / eredmények összehasonlítása
Kézi tárgyszavazás (tanítóhalmaz)
479 szövegrészre 3278 tárgyszó javaslat, átlagosan 6,8 egy szövegrészre
Vizsgált tárgyszavazási módszerek
TF-IDF: a tanítóhalmaz alapján szógyakoriságokat tanul a tárgyszavakhoz
Omikuji: fastruktúrájú tanuló megoldás extrém nagy korpuszokra
Ensemble: Omikuji és TF-IDF súlyozott kombinációja
NN-ensemble: Omikuji és TF-IDF kombinációja tanulással
SZTAKI: a tárgyszavakhoz rendelt kulcsszavak (pl. szinonimák) alapján
Alternatívák
A két módszer közel hasonló eredményességben
A tárgyszavak viszont különböznek!
Tanuló módszer
Követi a gold standard példáját
Megtanulja annak rejtett hibáit is
Biztosítani kell, hogy minden tárgyszóhoz elegendő előfordulás legyen a tanítóhalmazban
Tárgyszórendszer bővítése esetén újra kell tanítani
Saját módszer
Főleg statisztikai alapon működik, de NLP segítséggel
Csak a tartalom alapján tárgyszavaz (+ és - hatásokkal)
Biztosítani kell, hogy minden tárgyszóhoz elegendő kulcsszó/hívószó legyen
Tárgyszórendszer bővítése esetén nem kell újratanítani
Névelemek felismerése
HuBERT-et NER-KOR-on tanítottuk
emtsv, HuBERT, huspacy eredmények kombinálásával sikerült javítani a felismerési arányokon
Tanulságok
A magyar NLP eszközök további fejlesztése szükséges
Számunkra kifejezetten a lemmázás és névelem-felismerés fájó pont
Jó lenne egy gazdag és nyíltan hozzáférhető magyar szinonimaszótár
Az eredmények minőségének mérését meg kell oldani
Ehhez egyfajta gold standard nélkülözhetetlen, viszont rengeteg munka az elkészítése
Tanulás vagy nyelvi tudás?
Nem látjuk még egyik módszert sem kielégítőnek
Egyelőre az elvont fogalmak (pl. attitűd vagy jövőkép) mint témák észlelése nem tekinthető megoldottnak
További feladatok
Névelem felismerésben kiszűrni a hamis találatokat
Névelemek wikifikálását jelentősen javítani szükséges
Kulcsszavazás: a szótövezésben még vannak hibák
Tárgyszavazás: különböző módszerek további kombinációinak kipróbálása
Köszönjük a figyelmet!
https://openarchive.tk.mta.hu/
https://voices.tk.mta.hu/
https://dsd.sztaki.hu
vajda.roza@tk.hu
egyed-gergely.julia@tk.hu
micsik@sztaki.hu D o k u m e n t u m n y e l v e : magyar K a p c s o l ó d ó d o k u m e n t u m n e v e : Bátfai Erika, Pergéné Szabó Enikő: A tudományos publikálás támogatása a DEENK-ben A f o r m á t u m n e v e : PowerPoint prezentáció O l d a l a k s z á m a : 29 T e c h n i k a i m e g j e g y z é s : Microsoft Office PowerPoint 2016 M e t a a d a t a d o k u m e n t u m b a n : N A f o r m á t u m n e v e : PDF dokumentum O l d a l a k s z á m a : 29 M e t a a d a t a d o k u m e n t u m b a n : N A f o r m á t u m n e v e : HTML dokumentum T e c h n i k a i m e g j e g y z é s : HTML 5 verzió M e t a a d a t a d o k u m e n t u m b a n : N L e g j o b b f o r m á t u m : JPEG képállomány L e g n a g y o b b k é p m é r e t : 770x433 pixel L e g j o b b f e l b o n t á s : 96 DPI S z í n : színes T ö m ö r í t é s m i n ő s é g e : közepesen tömörített Á l t a l á n o s m e g j e g y z é s : Networkshop konferencia 2022 A z a d a t r e k o r d s t á t u s z a : KÉSZ S z e r e p / m i n ő s é g : katalogizálás A f e l d o l g o z ó n e v e : Nagy Zsuzsanna |