Neural Models for Multilingual Inflection
Neuronové modely pro vícejazyčnou inflexi
diplomová práce (OBHÁJENO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/199280Identifikátory
SIS: 268176
Kolekce
- Kvalifikační práce [11606]
Autor
Vedoucí práce
Oponent práce
Rosa, Rudolf
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika - Jazykové technologie a počítačová lingvistika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
3. 6. 2025
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
automatické skloňování|multilingvalita|Universal Dependencies|TransformerKlíčová slova (anglicky)
morphological inflection|multilinguality|Universal Dependencies|TransformerTato práce se zabývá využitím metod hlubokého učení pro automatické skloňování, tj. pro úlohu modifikace základního slova (lemmatu) za účelem vyjádření gramatických kategorií, se zaměřením na multilingvální přístup a možnost budoucího nasazení v rámci open-source nástroje či webové služby. Využíváme korpusy Universal Dependencies pokrývající 73 jazyků, ze kte- rých extrahujeme trojice lemma-tag-forma spolu s počty jejich výskytů. Pro zajištění realistického rozdělení trénovacích a testovacích dat provádíme nové přerozdělení trénovací, validační a testovací množiny, přičemž dbáme na od- dělení lemmat a zohledňujeme jejich frekvenci. K hodnocení výsledků pou- žíváme standardní metriku type accuracy spolu s token accuracy, která lépe odráží reálné nasazení systému tím, že klade větší důraz na častá slova. V reakci na absenci open-source, komputačně nenáročného, multilingválního generátoru pro skloňování, schopného pracovat i s neznámými slovy, expe- rimentujeme se současnou špičkovou architekturou pro tuto úlohu: nízkoka- pacitním enkodér-dekodér Transformerem. Tento model provádí skloňování tím, že přijímá lemma znak po znaku spolu s gramatickým tagem jako vstup a generuje vyskloňovanou formu jako výstup. Naše multilingvální systémy, trénované na 33 nebo 73 jazycích, jsou komputačně nenáročné, zvládají ne-...
This thesis investigates supervised deep learning models for automatic morphological inflection, the task of modifying a base word (lemma) to ex- press grammatical categories, with a focus on multilinguality and potential deployment in an open-source tool or web service. We use Universal Depen- dencies (UD) corpora across 73 languages, extracting lemma-tag-form triples along with their occurrence counts. A novel frequency-weighted, lemma- disjoint train-dev-test re-split is performed to ensure a realistic train-test data distribution. For evaluation, we use the standard type accuracy met- ric together with token accuracy, which better reflects deployment scenarios by placing greater emphasis on frequent words. To address the absence of an open-source, lightweight, multilingual morphological inflection generator capable of handling unknown words, we experiment with the current state-of- the-art architecture on the inflection task, a small-capacity, encoder-decoder Transformer model trained from scratch. This model performs morpholog- ical inflection by taking the lemma character-by-character and the tag as input and producing the inflected form as output. Our multilingual sys- tems, trained jointly on 33 or 73 languages, are lightweight, handle unknown words, and outperform separately trained monolingual...