Neural Models for Multilingual Inflection
Neuronové modely pro vícejazyčnou inflexi
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/199280Identifiers
Study Information System: 268176
Collections
- Kvalifikační práce [11899]
Author
Advisor
Referee
Rosa, Rudolf
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computer Science - Language Technologies and Computational Linguistics
Department
Institute of Formal and Applied Linguistics
Date of defense
3. 6. 2025
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
automatické skloňování|multilingvalita|Universal Dependencies|TransformerKeywords (English)
morphological inflection|multilinguality|Universal Dependencies|TransformerTato práce se zabývá využitím metod hlubokého učení pro automatické skloňování, tj. pro úlohu modifikace základního slova (lemmatu) za účelem vyjádření gramatických kategorií, se zaměřením na multilingvální přístup a možnost budoucího nasazení v rámci open-source nástroje či webové služby. Využíváme korpusy Universal Dependencies pokrývající 73 jazyků, ze kte- rých extrahujeme trojice lemma-tag-forma spolu s počty jejich výskytů. Pro zajištění realistického rozdělení trénovacích a testovacích dat provádíme nové přerozdělení trénovací, validační a testovací množiny, přičemž dbáme na od- dělení lemmat a zohledňujeme jejich frekvenci. K hodnocení výsledků pou- žíváme standardní metriku type accuracy spolu s token accuracy, která lépe odráží reálné nasazení systému tím, že klade větší důraz na častá slova. V reakci na absenci open-source, komputačně nenáročného, multilingválního generátoru pro skloňování, schopného pracovat i s neznámými slovy, expe- rimentujeme se současnou špičkovou architekturou pro tuto úlohu: nízkoka- pacitním enkodér-dekodér Transformerem. Tento model provádí skloňování tím, že přijímá lemma znak po znaku spolu s gramatickým tagem jako vstup a generuje vyskloňovanou formu jako výstup. Naše multilingvální systémy, trénované na 33 nebo 73 jazycích, jsou komputačně nenáročné, zvládají ne-...
This thesis investigates supervised deep learning models for automatic morphological inflection, the task of modifying a base word (lemma) to ex- press grammatical categories, with a focus on multilinguality and potential deployment in an open-source tool or web service. We use Universal Depen- dencies (UD) corpora across 73 languages, extracting lemma-tag-form triples along with their occurrence counts. A novel frequency-weighted, lemma- disjoint train-dev-test re-split is performed to ensure a realistic train-test data distribution. For evaluation, we use the standard type accuracy met- ric together with token accuracy, which better reflects deployment scenarios by placing greater emphasis on frequent words. To address the absence of an open-source, lightweight, multilingual morphological inflection generator capable of handling unknown words, we experiment with the current state-of- the-art architecture on the inflection task, a small-capacity, encoder-decoder Transformer model trained from scratch. This model performs morpholog- ical inflection by taking the lemma character-by-character and the tag as input and producing the inflected form as output. Our multilingual sys- tems, trained jointly on 33 or 73 languages, are lightweight, handle unknown words, and outperform separately trained monolingual...