Modelování kompozit pro vícejazyčné zdroje jazykových dat
Modelling compounds for multilingual language data resources
dissertation thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/195343Identifiers
Study Information System: 224704
Collections
- Kvalifikační práce [11214]
Author
Advisor
Referee
Hana, Jiří
Hathout, Nabil
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computational linguistics
Department
Institute of Formal and Applied Linguistics
Date of defense
27. 9. 2024
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Pass
Keywords (Czech)
kompozitum, slovotvorba, základové slovo, zdroj jazykových dat, vícejazyčnýKeywords (English)
compound, word-formation, base word, language data resource, multilingualKompozice je slovotvorný proces, při kterém se kombinují dvě nebo více slov, kořenů nebo kmenů do jednoho nového slova. Tento proces je doložený v mnoha různých jazycích, a často hraje roli na pomezí slovotvorby a větné skladby. Perspektiva pohlížející na tento fenomén multilingválně může tím pádem být cenná pro několik různých oborů jazykovědy, specificky morfologie, syntaxe, a typologie. V této práci se zaměřujeme na češtinu, angličt- inu, němčinu, nizozemštinu, ruštinu, francouzštinu a španělštinu. Kompozita v prvé řadě modelujeme z hlediska jejich základových slov. Tuto úlohu nazýváme dělením kompozit. Krom toho se zaměřujeme i na identifikaci kompozic, to znamená je- jich rozlišení od ostatních typů slov. Práce začíná tím, že splnění těchto úloh ukážeme na češtině za pomoci hlubokého učení a stringových shod. Na témže jazyce práce po- tom zobecní dělení kompozit na vyhledávání základových slov tím, že prezentuje nástroj Word Formation Analyzer for Czech. Tento nástroj krom kompozice pokrývá i derivaci, což znamená, že jsme schopni automaticky dohledat slovotvorného předka pro slova, která mají jenom jednoho předka, a nemotivovaná slova, tedy rozpoznat, že slovo žádné předky nemá. Nakonec představujeme multilingvální nástroj PaReNT vykonávající téže úlohy, za- ložený na bázi hlubokého modelu o vlastní...
Compounding is a word-formation process wherein several words, roots, or stems are combined to create novel words. It has been observed in many languages, and often stands on the boundary between word formation and syntax. As such, a multilingual per- spective on this process can be valuable for several fields of study, namely morphology, syntax, and typology. In this thesis, we focus on Czech, English, German, Dutch, Russian, French, and Spanish. We first model compounds in terms of the words that they can be traced back to, call- ing the task compound splitting, and also in terms of identifying them from other words, calling the task compound identification. We begin by demonstrating this on Czech using deep learning and string matching. Then, on the same language, we generalize com- pound splitting task into parent retrieval, by building a tool called Word Formation Ana- lyzer for Czech. It also covers derivation, meaning that we can trace an input word back to only a single word, and unmotivated words (recognizing that the input word has no ancestors) in addition to compounding. Finally, we present a multilingual parent retrieval and word formation classification tool called PaReNT, based around a custom-architecture deep model combining character-based and semantic representations, and show how the...