Modelování kompozit pro vícejazyčné zdroje jazykových dat
Modelling compounds for multilingual language data resources
dizertační práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/195343Identifikátory
SIS: 224704
Kolekce
- Kvalifikační práce [11214]
Autor
Vedoucí práce
Oponent práce
Hana, Jiří
Hathout, Nabil
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Matematická lingvistika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
27. 9. 2024
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Prospěl/a
Klíčová slova (česky)
kompozitum, slovotvorba, základové slovo, zdroj jazykových dat, vícejazyčnýKlíčová slova (anglicky)
compound, word-formation, base word, language data resource, multilingualKompozice je slovotvorný proces, při kterém se kombinují dvě nebo více slov, kořenů nebo kmenů do jednoho nového slova. Tento proces je doložený v mnoha různých jazycích, a často hraje roli na pomezí slovotvorby a větné skladby. Perspektiva pohlížející na tento fenomén multilingválně může tím pádem být cenná pro několik různých oborů jazykovědy, specificky morfologie, syntaxe, a typologie. V této práci se zaměřujeme na češtinu, angličt- inu, němčinu, nizozemštinu, ruštinu, francouzštinu a španělštinu. Kompozita v prvé řadě modelujeme z hlediska jejich základových slov. Tuto úlohu nazýváme dělením kompozit. Krom toho se zaměřujeme i na identifikaci kompozic, to znamená je- jich rozlišení od ostatních typů slov. Práce začíná tím, že splnění těchto úloh ukážeme na češtině za pomoci hlubokého učení a stringových shod. Na témže jazyce práce po- tom zobecní dělení kompozit na vyhledávání základových slov tím, že prezentuje nástroj Word Formation Analyzer for Czech. Tento nástroj krom kompozice pokrývá i derivaci, což znamená, že jsme schopni automaticky dohledat slovotvorného předka pro slova, která mají jenom jednoho předka, a nemotivovaná slova, tedy rozpoznat, že slovo žádné předky nemá. Nakonec představujeme multilingvální nástroj PaReNT vykonávající téže úlohy, za- ložený na bázi hlubokého modelu o vlastní...
Compounding is a word-formation process wherein several words, roots, or stems are combined to create novel words. It has been observed in many languages, and often stands on the boundary between word formation and syntax. As such, a multilingual per- spective on this process can be valuable for several fields of study, namely morphology, syntax, and typology. In this thesis, we focus on Czech, English, German, Dutch, Russian, French, and Spanish. We first model compounds in terms of the words that they can be traced back to, call- ing the task compound splitting, and also in terms of identifying them from other words, calling the task compound identification. We begin by demonstrating this on Czech using deep learning and string matching. Then, on the same language, we generalize com- pound splitting task into parent retrieval, by building a tool called Word Formation Ana- lyzer for Czech. It also covers derivation, meaning that we can trace an input word back to only a single word, and unmotivated words (recognizing that the input word has no ancestors) in addition to compounding. Finally, we present a multilingual parent retrieval and word formation classification tool called PaReNT, based around a custom-architecture deep model combining character-based and semantic representations, and show how the...