dc.contributor.advisor | Ševčíková, Magda | |
dc.creator | Svoboda, Emil | |
dc.date.accessioned | 2024-10-18T06:21:59Z | |
dc.date.available | 2024-10-18T06:21:59Z | |
dc.date.issued | 2024 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/195343 | |
dc.description.abstract | Compounding is a word-formation process wherein several words, roots, or stems are combined to create novel words. It has been observed in many languages, and often stands on the boundary between word formation and syntax. As such, a multilingual per- spective on this process can be valuable for several fields of study, namely morphology, syntax, and typology. In this thesis, we focus on Czech, English, German, Dutch, Russian, French, and Spanish. We first model compounds in terms of the words that they can be traced back to, call- ing the task compound splitting, and also in terms of identifying them from other words, calling the task compound identification. We begin by demonstrating this on Czech using deep learning and string matching. Then, on the same language, we generalize com- pound splitting task into parent retrieval, by building a tool called Word Formation Ana- lyzer for Czech. It also covers derivation, meaning that we can trace an input word back to only a single word, and unmotivated words (recognizing that the input word has no ancestors) in addition to compounding. Finally, we present a multilingual parent retrieval and word formation classification tool called PaReNT, based around a custom-architecture deep model combining character-based and semantic representations, and show how the... | en_US |
dc.description.abstract | Kompozice je slovotvorný proces, při kterém se kombinují dvě nebo více slov, kořenů nebo kmenů do jednoho nového slova. Tento proces je doložený v mnoha různých jazycích, a často hraje roli na pomezí slovotvorby a větné skladby. Perspektiva pohlížející na tento fenomén multilingválně může tím pádem být cenná pro několik různých oborů jazykovědy, specificky morfologie, syntaxe, a typologie. V této práci se zaměřujeme na češtinu, angličt- inu, němčinu, nizozemštinu, ruštinu, francouzštinu a španělštinu. Kompozita v prvé řadě modelujeme z hlediska jejich základových slov. Tuto úlohu nazýváme dělením kompozit. Krom toho se zaměřujeme i na identifikaci kompozic, to znamená je- jich rozlišení od ostatních typů slov. Práce začíná tím, že splnění těchto úloh ukážeme na češtině za pomoci hlubokého učení a stringových shod. Na témže jazyce práce po- tom zobecní dělení kompozit na vyhledávání základových slov tím, že prezentuje nástroj Word Formation Analyzer for Czech. Tento nástroj krom kompozice pokrývá i derivaci, což znamená, že jsme schopni automaticky dohledat slovotvorného předka pro slova, která mají jenom jednoho předka, a nemotivovaná slova, tedy rozpoznat, že slovo žádné předky nemá. Nakonec představujeme multilingvální nástroj PaReNT vykonávající téže úlohy, za- ložený na bázi hlubokého modelu o vlastní... | cs_CZ |
dc.language | Čeština | cs_CZ |
dc.language.iso | cs_CZ | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.subject | compound | en_US |
dc.subject | word-formation | en_US |
dc.subject | base word | en_US |
dc.subject | language data resource | en_US |
dc.subject | multilingual | en_US |
dc.subject | kompozitum | cs_CZ |
dc.subject | slovotvorba | cs_CZ |
dc.subject | základové slovo | cs_CZ |
dc.subject | zdroj jazykových dat | cs_CZ |
dc.subject | vícejazyčný | cs_CZ |
dc.title | Modelování kompozit pro vícejazyčné zdroje jazykových dat | cs_CZ |
dc.type | dizertační práce | cs_CZ |
dcterms.created | 2024 | |
dcterms.dateAccepted | 2024-09-27 | |
dc.description.department | Institute of Formal and Applied Linguistics | en_US |
dc.description.department | Ústav formální a aplikované lingvistiky | cs_CZ |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.identifier.repId | 224704 | |
dc.title.translated | Modelling compounds for multilingual language data resources | en_US |
dc.contributor.referee | Hana, Jiří | |
dc.contributor.referee | Hathout, Nabil | |
thesis.degree.name | Ph.D. | |
thesis.degree.level | doktorské | cs_CZ |
thesis.degree.discipline | Matematická lingvistika | cs_CZ |
thesis.degree.discipline | Computational linguistics | en_US |
thesis.degree.program | Computational linguistics | en_US |
thesis.degree.program | Matematická lingvistika | cs_CZ |
uk.thesis.type | dizertační práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Matematická lingvistika | cs_CZ |
uk.degree-discipline.en | Computational linguistics | en_US |
uk.degree-program.cs | Matematická lingvistika | cs_CZ |
uk.degree-program.en | Computational linguistics | en_US |
thesis.grade.cs | Prospěl/a | cs_CZ |
thesis.grade.en | Pass | en_US |
uk.abstract.cs | Kompozice je slovotvorný proces, při kterém se kombinují dvě nebo více slov, kořenů nebo kmenů do jednoho nového slova. Tento proces je doložený v mnoha různých jazycích, a často hraje roli na pomezí slovotvorby a větné skladby. Perspektiva pohlížející na tento fenomén multilingválně může tím pádem být cenná pro několik různých oborů jazykovědy, specificky morfologie, syntaxe, a typologie. V této práci se zaměřujeme na češtinu, angličt- inu, němčinu, nizozemštinu, ruštinu, francouzštinu a španělštinu. Kompozita v prvé řadě modelujeme z hlediska jejich základových slov. Tuto úlohu nazýváme dělením kompozit. Krom toho se zaměřujeme i na identifikaci kompozic, to znamená je- jich rozlišení od ostatních typů slov. Práce začíná tím, že splnění těchto úloh ukážeme na češtině za pomoci hlubokého učení a stringových shod. Na témže jazyce práce po- tom zobecní dělení kompozit na vyhledávání základových slov tím, že prezentuje nástroj Word Formation Analyzer for Czech. Tento nástroj krom kompozice pokrývá i derivaci, což znamená, že jsme schopni automaticky dohledat slovotvorného předka pro slova, která mají jenom jednoho předka, a nemotivovaná slova, tedy rozpoznat, že slovo žádné předky nemá. Nakonec představujeme multilingvální nástroj PaReNT vykonávající téže úlohy, za- ložený na bázi hlubokého modelu o vlastní... | cs_CZ |
uk.abstract.en | Compounding is a word-formation process wherein several words, roots, or stems are combined to create novel words. It has been observed in many languages, and often stands on the boundary between word formation and syntax. As such, a multilingual per- spective on this process can be valuable for several fields of study, namely morphology, syntax, and typology. In this thesis, we focus on Czech, English, German, Dutch, Russian, French, and Spanish. We first model compounds in terms of the words that they can be traced back to, call- ing the task compound splitting, and also in terms of identifying them from other words, calling the task compound identification. We begin by demonstrating this on Czech using deep learning and string matching. Then, on the same language, we generalize com- pound splitting task into parent retrieval, by building a tool called Word Formation Ana- lyzer for Czech. It also covers derivation, meaning that we can trace an input word back to only a single word, and unmotivated words (recognizing that the input word has no ancestors) in addition to compounding. Finally, we present a multilingual parent retrieval and word formation classification tool called PaReNT, based around a custom-architecture deep model combining character-based and semantic representations, and show how the... | en_US |
uk.file-availability | V | |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky | cs_CZ |
thesis.grade.code | P | |
uk.publication-place | Praha | cs_CZ |
uk.thesis.defenceStatus | O | |