Modelování kompozit pro vícejazyčné zdroje jazykových dat

Svoboda, Emil

Modelling compounds for multilingual language data resources

dc.contributor.advisor	Ševčíková, Magda
dc.creator	Svoboda, Emil
dc.date.accessioned	2024-11-29T02:33:10Z
dc.date.available	2024-11-29T02:33:10Z
dc.date.issued	2024
dc.identifier.uri	http://hdl.handle.net/20.500.11956/195343
dc.description.abstract	Kompozice je slovotvorný proces, při kterém se kombinují dvě nebo více slov, kořenů nebo kmenů do jednoho nového slova. Tento proces je doložený v mnoha různých jazycích, a často hraje roli na pomezí slovotvorby a větné skladby. Perspektiva pohlížející na tento fenomén multilingválně může tím pádem být cenná pro několik různých oborů jazykovědy, specificky morfologie, syntaxe, a typologie. V této práci se zaměřujeme na češtinu, angličt- inu, němčinu, nizozemštinu, ruštinu, francouzštinu a španělštinu. Kompozita v prvé řadě modelujeme z hlediska jejich základových slov. Tuto úlohu nazýváme dělením kompozit. Krom toho se zaměřujeme i na identifikaci kompozic, to znamená je- jich rozlišení od ostatních typů slov. Práce začíná tím, že splnění těchto úloh ukážeme na češtině za pomoci hlubokého učení a stringových shod. Na témže jazyce práce po- tom zobecní dělení kompozit na vyhledávání základových slov tím, že prezentuje nástroj Word Formation Analyzer for Czech. Tento nástroj krom kompozice pokrývá i derivaci, což znamená, že jsme schopni automaticky dohledat slovotvorného předka pro slova, která mají jenom jednoho předka, a nemotivovaná slova, tedy rozpoznat, že slovo žádné předky nemá. Nakonec představujeme multilingvální nástroj PaReNT vykonávající téže úlohy, za- ložený na bázi hlubokého modelu o vlastní...	cs_CZ
dc.description.abstract	Compounding is a word-formation process wherein several words, roots, or stems are combined to create novel words. It has been observed in many languages, and often stands on the boundary between word formation and syntax. As such, a multilingual per- spective on this process can be valuable for several fields of study, namely morphology, syntax, and typology. In this thesis, we focus on Czech, English, German, Dutch, Russian, French, and Spanish. We first model compounds in terms of the words that they can be traced back to, call- ing the task compound splitting, and also in terms of identifying them from other words, calling the task compound identification. We begin by demonstrating this on Czech using deep learning and string matching. Then, on the same language, we generalize com- pound splitting task into parent retrieval, by building a tool called Word Formation Ana- lyzer for Czech. It also covers derivation, meaning that we can trace an input word back to only a single word, and unmotivated words (recognizing that the input word has no ancestors) in addition to compounding. Finally, we present a multilingual parent retrieval and word formation classification tool called PaReNT, based around a custom-architecture deep model combining character-based and semantic representations, and show how the...	en_US
dc.language	Čeština	cs_CZ
dc.language.iso	cs_CZ
dc.publisher	Univerzita Karlova, Matematicko-fyzikální fakulta	cs_CZ
dc.subject	compound	en_US
dc.subject	word-formation	en_US
dc.subject	base word	en_US
dc.subject	language data resource	en_US
dc.subject	multilingual	en_US
dc.subject	kompozitum	cs_CZ
dc.subject	slovotvorba	cs_CZ
dc.subject	základové slovo	cs_CZ
dc.subject	zdroj jazykových dat	cs_CZ
dc.subject	vícejazyčný	cs_CZ
dc.title	Modelování kompozit pro vícejazyčné zdroje jazykových dat	cs_CZ
dc.type	dizertační práce	cs_CZ
dcterms.created	2024
dcterms.dateAccepted	2024-09-27
dc.description.department	Institute of Formal and Applied Linguistics	en_US
dc.description.department	Ústav formální a aplikované lingvistiky	cs_CZ
dc.description.faculty	Matematicko-fyzikální fakulta	cs_CZ
dc.description.faculty	Faculty of Mathematics and Physics	en_US
dc.identifier.repId	224704
dc.title.translated	Modelling compounds for multilingual language data resources	en_US
dc.contributor.referee	Hana, Jiří
dc.contributor.referee	Hathout, Nabil
thesis.degree.name	Ph.D.
thesis.degree.level	doktorské	cs_CZ
thesis.degree.discipline	Computational linguistics	en_US
thesis.degree.discipline	Matematická lingvistika	cs_CZ
thesis.degree.program	Computational linguistics	en_US
thesis.degree.program	Matematická lingvistika	cs_CZ
uk.thesis.type	dizertační práce	cs_CZ
uk.taxonomy.organization-cs	Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky	cs_CZ
uk.taxonomy.organization-en	Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics	en_US
uk.faculty-name.cs	Matematicko-fyzikální fakulta	cs_CZ
uk.faculty-name.en	Faculty of Mathematics and Physics	en_US
uk.faculty-abbr.cs	MFF	cs_CZ
uk.degree-discipline.cs	Matematická lingvistika	cs_CZ
uk.degree-discipline.en	Computational linguistics	en_US
uk.degree-program.cs	Matematická lingvistika	cs_CZ
uk.degree-program.en	Computational linguistics	en_US
thesis.grade.cs	Prospěl/a	cs_CZ
thesis.grade.en	Pass	en_US
uk.abstract.cs	Kompozice je slovotvorný proces, při kterém se kombinují dvě nebo více slov, kořenů nebo kmenů do jednoho nového slova. Tento proces je doložený v mnoha různých jazycích, a často hraje roli na pomezí slovotvorby a větné skladby. Perspektiva pohlížející na tento fenomén multilingválně může tím pádem být cenná pro několik různých oborů jazykovědy, specificky morfologie, syntaxe, a typologie. V této práci se zaměřujeme na češtinu, angličt- inu, němčinu, nizozemštinu, ruštinu, francouzštinu a španělštinu. Kompozita v prvé řadě modelujeme z hlediska jejich základových slov. Tuto úlohu nazýváme dělením kompozit. Krom toho se zaměřujeme i na identifikaci kompozic, to znamená je- jich rozlišení od ostatních typů slov. Práce začíná tím, že splnění těchto úloh ukážeme na češtině za pomoci hlubokého učení a stringových shod. Na témže jazyce práce po- tom zobecní dělení kompozit na vyhledávání základových slov tím, že prezentuje nástroj Word Formation Analyzer for Czech. Tento nástroj krom kompozice pokrývá i derivaci, což znamená, že jsme schopni automaticky dohledat slovotvorného předka pro slova, která mají jenom jednoho předka, a nemotivovaná slova, tedy rozpoznat, že slovo žádné předky nemá. Nakonec představujeme multilingvální nástroj PaReNT vykonávající téže úlohy, za- ložený na bázi hlubokého modelu o vlastní...	cs_CZ
uk.abstract.en	Compounding is a word-formation process wherein several words, roots, or stems are combined to create novel words. It has been observed in many languages, and often stands on the boundary between word formation and syntax. As such, a multilingual per- spective on this process can be valuable for several fields of study, namely morphology, syntax, and typology. In this thesis, we focus on Czech, English, German, Dutch, Russian, French, and Spanish. We first model compounds in terms of the words that they can be traced back to, call- ing the task compound splitting, and also in terms of identifying them from other words, calling the task compound identification. We begin by demonstrating this on Czech using deep learning and string matching. Then, on the same language, we generalize com- pound splitting task into parent retrieval, by building a tool called Word Formation Ana- lyzer for Czech. It also covers derivation, meaning that we can trace an input word back to only a single word, and unmotivated words (recognizing that the input word has no ancestors) in addition to compounding. Finally, we present a multilingual parent retrieval and word formation classification tool called PaReNT, based around a custom-architecture deep model combining character-based and semantic representations, and show how the...	en_US
uk.file-availability	V
uk.grantor	Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky	cs_CZ
thesis.grade.code	P
uk.publication-place	Praha	cs_CZ
uk.thesis.defenceStatus	O