Zobrazit minimální záznam

Modelling compounds for multilingual language data resources
dc.contributor.advisorŠevčíková, Magda
dc.creatorSvoboda, Emil
dc.date.accessioned2024-10-18T06:21:59Z
dc.date.available2024-10-18T06:21:59Z
dc.date.issued2024
dc.identifier.urihttp://hdl.handle.net/20.500.11956/195343
dc.description.abstractCompounding is a word-formation process wherein several words, roots, or stems are combined to create novel words. It has been observed in many languages, and often stands on the boundary between word formation and syntax. As such, a multilingual per- spective on this process can be valuable for several fields of study, namely morphology, syntax, and typology. In this thesis, we focus on Czech, English, German, Dutch, Russian, French, and Spanish. We first model compounds in terms of the words that they can be traced back to, call- ing the task compound splitting, and also in terms of identifying them from other words, calling the task compound identification. We begin by demonstrating this on Czech using deep learning and string matching. Then, on the same language, we generalize com- pound splitting task into parent retrieval, by building a tool called Word Formation Ana- lyzer for Czech. It also covers derivation, meaning that we can trace an input word back to only a single word, and unmotivated words (recognizing that the input word has no ancestors) in addition to compounding. Finally, we present a multilingual parent retrieval and word formation classification tool called PaReNT, based around a custom-architecture deep model combining character-based and semantic representations, and show how the...en_US
dc.description.abstractKompozice je slovotvorný proces, při kterém se kombinují dvě nebo více slov, kořenů nebo kmenů do jednoho nového slova. Tento proces je doložený v mnoha různých jazycích, a často hraje roli na pomezí slovotvorby a větné skladby. Perspektiva pohlížející na tento fenomén multilingválně může tím pádem být cenná pro několik různých oborů jazykovědy, specificky morfologie, syntaxe, a typologie. V této práci se zaměřujeme na češtinu, angličt- inu, němčinu, nizozemštinu, ruštinu, francouzštinu a španělštinu. Kompozita v prvé řadě modelujeme z hlediska jejich základových slov. Tuto úlohu nazýváme dělením kompozit. Krom toho se zaměřujeme i na identifikaci kompozic, to znamená je- jich rozlišení od ostatních typů slov. Práce začíná tím, že splnění těchto úloh ukážeme na češtině za pomoci hlubokého učení a stringových shod. Na témže jazyce práce po- tom zobecní dělení kompozit na vyhledávání základových slov tím, že prezentuje nástroj Word Formation Analyzer for Czech. Tento nástroj krom kompozice pokrývá i derivaci, což znamená, že jsme schopni automaticky dohledat slovotvorného předka pro slova, která mají jenom jednoho předka, a nemotivovaná slova, tedy rozpoznat, že slovo žádné předky nemá. Nakonec představujeme multilingvální nástroj PaReNT vykonávající téže úlohy, za- ložený na bázi hlubokého modelu o vlastní...cs_CZ
dc.languageČeštinacs_CZ
dc.language.isocs_CZ
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjectcompounden_US
dc.subjectword-formationen_US
dc.subjectbase worden_US
dc.subjectlanguage data resourceen_US
dc.subjectmultilingualen_US
dc.subjectkompozitumcs_CZ
dc.subjectslovotvorbacs_CZ
dc.subjectzákladové slovocs_CZ
dc.subjectzdroj jazykových datcs_CZ
dc.subjectvícejazyčnýcs_CZ
dc.titleModelování kompozit pro vícejazyčné zdroje jazykových datcs_CZ
dc.typedizertační prácecs_CZ
dcterms.created2024
dcterms.dateAccepted2024-09-27
dc.description.departmentInstitute of Formal and Applied Linguisticsen_US
dc.description.departmentÚstav formální a aplikované lingvistikycs_CZ
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.identifier.repId224704
dc.title.translatedModelling compounds for multilingual language data resourcesen_US
dc.contributor.refereeHana, Jiří
dc.contributor.refereeHathout, Nabil
thesis.degree.namePh.D.
thesis.degree.leveldoktorskécs_CZ
thesis.degree.disciplineMatematická lingvistikacs_CZ
thesis.degree.disciplineComputational linguisticsen_US
thesis.degree.programComputational linguisticsen_US
thesis.degree.programMatematická lingvistikacs_CZ
uk.thesis.typedizertační prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Ústav formální a aplikované lingvistikycs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Institute of Formal and Applied Linguisticsen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csMatematická lingvistikacs_CZ
uk.degree-discipline.enComputational linguisticsen_US
uk.degree-program.csMatematická lingvistikacs_CZ
uk.degree-program.enComputational linguisticsen_US
thesis.grade.csProspěl/acs_CZ
thesis.grade.enPassen_US
uk.abstract.csKompozice je slovotvorný proces, při kterém se kombinují dvě nebo více slov, kořenů nebo kmenů do jednoho nového slova. Tento proces je doložený v mnoha různých jazycích, a často hraje roli na pomezí slovotvorby a větné skladby. Perspektiva pohlížející na tento fenomén multilingválně může tím pádem být cenná pro několik různých oborů jazykovědy, specificky morfologie, syntaxe, a typologie. V této práci se zaměřujeme na češtinu, angličt- inu, němčinu, nizozemštinu, ruštinu, francouzštinu a španělštinu. Kompozita v prvé řadě modelujeme z hlediska jejich základových slov. Tuto úlohu nazýváme dělením kompozit. Krom toho se zaměřujeme i na identifikaci kompozic, to znamená je- jich rozlišení od ostatních typů slov. Práce začíná tím, že splnění těchto úloh ukážeme na češtině za pomoci hlubokého učení a stringových shod. Na témže jazyce práce po- tom zobecní dělení kompozit na vyhledávání základových slov tím, že prezentuje nástroj Word Formation Analyzer for Czech. Tento nástroj krom kompozice pokrývá i derivaci, což znamená, že jsme schopni automaticky dohledat slovotvorného předka pro slova, která mají jenom jednoho předka, a nemotivovaná slova, tedy rozpoznat, že slovo žádné předky nemá. Nakonec představujeme multilingvální nástroj PaReNT vykonávající téže úlohy, za- ložený na bázi hlubokého modelu o vlastní...cs_CZ
uk.abstract.enCompounding is a word-formation process wherein several words, roots, or stems are combined to create novel words. It has been observed in many languages, and often stands on the boundary between word formation and syntax. As such, a multilingual per- spective on this process can be valuable for several fields of study, namely morphology, syntax, and typology. In this thesis, we focus on Czech, English, German, Dutch, Russian, French, and Spanish. We first model compounds in terms of the words that they can be traced back to, call- ing the task compound splitting, and also in terms of identifying them from other words, calling the task compound identification. We begin by demonstrating this on Czech using deep learning and string matching. Then, on the same language, we generalize com- pound splitting task into parent retrieval, by building a tool called Word Formation Ana- lyzer for Czech. It also covers derivation, meaning that we can trace an input word back to only a single word, and unmotivated words (recognizing that the input word has no ancestors) in addition to compounding. Finally, we present a multilingual parent retrieval and word formation classification tool called PaReNT, based around a custom-architecture deep model combining character-based and semantic representations, and show how the...en_US
uk.file-availabilityV
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistikycs_CZ
thesis.grade.codeP
uk.publication-placePrahacs_CZ
uk.thesis.defenceStatusO


Soubory tohoto záznamu

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

Tento záznam se objevuje v následujících sbírkách

Zobrazit minimální záznam


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV