Zobrazit minimální záznam

Strojový překlad na základě jednojazyčných textů
dc.contributor.advisorBojar, Ondřej
dc.creatorKvapilíková, Ivana
dc.date.accessioned2024-04-08T10:55:55Z
dc.date.available2024-04-08T10:55:55Z
dc.date.issued2024
dc.identifier.urihttp://hdl.handle.net/20.500.11956/188428
dc.description.abstractTitle: Towards Machine Translation Based on Monolingual Texts Author: Ivana Kvapilíková Institute: Institute of Formal and Applied Linguistics Supervisor: doc. RNDr. Ondřej Bojar, Ph.D., Institute of Formal and Applied Linguistics Abstract: The current state of the art in machine translation (MT) heavily relies on parallel data, i.e. texts that have been previously translated by humans. This type of resource is expen- sive and only available for several language pairs in limited domains. A new line of research has emerged to design models capable of learning to translate from monolingual texts which are signicantly easier to obtain, e.g. by web-crawling. While it is impressive that such models achieve translation capabilities, the translation quality of the output they produce is still low for practical applications. This dissertation thesis strives to improve their performance. We explore the existing approaches of using monolingual resources to train translation models and propose a new technique to generate pseudo-parallel training data articially without expensive human input. We automatically select similar sentences from monolingual corpora in different languages and we show that using them in the initial stages of MT training leads to a signicant enhancement in translation quality. We also...en_US
dc.description.abstractNázev: Strojový překlad na základě jednojazyčných textů Autor: Ivana Kvapilíková Ústav: Ústav aplikované a formální lingvistiky Vedoucí: doc. RNDr. Ondřej Bojar, Ph.D., Ústav aplikované a formální lingvistiky Abstrakt: Současné systémy strojového překladu (SP) jsou závislé na existenci paralelních dat, tedy textů, které byly dříve přeloženy lidmi. Tento typ dat je drahý a je dostupný pouze pro několik jazykových párů v omezených doménách. Vznikl tedy nový výzkumný směr zaměřený na navrhování modelů schopných naučit se překládat z jednojazyčných textů, které jsou výrazně dostupnější než texty paralelní, např. z internetu. I když je působivé, že takové modely překládat skutečně dokáží, kvalita jimi vyprodukovaných výstupů je pro praktické aplikace stále nedostatečná. Tato disertační práce se snaží vylepšit jejich výkonnost. Zkoumáme stávající přístupy používání jednojazyčných zdrojů k trénování překladových modelů a navrhujeme novou techniku generování pseudo-paralelních trénovacích dat uměle, bez drahého lidského vstupu. Automaticky hledáme podobné věty v jednojazyčný korpusech v různých jazycích a ukazujeme, že jejich použití v počátečních fázích trénování SP vede k...cs_CZ
dc.languageEnglishcs_CZ
dc.language.isoen_US
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjectstrojový překlad|neřízené učení|hluboké neuronové sítě|nízkozdrojové jazyky|zpracování přirozeného jazykacs_CZ
dc.subjectmachine translation|unsupervised learning|deep neural networks|low-resource languages|natural language processingen_US
dc.titleTowards Machine Translation Based on Monolingual Textsen_US
dc.typedizertační prácecs_CZ
dcterms.created2024
dcterms.dateAccepted2024-02-09
dc.description.departmentInstitute of Formal and Applied Linguisticsen_US
dc.description.departmentÚstav formální a aplikované lingvistikycs_CZ
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.identifier.repId139403
dc.title.translatedStrojový překlad na základě jednojazyčných textůcs_CZ
dc.contributor.refereeEspana-Bonet, Cristina
dc.contributor.refereeČmejrek, Martin
thesis.degree.namePh.D.
thesis.degree.leveldoktorskécs_CZ
thesis.degree.disciplineComputational linguisticsen_US
thesis.degree.disciplineMatematická lingvistikacs_CZ
thesis.degree.programComputational linguisticsen_US
thesis.degree.programMatematická lingvistikacs_CZ
uk.thesis.typedizertační prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Ústav formální a aplikované lingvistikycs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Institute of Formal and Applied Linguisticsen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csMatematická lingvistikacs_CZ
uk.degree-discipline.enComputational linguisticsen_US
uk.degree-program.csMatematická lingvistikacs_CZ
uk.degree-program.enComputational linguisticsen_US
thesis.grade.csProspěl/acs_CZ
thesis.grade.enPassen_US
uk.abstract.csNázev: Strojový překlad na základě jednojazyčných textů Autor: Ivana Kvapilíková Ústav: Ústav aplikované a formální lingvistiky Vedoucí: doc. RNDr. Ondřej Bojar, Ph.D., Ústav aplikované a formální lingvistiky Abstrakt: Současné systémy strojového překladu (SP) jsou závislé na existenci paralelních dat, tedy textů, které byly dříve přeloženy lidmi. Tento typ dat je drahý a je dostupný pouze pro několik jazykových párů v omezených doménách. Vznikl tedy nový výzkumný směr zaměřený na navrhování modelů schopných naučit se překládat z jednojazyčných textů, které jsou výrazně dostupnější než texty paralelní, např. z internetu. I když je působivé, že takové modely překládat skutečně dokáží, kvalita jimi vyprodukovaných výstupů je pro praktické aplikace stále nedostatečná. Tato disertační práce se snaží vylepšit jejich výkonnost. Zkoumáme stávající přístupy používání jednojazyčných zdrojů k trénování překladových modelů a navrhujeme novou techniku generování pseudo-paralelních trénovacích dat uměle, bez drahého lidského vstupu. Automaticky hledáme podobné věty v jednojazyčný korpusech v různých jazycích a ukazujeme, že jejich použití v počátečních fázích trénování SP vede k...cs_CZ
uk.abstract.enTitle: Towards Machine Translation Based on Monolingual Texts Author: Ivana Kvapilíková Institute: Institute of Formal and Applied Linguistics Supervisor: doc. RNDr. Ondřej Bojar, Ph.D., Institute of Formal and Applied Linguistics Abstract: The current state of the art in machine translation (MT) heavily relies on parallel data, i.e. texts that have been previously translated by humans. This type of resource is expen- sive and only available for several language pairs in limited domains. A new line of research has emerged to design models capable of learning to translate from monolingual texts which are signicantly easier to obtain, e.g. by web-crawling. While it is impressive that such models achieve translation capabilities, the translation quality of the output they produce is still low for practical applications. This dissertation thesis strives to improve their performance. We explore the existing approaches of using monolingual resources to train translation models and propose a new technique to generate pseudo-parallel training data articially without expensive human input. We automatically select similar sentences from monolingual corpora in different languages and we show that using them in the initial stages of MT training leads to a signicant enhancement in translation quality. We also...en_US
uk.file-availabilityV
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistikycs_CZ
thesis.grade.codeP
uk.publication-placePrahacs_CZ
uk.thesis.defenceStatusO


Soubory tohoto záznamu

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

Tento záznam se objevuje v následujících sbírkách

Zobrazit minimální záznam


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV