Towards Machine Translation Based on Monolingual Texts
Strojový překlad na základě jednojazyčných textů
dissertation thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/188428Identifiers
Study Information System: 139403
Collections
- Kvalifikační práce [11217]
Author
Advisor
Referee
Espana-Bonet, Cristina
Čmejrek, Martin
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computational linguistics
Department
Institute of Formal and Applied Linguistics
Date of defense
9. 2. 2024
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Pass
Keywords (Czech)
strojový překlad|neřízené učení|hluboké neuronové sítě|nízkozdrojové jazyky|zpracování přirozeného jazykaKeywords (English)
machine translation|unsupervised learning|deep neural networks|low-resource languages|natural language processingNázev: Strojový překlad na základě jednojazyčných textů Autor: Ivana Kvapilíková Ústav: Ústav aplikované a formální lingvistiky Vedoucí: doc. RNDr. Ondřej Bojar, Ph.D., Ústav aplikované a formální lingvistiky Abstrakt: Současné systémy strojového překladu (SP) jsou závislé na existenci paralelních dat, tedy textů, které byly dříve přeloženy lidmi. Tento typ dat je drahý a je dostupný pouze pro několik jazykových párů v omezených doménách. Vznikl tedy nový výzkumný směr zaměřený na navrhování modelů schopných naučit se překládat z jednojazyčných textů, které jsou výrazně dostupnější než texty paralelní, např. z internetu. I když je působivé, že takové modely překládat skutečně dokáží, kvalita jimi vyprodukovaných výstupů je pro praktické aplikace stále nedostatečná. Tato disertační práce se snaží vylepšit jejich výkonnost. Zkoumáme stávající přístupy používání jednojazyčných zdrojů k trénování překladových modelů a navrhujeme novou techniku generování pseudo-paralelních trénovacích dat uměle, bez drahého lidského vstupu. Automaticky hledáme podobné věty v jednojazyčný korpusech v různých jazycích a ukazujeme, že jejich použití v počátečních fázích trénování SP vede k...
Title: Towards Machine Translation Based on Monolingual Texts Author: Ivana Kvapilíková Institute: Institute of Formal and Applied Linguistics Supervisor: doc. RNDr. Ondřej Bojar, Ph.D., Institute of Formal and Applied Linguistics Abstract: The current state of the art in machine translation (MT) heavily relies on parallel data, i.e. texts that have been previously translated by humans. This type of resource is expen- sive and only available for several language pairs in limited domains. A new line of research has emerged to design models capable of learning to translate from monolingual texts which are signicantly easier to obtain, e.g. by web-crawling. While it is impressive that such models achieve translation capabilities, the translation quality of the output they produce is still low for practical applications. This dissertation thesis strives to improve their performance. We explore the existing approaches of using monolingual resources to train translation models and propose a new technique to generate pseudo-parallel training data articially without expensive human input. We automatically select similar sentences from monolingual corpora in different languages and we show that using them in the initial stages of MT training leads to a signicant enhancement in translation quality. We also...