Improving Czech-Ukrainian Machine Translation

Tartakovskyi, Artem

Zlepšování česko-ukrajinského strojového překladu

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (347.1Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/199277

Identifikátory

SIS: 258168

Oponent práce

Mareček, David

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Informatika - Jazykové technologie a počítačová lingvistika

Katedra / ústav / klinika

Ústav formální a aplikované lingvistiky

Datum obhajoby

3. 6. 2025

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Výborně

Klíčová slova (česky)

neuronový strojový překlad|překlad pojmenovaných entit|ukrajinský překlad|předběžné trénování se šumem

Klíčová slova (anglicky)

neural machine translation|named entity translation|Ukrainian translation|noise pretraining

Navzdory pokroku v neuronovém strojovém překladu dosaženému v posledních letech je v této úloze stále velký prostor na zlepšování. V této práci se zabýváme metodami, které jsou zaměřené na řešení určitých aspektů souvisejících se systémem neuronového strojového překladu z češtiny do ukrajinštiny a naopak. Ukazujeme, že augmentace dat pomocí lidmi vytvořených šablon, které obsahují názvy českých měst, přináší významné zlepšení při překladu pojmenovaných entit z češtiny do ukrajinštiny. Také jsme dosáhli mírného úspěchu týkajícího se správného psaní ukrajinských předložek a předpon у ("u") a в ("v"). Zkusili jsme normalizovat interpunkci v ukrajinských datech a také předzpra- covat ukrajinská trénovací data pomocí modelu pro opravu gramatických chyb a nástroje CleanText určeného k odstraňování chyb optického rozpoznávání znaků, ale jediný po- krok, kterého jsme dosáhli, se týká interpunkce. Bohužel se nám dosáhnout uspokojivého zlepšení v překladu z ukrajinštiny do češtiny nepodařilo, ale přesto ukazujeme, že za- vedení šumu souvisejícího se směsí latinky a azbuky do ukrajinských dat dělá model neuronového strojového překladu při testování robustnějším vůči tomuto typu šumu. 1

Abstrakt (anglicky)

Despite the progress in Neural Machine Translation (NMT) achieved in recent years, there is still a large room for improvement in this task. In this thesis, we are focusing on methods that aim at addressing certain aspects related to an NMT system from Czech to Ukrainian and vice versa. We show that augmenting data with human-created templates containing names of Czech cities/towns yields a significant gain in translating named entities from Czech to Ukrainian. We have also achieved a moderate success in cs→uk direction regarding the correct spelling of Ukrainian prepositions and prefixes у ("u") and в ("v"). We tried normalizing punctuation in Ukrainian data, as well as preprocessing the Ukrainian training data with a grammar error correction model and a CleanText tool intended for removing optical character recognition errors, but the only progress we have reached is related to punctuation. Unfortunately, we were not able to achieve satisfactory improvement in Ukrainian-to-Czech translation, yet we still show that injecting noise related to Latin/Cyrillic mix into Ukrainian data makes the NMT model more robust against such type of noise at test time. 1

Citace dokumentu

Metadata

Zobrazit celý záznam