Improving Czech-Ukrainian Machine Translation
Zlepšování česko-ukrajinského strojového překladu
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/199277Identifiers
Study Information System: 258168
Collections
- Kvalifikační práce [11421]
Author
Advisor
Referee
Mareček, David
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computer Science - Language Technologies and Computational Linguistics
Department
Institute of Formal and Applied Linguistics
Date of defense
3. 6. 2025
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
neuronový strojový překlad|překlad pojmenovaných entit|ukrajinský překlad|předběžné trénování se šumemKeywords (English)
neural machine translation|named entity translation|Ukrainian translation|noise pretrainingNavzdory pokroku v neuronovém strojovém překladu dosaženému v posledních letech je v této úloze stále velký prostor na zlepšování. V této práci se zabýváme metodami, které jsou zaměřené na řešení určitých aspektů souvisejících se systémem neuronového strojového překladu z češtiny do ukrajinštiny a naopak. Ukazujeme, že augmentace dat pomocí lidmi vytvořených šablon, které obsahují názvy českých měst, přináší významné zlepšení při překladu pojmenovaných entit z češtiny do ukrajinštiny. Také jsme dosáhli mírného úspěchu týkajícího se správného psaní ukrajinských předložek a předpon у ("u") a в ("v"). Zkusili jsme normalizovat interpunkci v ukrajinských datech a také předzpra- covat ukrajinská trénovací data pomocí modelu pro opravu gramatických chyb a nástroje CleanText určeného k odstraňování chyb optického rozpoznávání znaků, ale jediný po- krok, kterého jsme dosáhli, se týká interpunkce. Bohužel se nám dosáhnout uspokojivého zlepšení v překladu z ukrajinštiny do češtiny nepodařilo, ale přesto ukazujeme, že za- vedení šumu souvisejícího se směsí latinky a azbuky do ukrajinských dat dělá model neuronového strojového překladu při testování robustnějším vůči tomuto typu šumu. 1
Despite the progress in Neural Machine Translation (NMT) achieved in recent years, there is still a large room for improvement in this task. In this thesis, we are focusing on methods that aim at addressing certain aspects related to an NMT system from Czech to Ukrainian and vice versa. We show that augmenting data with human-created templates containing names of Czech cities/towns yields a significant gain in translating named entities from Czech to Ukrainian. We have also achieved a moderate success in cs→uk direction regarding the correct spelling of Ukrainian prepositions and prefixes у ("u") and в ("v"). We tried normalizing punctuation in Ukrainian data, as well as preprocessing the Ukrainian training data with a grammar error correction model and a CleanText tool intended for removing optical character recognition errors, but the only progress we have reached is related to punctuation. Unfortunately, we were not able to achieve satisfactory improvement in Ukrainian-to-Czech translation, yet we still show that injecting noise related to Latin/Cyrillic mix into Ukrainian data makes the NMT model more robust against such type of noise at test time. 1