Improving Czech-Ukrainian Machine Translation
Zlepšování česko-ukrajinského strojového překladu
diplomová práce (OBHÁJENO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/199277Identifikátory
SIS: 258168
Kolekce
- Kvalifikační práce [11412]
Autor
Vedoucí práce
Oponent práce
Mareček, David
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika - Jazykové technologie a počítačová lingvistika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
3. 6. 2025
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
neuronový strojový překlad|překlad pojmenovaných entit|ukrajinský překlad|předběžné trénování se šumemKlíčová slova (anglicky)
neural machine translation|named entity translation|Ukrainian translation|noise pretrainingNavzdory pokroku v neuronovém strojovém překladu dosaženému v posledních letech je v této úloze stále velký prostor na zlepšování. V této práci se zabýváme metodami, které jsou zaměřené na řešení určitých aspektů souvisejících se systémem neuronového strojového překladu z češtiny do ukrajinštiny a naopak. Ukazujeme, že augmentace dat pomocí lidmi vytvořených šablon, které obsahují názvy českých měst, přináší významné zlepšení při překladu pojmenovaných entit z češtiny do ukrajinštiny. Také jsme dosáhli mírného úspěchu týkajícího se správného psaní ukrajinských předložek a předpon у ("u") a в ("v"). Zkusili jsme normalizovat interpunkci v ukrajinských datech a také předzpra- covat ukrajinská trénovací data pomocí modelu pro opravu gramatických chyb a nástroje CleanText určeného k odstraňování chyb optického rozpoznávání znaků, ale jediný po- krok, kterého jsme dosáhli, se týká interpunkce. Bohužel se nám dosáhnout uspokojivého zlepšení v překladu z ukrajinštiny do češtiny nepodařilo, ale přesto ukazujeme, že za- vedení šumu souvisejícího se směsí latinky a azbuky do ukrajinských dat dělá model neuronového strojového překladu při testování robustnějším vůči tomuto typu šumu. 1
Despite the progress in Neural Machine Translation (NMT) achieved in recent years, there is still a large room for improvement in this task. In this thesis, we are focusing on methods that aim at addressing certain aspects related to an NMT system from Czech to Ukrainian and vice versa. We show that augmenting data with human-created templates containing names of Czech cities/towns yields a significant gain in translating named entities from Czech to Ukrainian. We have also achieved a moderate success in cs→uk direction regarding the correct spelling of Ukrainian prepositions and prefixes у ("u") and в ("v"). We tried normalizing punctuation in Ukrainian data, as well as preprocessing the Ukrainian training data with a grammar error correction model and a CleanText tool intended for removing optical character recognition errors, but the only progress we have reached is related to punctuation. Unfortunately, we were not able to achieve satisfactory improvement in Ukrainian-to-Czech translation, yet we still show that injecting noise related to Latin/Cyrillic mix into Ukrainian data makes the NMT model more robust against such type of noise at test time. 1