Show simple item record

Lingvistické otázky ve strojovém překladu mezi češtinou a ruštinou
dc.contributor.advisorKuboň, Vladislav
dc.creatorKlyueva, Natalia
dc.date.accessioned2021-03-23T21:30:40Z
dc.date.available2021-03-23T21:30:40Z
dc.date.issued2015
dc.identifier.urihttp://hdl.handle.net/20.500.11956/79688
dc.description.abstractV této disertační práci zkoumáme strojový překlad mezi češtinou a ruštinou z hlediska lingvisty. Pracujeme s několika pravidlovými a statistickými překladovými systémy a pomocí změn v jejích nastavení se snážíme dosáhnout co nejlepších výsledků překladu. Jedna z otázek, které řešíme v naší práci, je nakolik příbuznost obou jazyků pomáhá strojovému překladu. Hlavním cílem práce je lingvistický rozbor chyb ve výstupu čtyř systémů strojového překladu, dvou experimentálních - TectoMT, Moses, a dvou komerčních - PC Translator a Google Translate. Analyzujeme každý typ chyb a řešíme, zda daná chyba souvisí s rozdílem mezi češtinou a ruštinou nebo zda je zapříčiněná architecturou jednotlivých systémů. Pro některé chyby nabízíme cesty, jak je opravit. Ve zvláštní kapitole se zaměřujeme na chyby v povrchové valenci sloves. Zkoumáme rozdíly v české a ruské povrchové valenci, popisujeme extrakci slovníku povrchových forem a tento slovník integrujeme do systému TectoMT. Dále nabízíme souhrn lingvistických pozorování o povaze rozdílů v české a ruské valenci. Powered by TCPDF (www.tcpdf.org)cs_CZ
dc.description.abstractIn this thesis we analyze machine translation between Czech and Russian languages from the perspective of a linguist. We work with two types of Machine Translation systems - rule-based (TectoMT) and statistical (Moses). We experiment with different setups of these two systems in order to achieve the best possible quality. One of the questions we address in our work is whether relatedness of the discussed languages has some impact on machine translation. We explore the output of our two experimental systems and two commercial systems: PC Translator and Google Translate. We make a linguistically-motivated classification of errors for the language pair and describe each type of error in detail, analyzing whether it occurred due to some difference between Czech and Russian or is it caused by the system architecture. We then compare the usage of some specific linguistic phenomena in the two languages and state how the individual systems cope with mismatches. For some errors, we suggest ways to improve them and in several cases we implement those suggestions. In particular, we focus on one specific error type - surface valency. We research the mismatches between Czech and Russian valency, extract a lexicon of surface valency frames, incorporate the lexicon into the TectoMT translation pipeline and present...en_US
dc.languageEnglishcs_CZ
dc.language.isoen_US
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjectstrojový překladcs_CZ
dc.subjectslovanské jazykycs_CZ
dc.subjectblízké jazykycs_CZ
dc.subjectčeštinacs_CZ
dc.subjectruštinacs_CZ
dc.subjectSMTcs_CZ
dc.subjectRBMTcs_CZ
dc.subjectMosescs_CZ
dc.subjectvalencecs_CZ
dc.subjectmachine translationen_US
dc.subjectSlavic languagesen_US
dc.subjectrelated languagesen_US
dc.subjectCzechen_US
dc.subjectRussianen_US
dc.subjectSMTen_US
dc.subjectRBMTen_US
dc.subjectMosesen_US
dc.subjectvalencyen_US
dc.titleLinguistic Issues in Machine Translation between Czech and Russianen_US
dc.typedizertační prácecs_CZ
dcterms.created2015
dcterms.dateAccepted2015-09-22
dc.description.departmentInstitute of Formal and Applied Linguisticsen_US
dc.description.departmentÚstav formální a aplikované lingvistikycs_CZ
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.identifier.repId44157
dc.title.translatedLingvistické otázky ve strojovém překladu mezi češtinou a ruštinoucs_CZ
dc.contributor.refereePanevová, Jarmila
dc.contributor.refereeStrossa, Petr
dc.identifier.aleph002032059
thesis.degree.namePh.D.
thesis.degree.leveldoktorskécs_CZ
thesis.degree.disciplineMathematical Linguisticsen_US
thesis.degree.disciplineMatematická lingvistikacs_CZ
thesis.degree.programInformaticsen_US
thesis.degree.programInformatikacs_CZ
uk.thesis.typedizertační prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Ústav formální a aplikované lingvistikycs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Institute of Formal and Applied Linguisticsen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csMatematická lingvistikacs_CZ
uk.degree-discipline.enMathematical Linguisticsen_US
uk.degree-program.csInformatikacs_CZ
uk.degree-program.enInformaticsen_US
thesis.grade.csProspěl/acs_CZ
thesis.grade.enPassen_US
uk.abstract.csV této disertační práci zkoumáme strojový překlad mezi češtinou a ruštinou z hlediska lingvisty. Pracujeme s několika pravidlovými a statistickými překladovými systémy a pomocí změn v jejích nastavení se snážíme dosáhnout co nejlepších výsledků překladu. Jedna z otázek, které řešíme v naší práci, je nakolik příbuznost obou jazyků pomáhá strojovému překladu. Hlavním cílem práce je lingvistický rozbor chyb ve výstupu čtyř systémů strojového překladu, dvou experimentálních - TectoMT, Moses, a dvou komerčních - PC Translator a Google Translate. Analyzujeme každý typ chyb a řešíme, zda daná chyba souvisí s rozdílem mezi češtinou a ruštinou nebo zda je zapříčiněná architecturou jednotlivých systémů. Pro některé chyby nabízíme cesty, jak je opravit. Ve zvláštní kapitole se zaměřujeme na chyby v povrchové valenci sloves. Zkoumáme rozdíly v české a ruské povrchové valenci, popisujeme extrakci slovníku povrchových forem a tento slovník integrujeme do systému TectoMT. Dále nabízíme souhrn lingvistických pozorování o povaze rozdílů v české a ruské valenci. Powered by TCPDF (www.tcpdf.org)cs_CZ
uk.abstract.enIn this thesis we analyze machine translation between Czech and Russian languages from the perspective of a linguist. We work with two types of Machine Translation systems - rule-based (TectoMT) and statistical (Moses). We experiment with different setups of these two systems in order to achieve the best possible quality. One of the questions we address in our work is whether relatedness of the discussed languages has some impact on machine translation. We explore the output of our two experimental systems and two commercial systems: PC Translator and Google Translate. We make a linguistically-motivated classification of errors for the language pair and describe each type of error in detail, analyzing whether it occurred due to some difference between Czech and Russian or is it caused by the system architecture. We then compare the usage of some specific linguistic phenomena in the two languages and state how the individual systems cope with mismatches. For some errors, we suggest ways to improve them and in several cases we implement those suggestions. In particular, we focus on one specific error type - surface valency. We research the mismatches between Czech and Russian valency, extract a lexicon of surface valency frames, incorporate the lexicon into the TectoMT translation pipeline and present...en_US
uk.file-availabilityV
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistikycs_CZ
thesis.grade.codeP
dc.contributor.consultantRosen, Alexandr
uk.publication-placePrahacs_CZ
uk.thesis.defenceStatusO
dc.identifier.lisID990020320590106986


Files in this item

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

This item appears in the following Collection(s)

Show simple item record


© 2025 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV