Mutual Relation of Machine Translation and Quality Estimation
Vzájemný vztah strojového překladu a odhadu kvality
diplomová práce (OBHÁJENO)
![Náhled dokumentu](/bitstream/handle/20.500.11956/175591/thumbnail.png?sequence=8&isAllowed=y)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/175591Identifikátory
SIS: 218943
Kolekce
- Kvalifikační práce [11264]
Autor
Vedoucí práce
Konzultant práce
Bojar, Ondřej
Oponent práce
Popel, Martin
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Umělá inteligence
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
7. 9. 2022
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
strojový překlad|odhad kvality|strojové učení|hluboké učeníKlíčová slova (anglicky)
machine translation|quality estimation|machine learning|deep learningOdhad kvality strojového překladu předpovídá skóre kvality pro překlady vytvořené systémy strojového překladu na vstupních a výstupních segmentů. Systémy odhadu kval- ity jsou trénované pomoci učení s učitelem pomocí trénovacích dat, která obsahují překlad vytvořený jedním nebo více systémy strojového překladu. Výběr trénovacích dat pro stro- jový překlad má tedy vliv na to, jak dobře funguje systém odhadu kvality. Tato práce studuje vztah mezi systémy strojového překladu a systémy pro odhad kvality na úrovni vět. S využitím našich definic výkonu systému strojového překladu a výkonu systému odhadu kvality jsme provedli experimenty, které zahrnují trénovaní sys- témů strojového překladu a odhadu kvality různých výkonů. Prezentovali jsme výsledky hodnocení systémů odhadu kvality na testovacích sadách různých domén překládáných strojovými překládačí různé síly. Zjistili jsme, že (i) systémy hodnocení kvality vyškolené na překladech nižší kvality mají vyšší výkon, než systémy hodnocení kvality trénované na překladech vyšší kvality; (ii) hodnocení vysoce kvalitních systémů strojového překladu je výzvou pro systémy hodnocení kvality všech výkonů; (iii) vysoce výkonné systémy pro odhad kvality fungují lépe pro domény odlišné od trénovací, než systémy pro odhad kvality s nízkým výkonem 1
Machine Translation Quality Estimation predicts quality scores for translations pro- duced by Machine Translation systems based on source and output segments. Qual- ity Estimation systems are usually trained in a supervised manner using training data that contains translation produced by one or more (other) Machine Translation systems. Therefore, the choice of training data for Machine Translation has an impact on how well the Quality Estimation system works. This thesis studies the relationship between Machine Translation systems and sentence- level Quality Estimation systems. Using our definitions of Machine Translation system power and Quality Estimation system power, we conducted experiments that involve training Machine Translation and Quality Estimation systems of varying power. We pre- sented Quality Estimation systems evaluation results on test sets of different domains and translated by Machine Translation systems of different power. We find that (i) Quality Estimation systems trained on translations of lower quality outperform Quality Estimation systems trained on translations of higher quality; (ii) evaluating high-quality Machine Translation systems is challenging for Quality Estimation systems of all powers; (iii) high-power Quality Estimation systems work better for out-of-domain distribution...