English grammar checker and corrector: the determiners
Korektor anglické gramatiky: určité a neurčité členy
diplomová práce (OBHÁJENO)

Zobrazit/otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/85647Identifikátory
SIS: 127237
Kolekce
- Kvalifikační práce [11325]
Autor
Vedoucí práce
Oponent práce
Straňák, Pavel
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Matematická lingvistika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
7. 6. 2017
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
Angličtina, členy, kontrola pravopisuKlíčová slova (anglicky)
English, determiners, grammar checkerPředkládaná práce přistupuje ke kontrole členů v anglickém textu jako ke klasi- fikační úloze řešené metodami strojového učení s učitelem. Každé jmenné frázi v textu je přiřazena jedna ze tří tříd reprezentující určitý, neurčitý nebo nulový člen. V rámci úvodní rešerše byl definován článek dosahující na takto pojaté úloze ne- jlepších výsledků. Daný experiment byl pak zreplikován a překonán. Pomocí jiných signálů a volbou rozdílného učícího algoritmu došlo k poklesu chyby klasifikace o cca. 34%. Výsledný model byl pak porovnán s výkonem expertů na dané úloze. Přes problémy srovnání způsobené rozdílností dat se zdá, že je-li model použit na typu dat, na kterém byl trénován, je jeho úspěšnost srovnatelná s lidskou silou. Použití modelu na jiných datech se ale neosvědčilo. Stejně tak se neosvědčila ani náhrada klasifikátoru za jazykový model, který by předpovídal potenciální člen pro každou pozici ve větě. 1
Correction of the articles in English texts is approached as an article generation task, i.e. each noun phrase is assigned with a class corresponding to the definite, indefinite or zero article. Supervised machine learning methods are used to first replicate and then improve upon the best reported result in the literature known to the author. By feature engineering and a different choice of the learning method, about 34% drop in error is achieved. The resulting model is further compared to the performance of expert annotators. Although the comparison is not straightforward due to the differences in the data, the results indicate the performance of the trained model is comparable to the human-level performance when measured on the in-domain data. On the other hand, the model does not generalize well to different types of data. Using a large-scale language model to predict an article (or no article) for each word of the text has not proved successful. 1