Rozšířený HMM tagger a jeho aplikace na morfologické značkování češtiny
Enhanced HMM Tagger and Its Application for Czech Morphological Tagging
bachelor thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/12627Identifiers
Study Information System: 45094
Collections
- Kvalifikační práce [11216]
Author
Advisor
Referee
Vidová Hladká, Barbora
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Programming
Department
Institute of Formal and Applied Linguistics
Date of defense
11. 9. 2007
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Excellent
V předložené práci studuji možnosti morfologického značkování češtiny při použití statistického značkovače založeného na skrytých Markovových modelech (HMM taggeru). Zejména pak ověřuji vliv: různě velkých trénovacích dat, délky tagovací historie, nastavení parametru 'n' ve variantě výběru n nejlepších průchodů (varianta n-best) a omezení sady tagů v historii značek na úspěšnost značkovače. Text je doplněn řadou tabulek s výsledky běhu značkovače včetně porovnání s předchozími výsledky jiných značkovačů. V příloze se na kompaktním disku nachází testovací data a program, jehož výsledky jsou zde prezentovány.
In the present work I study possibilities of Czech morphological tagging by using statistical tagger based on hidden Markov models (HMM tagger). I especially intend to verify an influence of various size of training data, length of tagging history, setting n-parameter in n-best variant and reduction of tag set in history of tags to the successfulness of tagging. Text is completed with tables with results of tagger including comparison with previous results of other taggers. There is also a supplementary CD with test data and the program, which results are presented here.