Improving Subword Tokenization Methods for Multilingual Models
Vylepšení metod tokenizace pro vícejazyčné modely
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/184045Identifiers
Study Information System: 257212
Collections
- Kvalifikační práce [11216]
Author
Advisor
Referee
Popel, Martin
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Artificial Intelligence
Department
Institute of Formal and Applied Linguistics
Date of defense
5. 9. 2023
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
natural language processing|multilingual language models|subword tokenization|NLPKeywords (English)
natural language processing|multilingual language models|subword tokenization|NLPV této práci jsou zkoumány rozdíly mezi metodami tokenizace pro víceja- zyčné neuronové modely (multilingual language models) a rovněž jejich vliv na kvalitu jazykového modelu. Je definována sada metrik, které jsou použity pro vyhodnocení kvality tokenizace: pomocí experimentů je demonstrováno, že užité metriky zachycují rozdíly mezi tokenizátory a korelují s výkonem vícejazyčných neuronových modelů. Některé práce věnované vícejazyčné tokenizaci uvádí, že standardní po- stup trénování tokenizátorů na vícejazyčném korpusu není vhodný pro více- jazyčné modely. Tato práce hledá důvod uvedených problémů. Jako možné příčiny jsou zkoumány velikost dat, implementace nebo velikost abecedy. V práci docházíme k závěru, že problém je pravděpodobně způsoben nevyváže- ností dat mezi jazyky a navrhujeme řešení v podobě rovnoměrného vzorko- vání trénovacích dat tokenizátoru. V diplomové práci jsou replikovány tři studie, které se zabývají vylepše- ním metod vícejazyčné tokenizace a jsou porovnány se standardním tréno- váním na rovnoměrných datech. Díky porovnání je zjištěno, že princip, který stojí za zlepšením u replikovaných metod, je stejný jako u rovnoměrného vzorkování. Výsledky diplomové práce poskytují hlubší vhled do problematiky toke- nizace pro vícejazyčné modely. Je navržena metodika a doporučení pro tré-...
In this thesis, we explore the differences between tokenization methods for multilingual neural language models and investigate their impact on language model representation quality. We propose a set of metrics to evaluate the quality of tokenizations. We show that the metrics capture the differences between tokenizers and that they correlate with the downstream performance of multilingual language models. Then, using our metrics, we assess why is the standard tokenizer training on a multilingual corpus reported to be ineffective for multilingual models. We investigate design choices such as data size, implementation or alphabet size. We identify that the issue might be caused by data imbalance and to solve it we propose to sample tokenizer training data uniformly. We compare the standard tokenizer training with three proposed methods we replicate, that aim to mitigate the same reported issues. We show that the principle behind the improvements of the proposed methods is the same as with the uniform sampling. Our findings offer a deeper understanding of tokenization methods for multilingual models. We propose a methodology and guidelines for training multilingual tokenizers. Lastly, we show how to achieve improvements in tokenization without the need for more complex tokenization methods.