Improving Subword Tokenization Methods for Multilingual Models

Balhar, Jiří

Vylepšení metod tokenizace pro vícejazyčné modely

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (347.2Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/184045

Identifikátory

SIS: 257212

Oponent práce

Popel, Martin

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Umělá inteligence

Katedra / ústav / klinika

Ústav formální a aplikované lingvistiky

Datum obhajoby

5. 9. 2023

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Výborně

Klíčová slova (česky)

natural language processing|multilingual language models|subword tokenization|NLP

Klíčová slova (anglicky)

natural language processing|multilingual language models|subword tokenization|NLP

V této práci jsou zkoumány rozdíly mezi metodami tokenizace pro víceja- zyčné neuronové modely (multilingual language models) a rovněž jejich vliv na kvalitu jazykového modelu. Je definována sada metrik, které jsou použity pro vyhodnocení kvality tokenizace: pomocí experimentů je demonstrováno, že užité metriky zachycují rozdíly mezi tokenizátory a korelují s výkonem vícejazyčných neuronových modelů. Některé práce věnované vícejazyčné tokenizaci uvádí, že standardní po- stup trénování tokenizátorů na vícejazyčném korpusu není vhodný pro více- jazyčné modely. Tato práce hledá důvod uvedených problémů. Jako možné příčiny jsou zkoumány velikost dat, implementace nebo velikost abecedy. V práci docházíme k závěru, že problém je pravděpodobně způsoben nevyváže- ností dat mezi jazyky a navrhujeme řešení v podobě rovnoměrného vzorko- vání trénovacích dat tokenizátoru. V diplomové práci jsou replikovány tři studie, které se zabývají vylepše- ním metod vícejazyčné tokenizace a jsou porovnány se standardním tréno- váním na rovnoměrných datech. Díky porovnání je zjištěno, že princip, který stojí za zlepšením u replikovaných metod, je stejný jako u rovnoměrného vzorkování. Výsledky diplomové práce poskytují hlubší vhled do problematiky toke- nizace pro vícejazyčné modely. Je navržena metodika a doporučení pro tré-...

Abstrakt (anglicky)

In this thesis, we explore the differences between tokenization methods for multilingual neural language models and investigate their impact on language model representation quality. We propose a set of metrics to evaluate the quality of tokenizations. We show that the metrics capture the differences between tokenizers and that they correlate with the downstream performance of multilingual language models. Then, using our metrics, we assess why is the standard tokenizer training on a multilingual corpus reported to be ineffective for multilingual models. We investigate design choices such as data size, implementation or alphabet size. We identify that the issue might be caused by data imbalance and to solve it we propose to sample tokenizer training data uniformly. We compare the standard tokenizer training with three proposed methods we replicate, that aim to mitigate the same reported issues. We show that the principle behind the improvements of the proposed methods is the same as with the uniform sampling. Our findings offer a deeper understanding of tokenization methods for multilingual models. We propose a methodology and guidelines for training multilingual tokenizers. Lastly, we show how to achieve improvements in tokenization without the need for more complex tokenization methods.

Citace dokumentu

Metadata

Zobrazit celý záznam