Zobrazit minimální záznam

Vylepšení metod tokenizace pro vícejazyčné modely
dc.contributor.advisorLimisiewicz, Tomasz
dc.creatorBalhar, Jiří
dc.date.accessioned2023-11-06T22:29:12Z
dc.date.available2023-11-06T22:29:12Z
dc.date.issued2023
dc.identifier.urihttp://hdl.handle.net/20.500.11956/184045
dc.description.abstractIn this thesis, we explore the differences between tokenization methods for multilingual neural language models and investigate their impact on language model representation quality. We propose a set of metrics to evaluate the quality of tokenizations. We show that the metrics capture the differences between tokenizers and that they correlate with the downstream performance of multilingual language models. Then, using our metrics, we assess why is the standard tokenizer training on a multilingual corpus reported to be ineffective for multilingual models. We investigate design choices such as data size, implementation or alphabet size. We identify that the issue might be caused by data imbalance and to solve it we propose to sample tokenizer training data uniformly. We compare the standard tokenizer training with three proposed methods we replicate, that aim to mitigate the same reported issues. We show that the principle behind the improvements of the proposed methods is the same as with the uniform sampling. Our findings offer a deeper understanding of tokenization methods for multilingual models. We propose a methodology and guidelines for training multilingual tokenizers. Lastly, we show how to achieve improvements in tokenization without the need for more complex tokenization methods.en_US
dc.description.abstractV této práci jsou zkoumány rozdíly mezi metodami tokenizace pro víceja- zyčné neuronové modely (multilingual language models) a rovněž jejich vliv na kvalitu jazykového modelu. Je definována sada metrik, které jsou použity pro vyhodnocení kvality tokenizace: pomocí experimentů je demonstrováno, že užité metriky zachycují rozdíly mezi tokenizátory a korelují s výkonem vícejazyčných neuronových modelů. Některé práce věnované vícejazyčné tokenizaci uvádí, že standardní po- stup trénování tokenizátorů na vícejazyčném korpusu není vhodný pro více- jazyčné modely. Tato práce hledá důvod uvedených problémů. Jako možné příčiny jsou zkoumány velikost dat, implementace nebo velikost abecedy. V práci docházíme k závěru, že problém je pravděpodobně způsoben nevyváže- ností dat mezi jazyky a navrhujeme řešení v podobě rovnoměrného vzorko- vání trénovacích dat tokenizátoru. V diplomové práci jsou replikovány tři studie, které se zabývají vylepše- ním metod vícejazyčné tokenizace a jsou porovnány se standardním tréno- váním na rovnoměrných datech. Díky porovnání je zjištěno, že princip, který stojí za zlepšením u replikovaných metod, je stejný jako u rovnoměrného vzorkování. Výsledky diplomové práce poskytují hlubší vhled do problematiky toke- nizace pro vícejazyčné modely. Je navržena metodika a doporučení pro tré-...cs_CZ
dc.languageEnglishcs_CZ
dc.language.isoen_US
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjectnatural language processing|multilingual language models|subword tokenization|NLPcs_CZ
dc.subjectnatural language processing|multilingual language models|subword tokenization|NLPen_US
dc.titleImproving Subword Tokenization Methods for Multilingual Modelsen_US
dc.typediplomová prácecs_CZ
dcterms.created2023
dcterms.dateAccepted2023-09-05
dc.description.departmentÚstav formální a aplikované lingvistikycs_CZ
dc.description.departmentInstitute of Formal and Applied Linguisticsen_US
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.identifier.repId257212
dc.title.translatedVylepšení metod tokenizace pro vícejazyčné modelycs_CZ
dc.contributor.refereePopel, Martin
thesis.degree.nameMgr.
thesis.degree.levelnavazující magisterskécs_CZ
thesis.degree.disciplineUmělá inteligencecs_CZ
thesis.degree.disciplineArtificial Intelligenceen_US
thesis.degree.programInformatikacs_CZ
thesis.degree.programComputer Scienceen_US
uk.thesis.typediplomová prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Ústav formální a aplikované lingvistikycs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Institute of Formal and Applied Linguisticsen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csUmělá inteligencecs_CZ
uk.degree-discipline.enArtificial Intelligenceen_US
uk.degree-program.csInformatikacs_CZ
uk.degree-program.enComputer Scienceen_US
thesis.grade.csVýborněcs_CZ
thesis.grade.enExcellenten_US
uk.abstract.csV této práci jsou zkoumány rozdíly mezi metodami tokenizace pro víceja- zyčné neuronové modely (multilingual language models) a rovněž jejich vliv na kvalitu jazykového modelu. Je definována sada metrik, které jsou použity pro vyhodnocení kvality tokenizace: pomocí experimentů je demonstrováno, že užité metriky zachycují rozdíly mezi tokenizátory a korelují s výkonem vícejazyčných neuronových modelů. Některé práce věnované vícejazyčné tokenizaci uvádí, že standardní po- stup trénování tokenizátorů na vícejazyčném korpusu není vhodný pro více- jazyčné modely. Tato práce hledá důvod uvedených problémů. Jako možné příčiny jsou zkoumány velikost dat, implementace nebo velikost abecedy. V práci docházíme k závěru, že problém je pravděpodobně způsoben nevyváže- ností dat mezi jazyky a navrhujeme řešení v podobě rovnoměrného vzorko- vání trénovacích dat tokenizátoru. V diplomové práci jsou replikovány tři studie, které se zabývají vylepše- ním metod vícejazyčné tokenizace a jsou porovnány se standardním tréno- váním na rovnoměrných datech. Díky porovnání je zjištěno, že princip, který stojí za zlepšením u replikovaných metod, je stejný jako u rovnoměrného vzorkování. Výsledky diplomové práce poskytují hlubší vhled do problematiky toke- nizace pro vícejazyčné modely. Je navržena metodika a doporučení pro tré-...cs_CZ
uk.abstract.enIn this thesis, we explore the differences between tokenization methods for multilingual neural language models and investigate their impact on language model representation quality. We propose a set of metrics to evaluate the quality of tokenizations. We show that the metrics capture the differences between tokenizers and that they correlate with the downstream performance of multilingual language models. Then, using our metrics, we assess why is the standard tokenizer training on a multilingual corpus reported to be ineffective for multilingual models. We investigate design choices such as data size, implementation or alphabet size. We identify that the issue might be caused by data imbalance and to solve it we propose to sample tokenizer training data uniformly. We compare the standard tokenizer training with three proposed methods we replicate, that aim to mitigate the same reported issues. We show that the principle behind the improvements of the proposed methods is the same as with the uniform sampling. Our findings offer a deeper understanding of tokenization methods for multilingual models. We propose a methodology and guidelines for training multilingual tokenizers. Lastly, we show how to achieve improvements in tokenization without the need for more complex tokenization methods.en_US
uk.file-availabilityV
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistikycs_CZ
thesis.grade.code1
uk.publication-placePrahacs_CZ
uk.thesis.defenceStatusO


Soubory tohoto záznamu

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

Tento záznam se objevuje v následujících sbírkách

Zobrazit minimální záznam


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV