Zobrazit minimální záznam

Localisation and adaptation of the English benchmark SuperGLUE for assessing the competence of text-based artificial intelligence models in the Czech language domain
dc.contributor.advisorŠlerka, Josef
dc.creatorPittnerová, Lenka
dc.date.accessioned2025-02-17T08:40:05Z
dc.date.available2025-02-17T08:40:05Z
dc.date.issued2025
dc.identifier.urihttp://hdl.handle.net/20.500.11956/196746
dc.description.abstractTato diplomová práce se zabývá hodnocením schopností velkých jazykových modelů (LLM) v českém jazyce prostřednictvím srovnání strojově a manuálně přeložené úlohy Winograd Schema Challenge z benchmarku SuperGLUE. Hodnotící rámec SuperGLUE představuje uznávanou sadu standardizovaných testů pro posuzování schopností umělé inteligence v oblasti zpracování přirozeného jazyka. Přestože velké jazykové modely prokazují pozoruhodné schopnosti i v jiných jazycích než angličtině, jejich systematické hodnocení v neanglofonním prostředí zůstává výzvou. Důvodem je především nedostatek kvalitních hodnotících rámců, které by zohledňovaly specifické vlastnosti jednotlivých jazyků. Teoretická část práce definuje klíčové pojmy související s benchmarkingem modelů umělé inteligence pomocí vícejazyčného hodnocení a zaměřuje se na omezení vzniklá při překladech benchmarků zaměřených na angličtinu, v tomto případě rámce SuperGLUE, pro jiné jazyky. Zkoumá problémy strojového i manuálního překladu zároveň se snahou zachovat jazykovou přesnost a validitu testů. Praktická část představuje případovou studii porovnávající výsledky testování skrze strojově přeloženou, manuálně přeloženou a původní (anglickou) úlohu Winograd Schema Challenge pod benchmarkem SuperGLUE. Testuje metodicky vybrané velké jazykové modely s cílem...cs_CZ
dc.description.abstractThis thesis investigates the capabilities of large language models (LLMs) in Czech by comparing machine and human translations of the Winograd Schema Challenge, a component of the SuperGLUE benchmark. While SuperGLUE serves as a widely recognized framework for evaluating natural language processing capabilities in artificial intelligence systems, the assessment of LLMs in non-English languages presents unique challenges. Despite these models demonstrating impressive performance across multiple languages, their systematic evaluation in non-English contexts remains difficult, largely due to the absence of robust assessment frameworks that account for language-specific characteristics. This thesis compares the reliability of machine-translated and manually translated benchmark task in evaluating large language models (LLM) in Czech. Although large language models such as GPT-4o or Claude-3.5-Sonnet show convincing skills in languages other than English, evaluating their performance in non-English contexts is challenging due to the lack of well-defined benchmarks adapted to relevant language-specific requirements. The theoretical section defines key concepts related to AI model benchmarking and multilingual evaluation and focuses on the limitations arising when translating English- focused benchmarks,...en_US
dc.languageČeštinacs_CZ
dc.language.isocs_CZ
dc.publisherUniverzita Karlova, Filozofická fakultacs_CZ
dc.subjectJazykové modely AI|zpracování přirozeného jazyka|benchmark SuperGLUE|zpracování češtiny|vícejazyčné hodnocení AI|jazykově specifické benchmarkovánícs_CZ
dc.subjectAI Language Models|Natural Language Processing|SuperGLUE Benchmark|Czech Language Processing|Multilingual AI Evaluation|Language-Specific Benchmarkingen_US
dc.titleLokalizace a připůsobení anglického benchmarku SuperGLUE pro hodnocení kompetence textových modelů umělé inteligence v oblasti českého jazykacs_CZ
dc.typediplomová prácecs_CZ
dcterms.created2025
dcterms.dateAccepted2025-01-22
dc.description.departmentInstitute of Information Studies and Librarianship - New Media Studiesen_US
dc.description.departmentÚstav informačních studií - studia nových médiícs_CZ
dc.description.facultyFaculty of Artsen_US
dc.description.facultyFilozofická fakultacs_CZ
dc.identifier.repId268906
dc.title.translatedLocalisation and adaptation of the English benchmark SuperGLUE for assessing the competence of text-based artificial intelligence models in the Czech language domainen_US
dc.contributor.refereeKubiš, Petr
thesis.degree.nameMgr.
thesis.degree.levelnavazující magisterskécs_CZ
thesis.degree.disciplineNew Media Studiesen_US
thesis.degree.disciplineStudia nových médiícs_CZ
thesis.degree.programNew Media Studiesen_US
thesis.degree.programStudia nových médiícs_CZ
uk.thesis.typediplomová prácecs_CZ
uk.taxonomy.organization-csFilozofická fakulta::Ústav informačních studií - studia nových médiícs_CZ
uk.taxonomy.organization-enFaculty of Arts::Institute of Information Studies and Librarianship - New Media Studiesen_US
uk.faculty-name.csFilozofická fakultacs_CZ
uk.faculty-name.enFaculty of Artsen_US
uk.faculty-abbr.csFFcs_CZ
uk.degree-discipline.csStudia nových médiícs_CZ
uk.degree-discipline.enNew Media Studiesen_US
uk.degree-program.csStudia nových médiícs_CZ
uk.degree-program.enNew Media Studiesen_US
thesis.grade.csDobřecs_CZ
thesis.grade.enGooden_US
uk.abstract.csTato diplomová práce se zabývá hodnocením schopností velkých jazykových modelů (LLM) v českém jazyce prostřednictvím srovnání strojově a manuálně přeložené úlohy Winograd Schema Challenge z benchmarku SuperGLUE. Hodnotící rámec SuperGLUE představuje uznávanou sadu standardizovaných testů pro posuzování schopností umělé inteligence v oblasti zpracování přirozeného jazyka. Přestože velké jazykové modely prokazují pozoruhodné schopnosti i v jiných jazycích než angličtině, jejich systematické hodnocení v neanglofonním prostředí zůstává výzvou. Důvodem je především nedostatek kvalitních hodnotících rámců, které by zohledňovaly specifické vlastnosti jednotlivých jazyků. Teoretická část práce definuje klíčové pojmy související s benchmarkingem modelů umělé inteligence pomocí vícejazyčného hodnocení a zaměřuje se na omezení vzniklá při překladech benchmarků zaměřených na angličtinu, v tomto případě rámce SuperGLUE, pro jiné jazyky. Zkoumá problémy strojového i manuálního překladu zároveň se snahou zachovat jazykovou přesnost a validitu testů. Praktická část představuje případovou studii porovnávající výsledky testování skrze strojově přeloženou, manuálně přeloženou a původní (anglickou) úlohu Winograd Schema Challenge pod benchmarkem SuperGLUE. Testuje metodicky vybrané velké jazykové modely s cílem...cs_CZ
uk.abstract.enThis thesis investigates the capabilities of large language models (LLMs) in Czech by comparing machine and human translations of the Winograd Schema Challenge, a component of the SuperGLUE benchmark. While SuperGLUE serves as a widely recognized framework for evaluating natural language processing capabilities in artificial intelligence systems, the assessment of LLMs in non-English languages presents unique challenges. Despite these models demonstrating impressive performance across multiple languages, their systematic evaluation in non-English contexts remains difficult, largely due to the absence of robust assessment frameworks that account for language-specific characteristics. This thesis compares the reliability of machine-translated and manually translated benchmark task in evaluating large language models (LLM) in Czech. Although large language models such as GPT-4o or Claude-3.5-Sonnet show convincing skills in languages other than English, evaluating their performance in non-English contexts is challenging due to the lack of well-defined benchmarks adapted to relevant language-specific requirements. The theoretical section defines key concepts related to AI model benchmarking and multilingual evaluation and focuses on the limitations arising when translating English- focused benchmarks,...en_US
uk.file-availabilityV
uk.grantorUniverzita Karlova, Filozofická fakulta, Ústav informačních studií - studia nových médiícs_CZ
thesis.grade.code3
uk.publication-placePrahacs_CZ
uk.thesis.defenceStatusO


Soubory tohoto záznamu

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

Tento záznam se objevuje v následujících sbírkách

Zobrazit minimální záznam


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV