Lokalizace a připůsobení anglického benchmarku SuperGLUE pro hodnocení kompetence textových modelů umělé inteligence v oblasti českého jazyka
Localisation and adaptation of the English benchmark SuperGLUE for assessing the competence of text-based artificial intelligence models in the Czech language domain
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/196746Identifiers
Study Information System: 268906
Collections
- Kvalifikační práce [23975]
Author
Advisor
Referee
Kubiš, Petr
Faculty / Institute
Faculty of Arts
Discipline
New Media Studies
Department
Institute of Information Studies and Librarianship - New Media Studies
Date of defense
22. 1. 2025
Publisher
Univerzita Karlova, Filozofická fakultaLanguage
Czech
Grade
Good
Keywords (Czech)
Jazykové modely AI|zpracování přirozeného jazyka|benchmark SuperGLUE|zpracování češtiny|vícejazyčné hodnocení AI|jazykově specifické benchmarkováníKeywords (English)
AI Language Models|Natural Language Processing|SuperGLUE Benchmark|Czech Language Processing|Multilingual AI Evaluation|Language-Specific BenchmarkingTato diplomová práce se zabývá hodnocením schopností velkých jazykových modelů (LLM) v českém jazyce prostřednictvím srovnání strojově a manuálně přeložené úlohy Winograd Schema Challenge z benchmarku SuperGLUE. Hodnotící rámec SuperGLUE představuje uznávanou sadu standardizovaných testů pro posuzování schopností umělé inteligence v oblasti zpracování přirozeného jazyka. Přestože velké jazykové modely prokazují pozoruhodné schopnosti i v jiných jazycích než angličtině, jejich systematické hodnocení v neanglofonním prostředí zůstává výzvou. Důvodem je především nedostatek kvalitních hodnotících rámců, které by zohledňovaly specifické vlastnosti jednotlivých jazyků. Teoretická část práce definuje klíčové pojmy související s benchmarkingem modelů umělé inteligence pomocí vícejazyčného hodnocení a zaměřuje se na omezení vzniklá při překladech benchmarků zaměřených na angličtinu, v tomto případě rámce SuperGLUE, pro jiné jazyky. Zkoumá problémy strojového i manuálního překladu zároveň se snahou zachovat jazykovou přesnost a validitu testů. Praktická část představuje případovou studii porovnávající výsledky testování skrze strojově přeloženou, manuálně přeloženou a původní (anglickou) úlohu Winograd Schema Challenge pod benchmarkem SuperGLUE. Testuje metodicky vybrané velké jazykové modely s cílem...
This thesis investigates the capabilities of large language models (LLMs) in Czech by comparing machine and human translations of the Winograd Schema Challenge, a component of the SuperGLUE benchmark. While SuperGLUE serves as a widely recognized framework for evaluating natural language processing capabilities in artificial intelligence systems, the assessment of LLMs in non-English languages presents unique challenges. Despite these models demonstrating impressive performance across multiple languages, their systematic evaluation in non-English contexts remains difficult, largely due to the absence of robust assessment frameworks that account for language-specific characteristics. This thesis compares the reliability of machine-translated and manually translated benchmark task in evaluating large language models (LLM) in Czech. Although large language models such as GPT-4o or Claude-3.5-Sonnet show convincing skills in languages other than English, evaluating their performance in non-English contexts is challenging due to the lack of well-defined benchmarks adapted to relevant language-specific requirements. The theoretical section defines key concepts related to AI model benchmarking and multilingual evaluation and focuses on the limitations arising when translating English- focused benchmarks,...