Lokalizace a připůsobení anglického benchmarku SuperGLUE pro hodnocení kompetence textových modelů umělé inteligence v oblasti českého jazyka

Pittnerová, Lenka

Localisation and adaptation of the English benchmark SuperGLUE for assessing the competence of text-based artificial intelligence models in the Czech language domain

diploma thesis (DEFENDED)

View/Open

Záznam o průběhu obhajoby (152.4Kb)

Permanent link

http://hdl.handle.net/20.500.11956/196746

Identifiers

Study Information System: 268906

Referee

Kubiš, Petr

Faculty / Institute

Faculty of Arts

Discipline

New Media Studies

Department

Institute of Information Studies and Librarianship - New Media Studies

Date of defense

22. 1. 2025

Publisher

Univerzita Karlova, Filozofická fakulta

Language

Czech

Grade

Good

Keywords (Czech)

Keywords (English)

Tato diplomová práce se zabývá hodnocením schopností velkých jazykových modelů (LLM) v českém jazyce prostřednictvím srovnání strojově a manuálně přeložené úlohy Winograd Schema Challenge z benchmarku SuperGLUE. Hodnotící rámec SuperGLUE představuje uznávanou sadu standardizovaných testů pro posuzování schopností umělé inteligence v oblasti zpracování přirozeného jazyka. Přestože velké jazykové modely prokazují pozoruhodné schopnosti i v jiných jazycích než angličtině, jejich systematické hodnocení v neanglofonním prostředí zůstává výzvou. Důvodem je především nedostatek kvalitních hodnotících rámců, které by zohledňovaly specifické vlastnosti jednotlivých jazyků. Teoretická část práce definuje klíčové pojmy související s benchmarkingem modelů umělé inteligence pomocí vícejazyčného hodnocení a zaměřuje se na omezení vzniklá při překladech benchmarků zaměřených na angličtinu, v tomto případě rámce SuperGLUE, pro jiné jazyky. Zkoumá problémy strojového i manuálního překladu zároveň se snahou zachovat jazykovou přesnost a validitu testů. Praktická část představuje případovou studii porovnávající výsledky testování skrze strojově přeloženou, manuálně přeloženou a původní (anglickou) úlohu Winograd Schema Challenge pod benchmarkem SuperGLUE. Testuje metodicky vybrané velké jazykové modely s cílem...

Abstract (English)

This thesis investigates the capabilities of large language models (LLMs) in Czech by comparing machine and human translations of the Winograd Schema Challenge, a component of the SuperGLUE benchmark. While SuperGLUE serves as a widely recognized framework for evaluating natural language processing capabilities in artificial intelligence systems, the assessment of LLMs in non-English languages presents unique challenges. Despite these models demonstrating impressive performance across multiple languages, their systematic evaluation in non-English contexts remains difficult, largely due to the absence of robust assessment frameworks that account for language-specific characteristics. This thesis compares the reliability of machine-translated and manually translated benchmark task in evaluating large language models (LLM) in Czech. Although large language models such as GPT-4o or Claude-3.5-Sonnet show convincing skills in languages other than English, evaluating their performance in non-English contexts is challenging due to the lack of well-defined benchmarks adapted to relevant language-specific requirements. The theoretical section defines key concepts related to AI model benchmarking and multilingual evaluation and focuses on the limitations arising when translating English- focused benchmarks,...

Citace dokumentu

Metadata

Show full item record