dc.contributor.advisor | Šlerka, Josef | |
dc.creator | Pittnerová, Lenka | |
dc.date.accessioned | 2025-02-17T08:40:05Z | |
dc.date.available | 2025-02-17T08:40:05Z | |
dc.date.issued | 2025 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/196746 | |
dc.description.abstract | Tato diplomová práce se zabývá hodnocením schopností velkých jazykových modelů (LLM) v českém jazyce prostřednictvím srovnání strojově a manuálně přeložené úlohy Winograd Schema Challenge z benchmarku SuperGLUE. Hodnotící rámec SuperGLUE představuje uznávanou sadu standardizovaných testů pro posuzování schopností umělé inteligence v oblasti zpracování přirozeného jazyka. Přestože velké jazykové modely prokazují pozoruhodné schopnosti i v jiných jazycích než angličtině, jejich systematické hodnocení v neanglofonním prostředí zůstává výzvou. Důvodem je především nedostatek kvalitních hodnotících rámců, které by zohledňovaly specifické vlastnosti jednotlivých jazyků. Teoretická část práce definuje klíčové pojmy související s benchmarkingem modelů umělé inteligence pomocí vícejazyčného hodnocení a zaměřuje se na omezení vzniklá při překladech benchmarků zaměřených na angličtinu, v tomto případě rámce SuperGLUE, pro jiné jazyky. Zkoumá problémy strojového i manuálního překladu zároveň se snahou zachovat jazykovou přesnost a validitu testů. Praktická část představuje případovou studii porovnávající výsledky testování skrze strojově přeloženou, manuálně přeloženou a původní (anglickou) úlohu Winograd Schema Challenge pod benchmarkem SuperGLUE. Testuje metodicky vybrané velké jazykové modely s cílem... | cs_CZ |
dc.description.abstract | This thesis investigates the capabilities of large language models (LLMs) in Czech by comparing machine and human translations of the Winograd Schema Challenge, a component of the SuperGLUE benchmark. While SuperGLUE serves as a widely recognized framework for evaluating natural language processing capabilities in artificial intelligence systems, the assessment of LLMs in non-English languages presents unique challenges. Despite these models demonstrating impressive performance across multiple languages, their systematic evaluation in non-English contexts remains difficult, largely due to the absence of robust assessment frameworks that account for language-specific characteristics. This thesis compares the reliability of machine-translated and manually translated benchmark task in evaluating large language models (LLM) in Czech. Although large language models such as GPT-4o or Claude-3.5-Sonnet show convincing skills in languages other than English, evaluating their performance in non-English contexts is challenging due to the lack of well-defined benchmarks adapted to relevant language-specific requirements. The theoretical section defines key concepts related to AI model benchmarking and multilingual evaluation and focuses on the limitations arising when translating English- focused benchmarks,... | en_US |
dc.language | Čeština | cs_CZ |
dc.language.iso | cs_CZ | |
dc.publisher | Univerzita Karlova, Filozofická fakulta | cs_CZ |
dc.subject | Jazykové modely AI|zpracování přirozeného jazyka|benchmark SuperGLUE|zpracování češtiny|vícejazyčné hodnocení AI|jazykově specifické benchmarkování | cs_CZ |
dc.subject | AI Language Models|Natural Language Processing|SuperGLUE Benchmark|Czech Language Processing|Multilingual AI Evaluation|Language-Specific Benchmarking | en_US |
dc.title | Lokalizace a připůsobení anglického benchmarku SuperGLUE pro hodnocení kompetence textových modelů umělé inteligence v oblasti českého jazyka | cs_CZ |
dc.type | diplomová práce | cs_CZ |
dcterms.created | 2025 | |
dcterms.dateAccepted | 2025-01-22 | |
dc.description.department | Institute of Information Studies and Librarianship - New Media Studies | en_US |
dc.description.department | Ústav informačních studií - studia nových médií | cs_CZ |
dc.description.faculty | Faculty of Arts | en_US |
dc.description.faculty | Filozofická fakulta | cs_CZ |
dc.identifier.repId | 268906 | |
dc.title.translated | Localisation and adaptation of the English benchmark SuperGLUE for assessing the competence of text-based artificial intelligence models in the Czech language domain | en_US |
dc.contributor.referee | Kubiš, Petr | |
thesis.degree.name | Mgr. | |
thesis.degree.level | navazující magisterské | cs_CZ |
thesis.degree.discipline | New Media Studies | en_US |
thesis.degree.discipline | Studia nových médií | cs_CZ |
thesis.degree.program | New Media Studies | en_US |
thesis.degree.program | Studia nových médií | cs_CZ |
uk.thesis.type | diplomová práce | cs_CZ |
uk.taxonomy.organization-cs | Filozofická fakulta::Ústav informačních studií - studia nových médií | cs_CZ |
uk.taxonomy.organization-en | Faculty of Arts::Institute of Information Studies and Librarianship - New Media Studies | en_US |
uk.faculty-name.cs | Filozofická fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Arts | en_US |
uk.faculty-abbr.cs | FF | cs_CZ |
uk.degree-discipline.cs | Studia nových médií | cs_CZ |
uk.degree-discipline.en | New Media Studies | en_US |
uk.degree-program.cs | Studia nových médií | cs_CZ |
uk.degree-program.en | New Media Studies | en_US |
thesis.grade.cs | Dobře | cs_CZ |
thesis.grade.en | Good | en_US |
uk.abstract.cs | Tato diplomová práce se zabývá hodnocením schopností velkých jazykových modelů (LLM) v českém jazyce prostřednictvím srovnání strojově a manuálně přeložené úlohy Winograd Schema Challenge z benchmarku SuperGLUE. Hodnotící rámec SuperGLUE představuje uznávanou sadu standardizovaných testů pro posuzování schopností umělé inteligence v oblasti zpracování přirozeného jazyka. Přestože velké jazykové modely prokazují pozoruhodné schopnosti i v jiných jazycích než angličtině, jejich systematické hodnocení v neanglofonním prostředí zůstává výzvou. Důvodem je především nedostatek kvalitních hodnotících rámců, které by zohledňovaly specifické vlastnosti jednotlivých jazyků. Teoretická část práce definuje klíčové pojmy související s benchmarkingem modelů umělé inteligence pomocí vícejazyčného hodnocení a zaměřuje se na omezení vzniklá při překladech benchmarků zaměřených na angličtinu, v tomto případě rámce SuperGLUE, pro jiné jazyky. Zkoumá problémy strojového i manuálního překladu zároveň se snahou zachovat jazykovou přesnost a validitu testů. Praktická část představuje případovou studii porovnávající výsledky testování skrze strojově přeloženou, manuálně přeloženou a původní (anglickou) úlohu Winograd Schema Challenge pod benchmarkem SuperGLUE. Testuje metodicky vybrané velké jazykové modely s cílem... | cs_CZ |
uk.abstract.en | This thesis investigates the capabilities of large language models (LLMs) in Czech by comparing machine and human translations of the Winograd Schema Challenge, a component of the SuperGLUE benchmark. While SuperGLUE serves as a widely recognized framework for evaluating natural language processing capabilities in artificial intelligence systems, the assessment of LLMs in non-English languages presents unique challenges. Despite these models demonstrating impressive performance across multiple languages, their systematic evaluation in non-English contexts remains difficult, largely due to the absence of robust assessment frameworks that account for language-specific characteristics. This thesis compares the reliability of machine-translated and manually translated benchmark task in evaluating large language models (LLM) in Czech. Although large language models such as GPT-4o or Claude-3.5-Sonnet show convincing skills in languages other than English, evaluating their performance in non-English contexts is challenging due to the lack of well-defined benchmarks adapted to relevant language-specific requirements. The theoretical section defines key concepts related to AI model benchmarking and multilingual evaluation and focuses on the limitations arising when translating English- focused benchmarks,... | en_US |
uk.file-availability | V | |
uk.grantor | Univerzita Karlova, Filozofická fakulta, Ústav informačních studií - studia nových médií | cs_CZ |
thesis.grade.code | 3 | |
uk.publication-place | Praha | cs_CZ |
uk.thesis.defenceStatus | O | |