dc.contributor.advisor | Lango, Mateusz | |
dc.creator | Kartáč, Ivan | |
dc.date.accessioned | 2025-02-25T10:10:09Z | |
dc.date.available | 2025-02-25T10:10:09Z | |
dc.date.issued | 2025 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/197092 | |
dc.description.abstract | Tradiční metriky pro evaluaci generování přirozeného jazyka (NLG) často nedokážou adekvátně zachytit komplexitu jazyka a mnohdy se neshodují s lidským hodnocením. V poslední době byly navrženy přístupy založené na velkých jazykových modelech (LLM), které si kladou za cíl tyto nedostatky překonat. Nicméně, většina současných přístupů je založena na uzavřených (closed-source) modelech nebo postrádá dostatečnou interpretovatelnost. Tato práce se zaměřuje na využití otevřených LLM k vytvoření robustní a interpretovatelné metody pro evaluaci NLG, a prezentuje přístup založený na promptech, který využívá ensemble několika LLM. Tuto metodu následně využíváme k vytvoření syntetického trénovacího datasetu, který zahrnuje řadu úloh, evaluačních kritérií a typů systémů. Na tomto datasetu trénujeme specializovaný evaluační model založený na Llama 3.1 8B. Evaluace na různých benchmarcích ukazuje, že náš ensemble přístup překonává jak tradiční metriky NLG, tak i metody založené na neuronových sítích a LLM. Dále, náš trénovaný model dosahuje přesvědčivých výsledků a významně překonává svůj základní model. | cs_CZ |
dc.description.abstract | Traditional metrics for evaluating natural language generation (NLG) often struggle to capture linguistic complexity or align with human judgment. Recently, approaches based on large language models (LLMs) have been proposed to address these limitations. However, many existing approaches rely on proprietary LLMs or lack sufficient explainability. This thesis explores the potential of open-weight LLMs to develop a robust and explainable method for NLG evaluation. We develop a prompt-based evaluation method that applies an ensemble of LLMs to assess the quality of generated texts. This method is then applied to construct a synthetic training dataset that represents a wide range of tasks, evaluation aspects and systems. Using this dataset, we train a specialized evaluator model through distillation, employing Llama 3.1 8B as the backbone. Evaluation on a number of benchmarks demonstrates that our ensemble approach outperforms both the traditional NLG metrics as well as trained neural models and LLM-based methods. Additionally, the fine-tuned evaluator achieves competitive performance, with substantial improvements over the backbone model. | en_US |
dc.language | Čeština | cs_CZ |
dc.language.iso | cs_CZ | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.subject | generování přirozeného jazyka|evaluace|velké jazykové modely|zpracování přirozeného jazyka | cs_CZ |
dc.subject | natural language generation|evaluation|large language models|natural language processing | en_US |
dc.title | Vysvětlitelná evaluace generování textu založená na velkých jazykových modelech a chybové analýze | cs_CZ |
dc.type | diplomová práce | cs_CZ |
dcterms.created | 2025 | |
dcterms.dateAccepted | 2025-02-04 | |
dc.description.department | Institute of Formal and Applied Linguistics | en_US |
dc.description.department | Ústav formální a aplikované lingvistiky | cs_CZ |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.identifier.repId | 272633 | |
dc.title.translated | Explainable LLM-based evaluation for NLG using error analysis | en_US |
dc.contributor.referee | Libovický, Jindřich | |
thesis.degree.name | Mgr. | |
thesis.degree.level | navazující magisterské | cs_CZ |
thesis.degree.discipline | Computer Science - Language Technologies and Computational Linguistics | en_US |
thesis.degree.discipline | Informatika - Jazykové technologie a počítačová lingvistika | cs_CZ |
thesis.degree.program | Computer Science - Language Technologies and Computational Linguistics | en_US |
thesis.degree.program | Informatika - Jazykové technologie a počítačová lingvistika | cs_CZ |
uk.thesis.type | diplomová práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Informatika - Jazykové technologie a počítačová lingvistika | cs_CZ |
uk.degree-discipline.en | Computer Science - Language Technologies and Computational Linguistics | en_US |
uk.degree-program.cs | Informatika - Jazykové technologie a počítačová lingvistika | cs_CZ |
uk.degree-program.en | Computer Science - Language Technologies and Computational Linguistics | en_US |
thesis.grade.cs | Výborně | cs_CZ |
thesis.grade.en | Excellent | en_US |
uk.abstract.cs | Tradiční metriky pro evaluaci generování přirozeného jazyka (NLG) často nedokážou adekvátně zachytit komplexitu jazyka a mnohdy se neshodují s lidským hodnocením. V poslední době byly navrženy přístupy založené na velkých jazykových modelech (LLM), které si kladou za cíl tyto nedostatky překonat. Nicméně, většina současných přístupů je založena na uzavřených (closed-source) modelech nebo postrádá dostatečnou interpretovatelnost. Tato práce se zaměřuje na využití otevřených LLM k vytvoření robustní a interpretovatelné metody pro evaluaci NLG, a prezentuje přístup založený na promptech, který využívá ensemble několika LLM. Tuto metodu následně využíváme k vytvoření syntetického trénovacího datasetu, který zahrnuje řadu úloh, evaluačních kritérií a typů systémů. Na tomto datasetu trénujeme specializovaný evaluační model založený na Llama 3.1 8B. Evaluace na různých benchmarcích ukazuje, že náš ensemble přístup překonává jak tradiční metriky NLG, tak i metody založené na neuronových sítích a LLM. Dále, náš trénovaný model dosahuje přesvědčivých výsledků a významně překonává svůj základní model. | cs_CZ |
uk.abstract.en | Traditional metrics for evaluating natural language generation (NLG) often struggle to capture linguistic complexity or align with human judgment. Recently, approaches based on large language models (LLMs) have been proposed to address these limitations. However, many existing approaches rely on proprietary LLMs or lack sufficient explainability. This thesis explores the potential of open-weight LLMs to develop a robust and explainable method for NLG evaluation. We develop a prompt-based evaluation method that applies an ensemble of LLMs to assess the quality of generated texts. This method is then applied to construct a synthetic training dataset that represents a wide range of tasks, evaluation aspects and systems. Using this dataset, we train a specialized evaluator model through distillation, employing Llama 3.1 8B as the backbone. Evaluation on a number of benchmarks demonstrates that our ensemble approach outperforms both the traditional NLG metrics as well as trained neural models and LLM-based methods. Additionally, the fine-tuned evaluator achieves competitive performance, with substantial improvements over the backbone model. | en_US |
uk.file-availability | V | |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky | cs_CZ |
thesis.grade.code | 1 | |
dc.contributor.consultant | Dušek, Ondřej | |
uk.publication-place | Praha | cs_CZ |
uk.thesis.defenceStatus | O | |