Self-Supervised Summarization via Reinforcement Learning
Automatická sumarizace z neanotovaných dat pomocí zpětnovazebního učení
diploma thesis (DEFENDED)
View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/190599Identifiers
Study Information System: 267071
Collections
- Kvalifikační práce [11199]
Author
Advisor
Consultant
Tamchyna, Aleš
Referee
Straka, Milan
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computer Science - Artificial Intelligence
Department
Institute of Formal and Applied Linguistics
Date of defense
10. 6. 2024
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
summarization|reinforcement learning|language model|self-supervisionKeywords (English)
sumarizace|zpětnovazební učení|jazykový model|učení s vlastním dohledemSumarizační modely v kontextu hlubokého učení jsou tradičně trénovány metodou ma- ximální věrohodnosti s použitím referenčních souhrnů. Aktivní je také výzkum v oblasti učení s vlastním dohledem (self-supervised), kde reference nejsou vyžadovány a výsledné modely jimi nejsou limitovány. Na tento výzkum navazujeme v této práci návrhem nové funkce odměn (reward function), která hodnotí kvalitu jednotlivých tokenů souhrnu. Tuto funkci pak aplikujeme ve zpětnovazebním učení. Celou trénovací logiku implementujeme modulárně, kdy nezávisle na sobě vyhodnocujeme a ladíme modul učení s učitelem, al- goritmus zpětnovazebního učení a funkci odměn. Stejně tak ladíme i výsledný program po propojení těchto komponent. Výsledné modely vyhodnocujeme na 12 automatických a 3 manuálních metrikách. V téměř všech případech náš přístup zlepšil skóre na metrikách nevyžadujících referenční souhrn (reference-free). 1
In deep learning, summarization models are traditionally trained using a maximum like- lihood objective with reference summaries. Another line of work explores self-supervised approaches that do not require and are not limited by references. In this thesis, we opt for the latter approach. Our main contributions include the design of a novel dense reward function for summarization and its application for fine-tuning a sequence-to-sequence model via reinforcement learning. We build the whole training pipeline in a modular fashion, separately evaluating and tuning a supervised pre-training module, the rein- forcement learning algorithm, and the reward function. After connecting all these com- ponents together, we also tune our self-learning approach as a whole. We evaluate the final checkpoints using 12 automatic and 3 manual metrics, revealing an improvement in reference-free metrics in nearly all cases. 1