Self-Supervised Summarization via Reinforcement Learning
Automatická sumarizace z neanotovaných dat pomocí zpětnovazebního učení
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/190599Identifikátory
SIS: 267071
Kolekce
- Kvalifikační práce [11199]
Autor
Vedoucí práce
Konzultant práce
Tamchyna, Aleš
Oponent práce
Straka, Milan
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika - Umělá inteligence
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
10. 6. 2024
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
summarization|reinforcement learning|language model|self-supervisionKlíčová slova (anglicky)
sumarizace|zpětnovazební učení|jazykový model|učení s vlastním dohledemSumarizační modely v kontextu hlubokého učení jsou tradičně trénovány metodou ma- ximální věrohodnosti s použitím referenčních souhrnů. Aktivní je také výzkum v oblasti učení s vlastním dohledem (self-supervised), kde reference nejsou vyžadovány a výsledné modely jimi nejsou limitovány. Na tento výzkum navazujeme v této práci návrhem nové funkce odměn (reward function), která hodnotí kvalitu jednotlivých tokenů souhrnu. Tuto funkci pak aplikujeme ve zpětnovazebním učení. Celou trénovací logiku implementujeme modulárně, kdy nezávisle na sobě vyhodnocujeme a ladíme modul učení s učitelem, al- goritmus zpětnovazebního učení a funkci odměn. Stejně tak ladíme i výsledný program po propojení těchto komponent. Výsledné modely vyhodnocujeme na 12 automatických a 3 manuálních metrikách. V téměř všech případech náš přístup zlepšil skóre na metrikách nevyžadujících referenční souhrn (reference-free). 1
In deep learning, summarization models are traditionally trained using a maximum like- lihood objective with reference summaries. Another line of work explores self-supervised approaches that do not require and are not limited by references. In this thesis, we opt for the latter approach. Our main contributions include the design of a novel dense reward function for summarization and its application for fine-tuning a sequence-to-sequence model via reinforcement learning. We build the whole training pipeline in a modular fashion, separately evaluating and tuning a supervised pre-training module, the rein- forcement learning algorithm, and the reward function. After connecting all these com- ponents together, we also tune our self-learning approach as a whole. We evaluate the final checkpoints using 12 automatic and 3 manual metrics, revealing an improvement in reference-free metrics in nearly all cases. 1