Self-Supervised Summarization via Reinforcement Learning

Kripner, Matěj

Automatická sumarizace z neanotovaných dat pomocí zpětnovazebního učení

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (347.1Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/190599

Identifikátory

SIS: 267071

Konzultant práce

Tamchyna, Aleš

Oponent práce

Straka, Milan

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Informatika - Umělá inteligence

Katedra / ústav / klinika

Ústav formální a aplikované lingvistiky

Datum obhajoby

10. 6. 2024

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Výborně

Klíčová slova (česky)

summarization|reinforcement learning|language model|self-supervision

Klíčová slova (anglicky)

sumarizace|zpětnovazební učení|jazykový model|učení s vlastním dohledem

Sumarizační modely v kontextu hlubokého učení jsou tradičně trénovány metodou ma- ximální věrohodnosti s použitím referenčních souhrnů. Aktivní je také výzkum v oblasti učení s vlastním dohledem (self-supervised), kde reference nejsou vyžadovány a výsledné modely jimi nejsou limitovány. Na tento výzkum navazujeme v této práci návrhem nové funkce odměn (reward function), která hodnotí kvalitu jednotlivých tokenů souhrnu. Tuto funkci pak aplikujeme ve zpětnovazebním učení. Celou trénovací logiku implementujeme modulárně, kdy nezávisle na sobě vyhodnocujeme a ladíme modul učení s učitelem, al- goritmus zpětnovazebního učení a funkci odměn. Stejně tak ladíme i výsledný program po propojení těchto komponent. Výsledné modely vyhodnocujeme na 12 automatických a 3 manuálních metrikách. V téměř všech případech náš přístup zlepšil skóre na metrikách nevyžadujících referenční souhrn (reference-free). 1

Abstrakt (anglicky)

In deep learning, summarization models are traditionally trained using a maximum like- lihood objective with reference summaries. Another line of work explores self-supervised approaches that do not require and are not limited by references. In this thesis, we opt for the latter approach. Our main contributions include the design of a novel dense reward function for summarization and its application for fine-tuning a sequence-to-sequence model via reinforcement learning. We build the whole training pipeline in a modular fashion, separately evaluating and tuning a supervised pre-training module, the rein- forcement learning algorithm, and the reward function. After connecting all these com- ponents together, we also tune our self-learning approach as a whole. We evaluate the final checkpoints using 12 automatic and 3 manual metrics, revealing an improvement in reference-free metrics in nearly all cases. 1

Citace dokumentu

Metadata

Zobrazit celý záznam