Data-to-text generation with text-editing models
Generování textu z dat pomocí modelů pro editaci textu
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/184140Identifikátory
SIS: 255707
Kolekce
- Kvalifikační práce [11199]
Autor
Vedoucí práce
Oponent práce
Variš, Dušan
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika - Jazykové technologie a počítačová lingvistika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
6. 9. 2023
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
generování přirozeného jazyka|generování textu z dat|modely pro editaci textu|zpracování přirozeného jazykaKlíčová slova (anglicky)
natural language generation|data-to-text generation|text-editing models|natural language processingSkúmame použitie rôznych rozšírení modelu FELIX, neurónovej sieti na úpravu textu založenej na transformeroch, pre generovanie textu z dát. Náš prístup je založený na iteratívnom editovaní textu - transformovaní jednotli- vých vstupných dát do krátkych viet pomocou jednoduchých šablón a násled- nom iteratívnom zlepšovaní textu zlúčením viet pomocou modelu na úpravu textu. Naše rozšírenia zahŕňajú nahradenie neautoregresívneho dekodéra mo- delu FELIX autoregresívnym transformérovým dekodérom, rozšírenie dekó- dovania tak, aby bolo možné zachovať vstupné dáta vo výstupnom texte a pridanie mechanizmu na reorganizáciu klauzí založeného na tzv. pointer ne- tworks. Ďalej navrhujeme vlastné nové verzie datasetov WebNLG a Disco- Fuse pre trénovanie modelov na úpravu textu. Naše modely vyhodnocujeme na datasete WebNLG pomocou automatických metrík a manuálne analyzu- jeme výstupy vybraných modelov.
We explore the use of different model extensions of the FELIX neural transformer-based text-editing model for data-to-text generation. Our ap- proach is based on iterative text-editing - transforming the individual items of the input data into short sentences using trivial templates and then it- eratively improving the text by fusing the sentences using a text-editing model. Our extensions include replacing the FELIX's non-autoregressive de- coder with an autoregressive transformer decoder, extending the decoding so that it can preserve the input data in the output text, and adding a pointer network-based clause-level reordering mechanism. Furthermore, we propose our own new dataset versions of the WebNLG and DiscoFuse datasets for training the text-editing models. We evaluate our models on the WebNLG dataset with automatic metrics and manually analyse the outputs of selected models.