Tackling Hallucinations in Chart Summarization
Odstraňování halucinací při sumarizaci grafů
diplomová práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/179356Identifikátory
SIS: 247574
Kolekce
- Kvalifikační práce [10926]
Autor
Vedoucí práce
Oponent práce
Rosa, Rudolf
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Computer Science - Language Technologies and Computational Linguistics
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
31. 1. 2023
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
generování popisu grafu|generování přirozeného jazyka|generování textu z dat|neuronové generativní modely|zpracování přirozeného jazyka|hluboké učeníKlíčová slova (anglicky)
chart-to-text generation|natural language generation|data-to-text generation|neural generative models|natural language processing|deep learningThesis Abstract Saad Obaid ul Islam Charles University, Saarland University Title Tackling Hallucinations in Chart Summarization Abstract Information visualizations like bar charts, line charts, and pie charts are a common way of communicating quantitative data. They are used to get important insights and make well informed decisions. Automatic Chart Summarization is the task to explain and summarize the key takeaways from the chart. Like other natural language generation (NLG) systems, chart summarization systems suffer from a phenomenon called halluci- nations. Hallucinations occur when the system generates text that is not grounded in the input. In this research work, we try to tackle the problem of hallucinations in chart summarization. Our analysis shows that a lot of additional information is present in the training data that leads to hallucinations during inference. We also found out that reducing long distance dependencies and addition of chart related information like title and legends improve the overall performance of the system. Furthermore, we propose a natural language inference (NLI) based method to clean the training data and show that our method produces faithful summaries. 1