Measuring lexical surprisal in legal texts
Měření lexikálního překvapení v právních textech
bakalářská práce (OBHÁJENO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/200780Identifikátory
SIS: 270420
Kolekce
- Kvalifikační práce [11590]
Autor
Vedoucí práce
Oponent práce
Hajič, Jan
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika se specializací Umělá inteligence
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
20. 6. 2025
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Výborně
Klíčová slova (česky)
Zpracování přirozeného jazyka|Transformery|GPT|Lexikální překvapení|Informační entropie|Porozumitelnost textu|Výpočetní lingvistikaKlíčová slova (anglicky)
Natural language processing|Transformers|GPT|Lexical surprise|Information entropy|Text comprehension|Computational linguisticsTato práce kombinuje zpracování přirozeného jazyka a vizualizaci textu prostřednic- tvím inovativního konceptu "text glittering". Ten je inspirován statistickými metodami popsanými v článku "GLTR: Statistical Detection and Visualization of Generated Text" od Sebastiana Gehrmanna, Hendrika Strobelta a Alexandera M. Rushe (2019). Výzkum se zabývá čitelností a informativností textu, aby se předešlo nedorozuměním, zejména v právním kontextu. S využitím technik jako jsou jazykové modely a aproximace informační entropie práce zachycuje vývoj nástroje pro vizuální reprezentaci a hodnocení čitelnosti textu. Získané poznatky přispívají do oblasti zpracování přirozeného jazyka a nabízejí praktické využití pro zlepšení srozumitelnosti textu.
This thesis explores the intersection of natural language processing and text visual- ization through the innovative concept of "text glittering". It is inspired by the statistical detection methods outlined in the paper "GLTR: Statistical Detection and Visualization of Generated Text" by Sebastian Gehrmann, Hendrik Strobelt and Alexander M. Rush (2019). The research addresses the challenges of readability and information preserva- tion, highlighting the importance of clear communication to prevent misunderstandings, particularly in legal contexts. By employing techniques such as language modeling and information entropy approximation, the thesis develops a visual representation tool and an assessment of the readability of a text. The findings contribute to natural language processing and offer practical applications to improve text clarity and engagement.