Measuring lexical surprisal in legal texts
Měření lexikálního překvapení v právních textech
bachelor thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/200780Identifiers
Study Information System: 270420
Collections
- Kvalifikační práce [11590]
Author
Advisor
Referee
Hajič, Jan
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computer Science with specialisation in Artificial Intelligence
Department
Institute of Formal and Applied Linguistics
Date of defense
20. 6. 2025
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
English
Grade
Excellent
Keywords (Czech)
Zpracování přirozeného jazyka|Transformery|GPT|Lexikální překvapení|Informační entropie|Porozumitelnost textu|Výpočetní lingvistikaKeywords (English)
Natural language processing|Transformers|GPT|Lexical surprise|Information entropy|Text comprehension|Computational linguisticsTato práce kombinuje zpracování přirozeného jazyka a vizualizaci textu prostřednic- tvím inovativního konceptu "text glittering". Ten je inspirován statistickými metodami popsanými v článku "GLTR: Statistical Detection and Visualization of Generated Text" od Sebastiana Gehrmanna, Hendrika Strobelta a Alexandera M. Rushe (2019). Výzkum se zabývá čitelností a informativností textu, aby se předešlo nedorozuměním, zejména v právním kontextu. S využitím technik jako jsou jazykové modely a aproximace informační entropie práce zachycuje vývoj nástroje pro vizuální reprezentaci a hodnocení čitelnosti textu. Získané poznatky přispívají do oblasti zpracování přirozeného jazyka a nabízejí praktické využití pro zlepšení srozumitelnosti textu.
This thesis explores the intersection of natural language processing and text visual- ization through the innovative concept of "text glittering". It is inspired by the statistical detection methods outlined in the paper "GLTR: Statistical Detection and Visualization of Generated Text" by Sebastian Gehrmann, Hendrik Strobelt and Alexander M. Rush (2019). The research addresses the challenges of readability and information preserva- tion, highlighting the importance of clear communication to prevent misunderstandings, particularly in legal contexts. By employing techniques such as language modeling and information entropy approximation, the thesis develops a visual representation tool and an assessment of the readability of a text. The findings contribute to natural language processing and offer practical applications to improve text clarity and engagement.