dc.contributor.advisor | Dušek, Ondřej | |
dc.creator | Schmidtová, Patrícia | |
dc.date.accessioned | 2022-10-04T14:34:35Z | |
dc.date.available | 2022-10-04T14:34:35Z | |
dc.date.issued | 2022 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/175326 | |
dc.description.abstract | This thesis explores different ways of improving theatre play script gen- eration. To generate a theatre play script, we fine-tune the GPT-2 medium language model on a mixture of theatre plays, movies, and TV show scripts, training it to continue a human-written script start. As plain language-model generation is not sufficient for generating a coherent full-length theatre play, we propose a two step hierarchical generation approach: first generating a plot summary and then conditioning the script generation on the plot summary. We train the hierarchical model on a dataset which we created by aligning plot sum- maries to script scenes using dynamic programming. We also propose additional approaches to make the generated text more consistent (with respect to char- acters and contradictions). We compare our models to a strong vanilla GPT-2 XL baseline and achieve comparable performance with our models being smaller and faster. Moreover, our hierarchical generation approach allows generating a coherent full-length theatre play script under limited human supervision, which has also been verified in practice by theatre professionals within the THEaiTRE project. 1 | en_US |
dc.description.abstract | Tato diplomová práce zkoumá způsoby jak vylepšit generování scénáře di- vadelní hry. Abychom vygenerovali scénář divadelní hry, dotrénujeme jazykový model GPT-2 medium na směsi scénářů divadelních her, filmů a seriálů aby pokračoval v člověkem zadaném začátku scénáře. Pouhé generování jazykovým modelem nestačí na vytvoření celistvé celovečerní divadelné hry a proto navrhu- jeme dvoukrokový hierarchický přístup: nejdříve vygenerujeme dějové shrnutí a pak jím podmiňujeme generování scénáře. Trénujeme hierarchický model na souboru dat, který jsme vytvořili přiřazením dějových shrnutí k scénám v scénáři využitím dynamického programování. Taktéž navrhujeme vícero přístupů na vylepšení konzistence vygenerovaného textu (zaměřené na postavy a kontradikce). Naše modely porovnáváme s modelem GPT-2 XL a dosahují srovnatelných výsledků, přičemž jsou menší a rychlejší. Náš systém hierarchického generování umožňuje vygenerovat celistvou celovečerní divadelní hru s omezenými lidskými zásahy. Toto bylo ověřeno profesionálními dramaturgy v rámci projektu THEaiTRE. 1 | cs_CZ |
dc.language | English | cs_CZ |
dc.language.iso | en_US | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.subject | natural language generation|machine learning|deep learning|natural language processing|theatre play | en_US |
dc.subject | generování přirozeného jazyka|strojové učení|hluboké učení|zpracování přirozeného jazyka|divadelní hra | cs_CZ |
dc.title | Theatre play generation | en_US |
dc.type | diplomová práce | cs_CZ |
dcterms.created | 2022 | |
dcterms.dateAccepted | 2022-09-02 | |
dc.description.department | Institute of Formal and Applied Linguistics | en_US |
dc.description.department | Ústav formální a aplikované lingvistiky | cs_CZ |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.identifier.repId | 227116 | |
dc.title.translated | Generování divadelní hry | cs_CZ |
dc.contributor.referee | Flek, Lucie | |
thesis.degree.name | Mgr. | |
thesis.degree.level | navazující magisterské | cs_CZ |
thesis.degree.discipline | Computational Linguistics | en_US |
thesis.degree.discipline | Matematická lingvistika | cs_CZ |
thesis.degree.program | Computer Science | en_US |
thesis.degree.program | Informatika | cs_CZ |
uk.thesis.type | diplomová práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Matematická lingvistika | cs_CZ |
uk.degree-discipline.en | Computational Linguistics | en_US |
uk.degree-program.cs | Informatika | cs_CZ |
uk.degree-program.en | Computer Science | en_US |
thesis.grade.cs | Výborně | cs_CZ |
thesis.grade.en | Excellent | en_US |
uk.abstract.cs | Tato diplomová práce zkoumá způsoby jak vylepšit generování scénáře di- vadelní hry. Abychom vygenerovali scénář divadelní hry, dotrénujeme jazykový model GPT-2 medium na směsi scénářů divadelních her, filmů a seriálů aby pokračoval v člověkem zadaném začátku scénáře. Pouhé generování jazykovým modelem nestačí na vytvoření celistvé celovečerní divadelné hry a proto navrhu- jeme dvoukrokový hierarchický přístup: nejdříve vygenerujeme dějové shrnutí a pak jím podmiňujeme generování scénáře. Trénujeme hierarchický model na souboru dat, který jsme vytvořili přiřazením dějových shrnutí k scénám v scénáři využitím dynamického programování. Taktéž navrhujeme vícero přístupů na vylepšení konzistence vygenerovaného textu (zaměřené na postavy a kontradikce). Naše modely porovnáváme s modelem GPT-2 XL a dosahují srovnatelných výsledků, přičemž jsou menší a rychlejší. Náš systém hierarchického generování umožňuje vygenerovat celistvou celovečerní divadelní hru s omezenými lidskými zásahy. Toto bylo ověřeno profesionálními dramaturgy v rámci projektu THEaiTRE. 1 | cs_CZ |
uk.abstract.en | This thesis explores different ways of improving theatre play script gen- eration. To generate a theatre play script, we fine-tune the GPT-2 medium language model on a mixture of theatre plays, movies, and TV show scripts, training it to continue a human-written script start. As plain language-model generation is not sufficient for generating a coherent full-length theatre play, we propose a two step hierarchical generation approach: first generating a plot summary and then conditioning the script generation on the plot summary. We train the hierarchical model on a dataset which we created by aligning plot sum- maries to script scenes using dynamic programming. We also propose additional approaches to make the generated text more consistent (with respect to char- acters and contradictions). We compare our models to a strong vanilla GPT-2 XL baseline and achieve comparable performance with our models being smaller and faster. Moreover, our hierarchical generation approach allows generating a coherent full-length theatre play script under limited human supervision, which has also been verified in practice by theatre professionals within the THEaiTRE project. 1 | en_US |
uk.file-availability | V | |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky | cs_CZ |
thesis.grade.code | 1 | |
uk.publication-place | Praha | cs_CZ |
uk.thesis.defenceStatus | O | |