Zobrazit minimální záznam

Czech Grammar Error Correction
dc.contributor.advisorStraka, Milan
dc.creatorPechman, Petr
dc.date.accessioned2024-07-08T09:10:03Z
dc.date.available2024-07-08T09:10:03Z
dc.date.issued2024
dc.identifier.urihttp://hdl.handle.net/20.500.11956/190601
dc.description.abstractWe present a grammatical error correction system for correcting the Czech language. The system is based on the neural machine translation approach. We utilize the Trans- former architecture, which depends on a large amount of annotated data. Given that for most languages, including Czech, there is not enough annotated data available, we opt to generate synthetic data with artificial errors. We generate not only using sim- ple language-independent errors, but we also introduce typical Czech errors. To facili- tate quick experimentation, we develop a flexible training pipeline capable of real-time data generation. Consequently, we evaluate the effect of several proposed improvements such as oversampling of language domains or a choice of data source for synthetic gen- eration. Our best-performing model achieves state-of-the-art results in the Czech lan- guage for comparable model size. The implementation is released on GitHub at https: //github.com/petrpechman/czech_gec/tree/MasterThesis_PechmanPetr_2024. 1en_US
dc.description.abstractPředstavujeme systém na opravu gramatických chyb v českém jazyce. Systém je založen na přístupu neuronového strojového překladu. Požíváme architekturu Trans- former, která je závislá na velkém množství anotovaných dat. Vzhledem k tomu, že pro většinu jazyků včetně češtiny není k dispozici dostatek anotovaných dat, volíme syn- tetické generování dat. Do syntetických chyb zavádíme, jak chyby jednoduché, tak i složitější - typické české chyby. Pro usnadnění experimentování vyvíjíme systém schopný generovat data v reálném čase a rovnou na těchto datech trénovat model. Následně navrhujeme několik vylepšení, jako je převzorkování jazykových domén nebo výběr zdroje dat pro syntetické generování. Náš nejvýkonnější model dosahuje nejlepších výsledků v českém jazyce vůči modelům, které jsou srovnatelně velké. Implementace je zveře- jněna na GitHub pod adresou: https://github.com/petrpechman/czech_gec/tree/ MasterThesis_PechmanPetr_2024. 1cs_CZ
dc.languageČeštinacs_CZ
dc.language.isocs_CZ
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjectgrammar error correction|GECCC|Czechen_US
dc.subjectoprava gramatiky|GECCC|češtinacs_CZ
dc.titleOprava gramatiky v češtiněcs_CZ
dc.typediplomová prácecs_CZ
dcterms.created2024
dcterms.dateAccepted2024-06-10
dc.description.departmentInstitute of Formal and Applied Linguisticsen_US
dc.description.departmentÚstav formální a aplikované lingvistikycs_CZ
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.identifier.repId254605
dc.title.translatedCzech Grammar Error Correctionen_US
dc.contributor.refereeRosen, Alexandr
thesis.degree.nameMgr.
thesis.degree.levelnavazující magisterskécs_CZ
thesis.degree.disciplineInformatika - Umělá inteligencecs_CZ
thesis.degree.disciplineComputer Science - Artificial Intelligenceen_US
thesis.degree.programComputer Science - Artificial Intelligenceen_US
thesis.degree.programInformatika - Umělá inteligencecs_CZ
uk.thesis.typediplomová prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Ústav formální a aplikované lingvistikycs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Institute of Formal and Applied Linguisticsen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csInformatika - Umělá inteligencecs_CZ
uk.degree-discipline.enComputer Science - Artificial Intelligenceen_US
uk.degree-program.csInformatika - Umělá inteligencecs_CZ
uk.degree-program.enComputer Science - Artificial Intelligenceen_US
thesis.grade.csVýborněcs_CZ
thesis.grade.enExcellenten_US
uk.abstract.csPředstavujeme systém na opravu gramatických chyb v českém jazyce. Systém je založen na přístupu neuronového strojového překladu. Požíváme architekturu Trans- former, která je závislá na velkém množství anotovaných dat. Vzhledem k tomu, že pro většinu jazyků včetně češtiny není k dispozici dostatek anotovaných dat, volíme syn- tetické generování dat. Do syntetických chyb zavádíme, jak chyby jednoduché, tak i složitější - typické české chyby. Pro usnadnění experimentování vyvíjíme systém schopný generovat data v reálném čase a rovnou na těchto datech trénovat model. Následně navrhujeme několik vylepšení, jako je převzorkování jazykových domén nebo výběr zdroje dat pro syntetické generování. Náš nejvýkonnější model dosahuje nejlepších výsledků v českém jazyce vůči modelům, které jsou srovnatelně velké. Implementace je zveře- jněna na GitHub pod adresou: https://github.com/petrpechman/czech_gec/tree/ MasterThesis_PechmanPetr_2024. 1cs_CZ
uk.abstract.enWe present a grammatical error correction system for correcting the Czech language. The system is based on the neural machine translation approach. We utilize the Trans- former architecture, which depends on a large amount of annotated data. Given that for most languages, including Czech, there is not enough annotated data available, we opt to generate synthetic data with artificial errors. We generate not only using sim- ple language-independent errors, but we also introduce typical Czech errors. To facili- tate quick experimentation, we develop a flexible training pipeline capable of real-time data generation. Consequently, we evaluate the effect of several proposed improvements such as oversampling of language domains or a choice of data source for synthetic gen- eration. Our best-performing model achieves state-of-the-art results in the Czech lan- guage for comparable model size. The implementation is released on GitHub at https: //github.com/petrpechman/czech_gec/tree/MasterThesis_PechmanPetr_2024. 1en_US
uk.file-availabilityV
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistikycs_CZ
thesis.grade.code1
dc.contributor.consultantNáplava, Jakub
uk.publication-placePrahacs_CZ
uk.thesis.defenceStatusO


Soubory tohoto záznamu

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

Tento záznam se objevuje v následujících sbírkách

Zobrazit minimální záznam


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV