Zobrazit minimální záznam

Normalizace automatických transkriptů s ohledem na zdrojový zvukový signál
dc.contributor.advisorBojar, Ondřej
dc.creatorStankov, Vladislav
dc.date.accessioned2024-07-08T09:14:15Z
dc.date.available2024-07-08T09:14:15Z
dc.date.issued2024
dc.identifier.urihttp://hdl.handle.net/20.500.11956/190621
dc.description.abstractIn the domain of Automatic Speech Recognition (ASR), Inverse Text Normalization (ITN) is applied after the speech recognition step to transform recognized verbalized text into written form. This process includes converting verbalized numbers into digits, formatting dates and monetary amounts, and applying correct capitalization and inserting punctuation marks. As ITN systems serve as post-processing modules for ASR outputs, integrating the original audio input as an additional signal into the ITN system is also possible. In this thesis, we explore the impact of the speech signal on the performance of ITN neural models and create a dataset for training and evaluating speech-informed ITN models. Our best model demonstrates a significant improvement in the precision and recall of inserting periods, commas, and question marks, as well as in adding letter casing, when compared to the text-only baseline. Improvements are also observed in less frequent punctuation symbols, though they are not statistically significant. 1en_US
dc.description.abstractV oblasti automatického rozpoznávání řeči (ASR) se po rozpoznání řeči používá in- verzní normalizace textu (ITN), která transformuje rozpoznaný verbalizovaný text do písemné podoby. Tento proces může zahrnovat převod verbalizovaných čísel na číslice, formátování dat, peněžních částek a aplikaci správné kapitalizace a vkládání interpunkce. Vzhledem k tomu, že ITN systémy se používají pro zpracování výstupů ASR, je také možné do ITN systému integrovat původní zvukový vstup jako další signál. V této diplo- mové práci zkoumáme vliv zvukového signálu na výkonnost neuronových ITN modelů a vytváříme datovou sadu pro trénování a vyhodnocování ITN modelů používajících řeč. Náš nejlepší model vykazuje výrazné zlepšení přesnosti a úplnosti při vkládání teček, čárek a otazníků, stejně jako při přidávání velkých písmen ve srovnání s výchozím modelem, který pracuje pouze s textem. Pozorujeme také zlepšení u méně častých interpunkčních znamének, i když toto zlepšení není statisticky významné. 1cs_CZ
dc.languageEnglishcs_CZ
dc.language.isoen_US
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjectinverse text normalization|multimodality|automatic speech recognition|natural language processing|deep learningen_US
dc.subjectnormalizace automatických transkriptů|multimodalita|automatické rozpoznávání řeči|zpracování přirozeného jazyka|hluboké učenícs_CZ
dc.titleSpeech-Informed Inverse Text Normalizationen_US
dc.typediplomová prácecs_CZ
dcterms.created2024
dcterms.dateAccepted2024-06-10
dc.description.departmentInstitute of Formal and Applied Linguisticsen_US
dc.description.departmentÚstav formální a aplikované lingvistikycs_CZ
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.identifier.repId245002
dc.title.translatedNormalizace automatických transkriptů s ohledem na zdrojový zvukový signálcs_CZ
dc.contributor.refereePlátek, Ondřej
thesis.degree.nameMgr.
thesis.degree.levelnavazující magisterskécs_CZ
thesis.degree.disciplineUmělá inteligencecs_CZ
thesis.degree.disciplineArtificial Intelligenceen_US
thesis.degree.programComputer Scienceen_US
thesis.degree.programInformatikacs_CZ
uk.thesis.typediplomová prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Ústav formální a aplikované lingvistikycs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Institute of Formal and Applied Linguisticsen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csUmělá inteligencecs_CZ
uk.degree-discipline.enArtificial Intelligenceen_US
uk.degree-program.csInformatikacs_CZ
uk.degree-program.enComputer Scienceen_US
thesis.grade.csVýborněcs_CZ
thesis.grade.enExcellenten_US
uk.abstract.csV oblasti automatického rozpoznávání řeči (ASR) se po rozpoznání řeči používá in- verzní normalizace textu (ITN), která transformuje rozpoznaný verbalizovaný text do písemné podoby. Tento proces může zahrnovat převod verbalizovaných čísel na číslice, formátování dat, peněžních částek a aplikaci správné kapitalizace a vkládání interpunkce. Vzhledem k tomu, že ITN systémy se používají pro zpracování výstupů ASR, je také možné do ITN systému integrovat původní zvukový vstup jako další signál. V této diplo- mové práci zkoumáme vliv zvukového signálu na výkonnost neuronových ITN modelů a vytváříme datovou sadu pro trénování a vyhodnocování ITN modelů používajících řeč. Náš nejlepší model vykazuje výrazné zlepšení přesnosti a úplnosti při vkládání teček, čárek a otazníků, stejně jako při přidávání velkých písmen ve srovnání s výchozím modelem, který pracuje pouze s textem. Pozorujeme také zlepšení u méně častých interpunkčních znamének, i když toto zlepšení není statisticky významné. 1cs_CZ
uk.abstract.enIn the domain of Automatic Speech Recognition (ASR), Inverse Text Normalization (ITN) is applied after the speech recognition step to transform recognized verbalized text into written form. This process includes converting verbalized numbers into digits, formatting dates and monetary amounts, and applying correct capitalization and inserting punctuation marks. As ITN systems serve as post-processing modules for ASR outputs, integrating the original audio input as an additional signal into the ITN system is also possible. In this thesis, we explore the impact of the speech signal on the performance of ITN neural models and create a dataset for training and evaluating speech-informed ITN models. Our best model demonstrates a significant improvement in the precision and recall of inserting periods, commas, and question marks, as well as in adding letter casing, when compared to the text-only baseline. Improvements are also observed in less frequent punctuation symbols, though they are not statistically significant. 1en_US
uk.file-availabilityV
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistikycs_CZ
thesis.grade.code1
uk.publication-placePrahacs_CZ
uk.thesis.defenceStatusO


Soubory tohoto záznamu

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

Tento záznam se objevuje v následujících sbírkách

Zobrazit minimální záznam


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV