Speech-Informed Inverse Text Normalization

Stankov, Vladislav

Normalizace automatických transkriptů s ohledem na zdrojový zvukový signál

dc.contributor.advisor	Bojar, Ondřej
dc.creator	Stankov, Vladislav
dc.date.accessioned	2024-07-08T09:14:15Z
dc.date.available	2024-07-08T09:14:15Z
dc.date.issued	2024
dc.identifier.uri	http://hdl.handle.net/20.500.11956/190621
dc.description.abstract	In the domain of Automatic Speech Recognition (ASR), Inverse Text Normalization (ITN) is applied after the speech recognition step to transform recognized verbalized text into written form. This process includes converting verbalized numbers into digits, formatting dates and monetary amounts, and applying correct capitalization and inserting punctuation marks. As ITN systems serve as post-processing modules for ASR outputs, integrating the original audio input as an additional signal into the ITN system is also possible. In this thesis, we explore the impact of the speech signal on the performance of ITN neural models and create a dataset for training and evaluating speech-informed ITN models. Our best model demonstrates a significant improvement in the precision and recall of inserting periods, commas, and question marks, as well as in adding letter casing, when compared to the text-only baseline. Improvements are also observed in less frequent punctuation symbols, though they are not statistically significant. 1	en_US
dc.description.abstract	V oblasti automatického rozpoznávání řeči (ASR) se po rozpoznání řeči používá in- verzní normalizace textu (ITN), která transformuje rozpoznaný verbalizovaný text do písemné podoby. Tento proces může zahrnovat převod verbalizovaných čísel na číslice, formátování dat, peněžních částek a aplikaci správné kapitalizace a vkládání interpunkce. Vzhledem k tomu, že ITN systémy se používají pro zpracování výstupů ASR, je také možné do ITN systému integrovat původní zvukový vstup jako další signál. V této diplo- mové práci zkoumáme vliv zvukového signálu na výkonnost neuronových ITN modelů a vytváříme datovou sadu pro trénování a vyhodnocování ITN modelů používajících řeč. Náš nejlepší model vykazuje výrazné zlepšení přesnosti a úplnosti při vkládání teček, čárek a otazníků, stejně jako při přidávání velkých písmen ve srovnání s výchozím modelem, který pracuje pouze s textem. Pozorujeme také zlepšení u méně častých interpunkčních znamének, i když toto zlepšení není statisticky významné. 1	cs_CZ
dc.language	English	cs_CZ
dc.language.iso	en_US
dc.publisher	Univerzita Karlova, Matematicko-fyzikální fakulta	cs_CZ
dc.subject	inverse text normalization\|multimodality\|automatic speech recognition\|natural language processing\|deep learning	en_US
dc.subject	normalizace automatických transkriptů\|multimodalita\|automatické rozpoznávání řeči\|zpracování přirozeného jazyka\|hluboké učení	cs_CZ
dc.title	Speech-Informed Inverse Text Normalization	en_US
dc.type	diplomová práce	cs_CZ
dcterms.created	2024
dcterms.dateAccepted	2024-06-10
dc.description.department	Institute of Formal and Applied Linguistics	en_US
dc.description.department	Ústav formální a aplikované lingvistiky	cs_CZ
dc.description.faculty	Matematicko-fyzikální fakulta	cs_CZ
dc.description.faculty	Faculty of Mathematics and Physics	en_US
dc.identifier.repId	245002
dc.title.translated	Normalizace automatických transkriptů s ohledem na zdrojový zvukový signál	cs_CZ
dc.contributor.referee	Plátek, Ondřej
thesis.degree.name	Mgr.
thesis.degree.level	navazující magisterské	cs_CZ
thesis.degree.discipline	Umělá inteligence	cs_CZ
thesis.degree.discipline	Artificial Intelligence	en_US
thesis.degree.program	Computer Science	en_US
thesis.degree.program	Informatika	cs_CZ
uk.thesis.type	diplomová práce	cs_CZ
uk.taxonomy.organization-cs	Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky	cs_CZ
uk.taxonomy.organization-en	Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics	en_US
uk.faculty-name.cs	Matematicko-fyzikální fakulta	cs_CZ
uk.faculty-name.en	Faculty of Mathematics and Physics	en_US
uk.faculty-abbr.cs	MFF	cs_CZ
uk.degree-discipline.cs	Umělá inteligence	cs_CZ
uk.degree-discipline.en	Artificial Intelligence	en_US
uk.degree-program.cs	Informatika	cs_CZ
uk.degree-program.en	Computer Science	en_US
thesis.grade.cs	Výborně	cs_CZ
thesis.grade.en	Excellent	en_US
uk.abstract.cs	V oblasti automatického rozpoznávání řeči (ASR) se po rozpoznání řeči používá in- verzní normalizace textu (ITN), která transformuje rozpoznaný verbalizovaný text do písemné podoby. Tento proces může zahrnovat převod verbalizovaných čísel na číslice, formátování dat, peněžních částek a aplikaci správné kapitalizace a vkládání interpunkce. Vzhledem k tomu, že ITN systémy se používají pro zpracování výstupů ASR, je také možné do ITN systému integrovat původní zvukový vstup jako další signál. V této diplo- mové práci zkoumáme vliv zvukového signálu na výkonnost neuronových ITN modelů a vytváříme datovou sadu pro trénování a vyhodnocování ITN modelů používajících řeč. Náš nejlepší model vykazuje výrazné zlepšení přesnosti a úplnosti při vkládání teček, čárek a otazníků, stejně jako při přidávání velkých písmen ve srovnání s výchozím modelem, který pracuje pouze s textem. Pozorujeme také zlepšení u méně častých interpunkčních znamének, i když toto zlepšení není statisticky významné. 1	cs_CZ
uk.abstract.en	In the domain of Automatic Speech Recognition (ASR), Inverse Text Normalization (ITN) is applied after the speech recognition step to transform recognized verbalized text into written form. This process includes converting verbalized numbers into digits, formatting dates and monetary amounts, and applying correct capitalization and inserting punctuation marks. As ITN systems serve as post-processing modules for ASR outputs, integrating the original audio input as an additional signal into the ITN system is also possible. In this thesis, we explore the impact of the speech signal on the performance of ITN neural models and create a dataset for training and evaluating speech-informed ITN models. Our best model demonstrates a significant improvement in the precision and recall of inserting periods, commas, and question marks, as well as in adding letter casing, when compared to the text-only baseline. Improvements are also observed in less frequent punctuation symbols, though they are not statistically significant. 1	en_US
uk.file-availability	V
uk.grantor	Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky	cs_CZ
thesis.grade.code	1
uk.publication-place	Praha	cs_CZ
uk.thesis.defenceStatus	O