Forced Alignment via Neural Networks

Beňovič, Marek

Forced alignment pomocí neuronových sítí

dc.contributor.advisor	Kofroň, Jan
dc.creator	Beňovič, Marek
dc.date.accessioned	2020-10-07T09:51:02Z
dc.date.available	2020-10-07T09:51:02Z
dc.date.issued	2020
dc.identifier.uri	http://hdl.handle.net/20.500.11956/121244
dc.description.abstract	Sledování videí s titulky v původním jazyce je jedním z nejúčinnějších způsobů výuky cizího jazyka. Zvýrazňování slov v okamžiku jejich vyslovení pomáhá synchronizovat vizuální a sluchové vnímání a zvyšuje efektivitu učení. Metoda pro zarovnávání or- tografických přepisů do zvukových záznamů je známá jako forced alignment. Tato práce implementuje nástroj pro zarovnávání přepisu YouTube videí s řečí v jejich zvukovém záz- namu a poskytuje webové uživatelské rozhraní s videopřehrávačem prezentujícím výsledky. Integruje dva nejmodernější nástroje pro zarovnávání přepisů založené na Kaldi, první využívající standardní HMM, druhý založen na neuronových sítích a porovnává jejich přesnost. Integrované zarovnávače také poskytují zarovnání na úrovni foném, které lze použít pro trénování statistických modelů ve výzkumu rozpoznávání řeči. Práce popisuje implementační a architektonické koncepty, na kterých je nástroj založen, které lze použít v různých softwarových projektech. 1	cs_CZ
dc.description.abstract	Watching videos with subtitles in the original language is one of the most effective ways of learning a foreign language. Highlighting words at the moment they are pronounced helps to synchronize visual and auditory perception and increases learning efficiency. The method for aligning orthographic transcriptions to audio recordings is known as forced alignment. This work implements a tool for aligning transcript of YouTube videos with the speech in their audio recording, providing a web user interface with video player presenting the results. It integrates two state-of-the-art forced aligners based on Kaldi, first using standard HMM approach, second based on neural networks and compares their accuracy. Integrated aligners also provide a phone level alignment, which can be used for training statistical models in further speech recognition research. Work describes implementation and architectural concepts the tool is based on, which can be used in various software projects. 1	en_US
dc.language	English	cs_CZ
dc.language.iso	en_US
dc.publisher	Univerzita Karlova, Matematicko-fyzikální fakulta	cs_CZ
dc.subject	rozpoznávání řeči	cs_CZ
dc.subject	forced alignment	cs_CZ
dc.subject	neuronové sítě	cs_CZ
dc.subject	framework pro webové aplikace	cs_CZ
dc.subject	typescript	cs_CZ
dc.subject	kaldi	cs_CZ
dc.subject	speech recognition	en_US
dc.subject	forced alignment	en_US
dc.subject	neural networks	en_US
dc.subject	web application framework	en_US
dc.subject	typescript	en_US
dc.subject	kaldi	en_US
dc.title	Forced Alignment via Neural Networks	en_US
dc.type	diplomová práce	cs_CZ
dcterms.created	2020
dcterms.dateAccepted	2020-09-16
dc.description.department	Katedra distribuovaných a spolehlivých systémů	cs_CZ
dc.description.department	Department of Distributed and Dependable Systems	en_US
dc.description.faculty	Faculty of Mathematics and Physics	en_US
dc.description.faculty	Matematicko-fyzikální fakulta	cs_CZ
dc.identifier.repId	201422
dc.title.translated	Forced alignment pomocí neuronových sítí	cs_CZ
dc.contributor.referee	Hnětynka, Petr
thesis.degree.name	Mgr.
thesis.degree.level	navazující magisterské	cs_CZ
thesis.degree.discipline	Computer Graphics and Game Development	en_US
thesis.degree.discipline	Počítačová grafika a vývoj počítačových her	cs_CZ
thesis.degree.program	Computer Science	en_US
thesis.degree.program	Informatika	cs_CZ
uk.thesis.type	diplomová práce	cs_CZ
uk.taxonomy.organization-cs	Matematicko-fyzikální fakulta::Katedra distribuovaných a spolehlivých systémů	cs_CZ
uk.taxonomy.organization-en	Faculty of Mathematics and Physics::Department of Distributed and Dependable Systems	en_US
uk.faculty-name.cs	Matematicko-fyzikální fakulta	cs_CZ
uk.faculty-name.en	Faculty of Mathematics and Physics	en_US
uk.faculty-abbr.cs	MFF	cs_CZ
uk.degree-discipline.cs	Počítačová grafika a vývoj počítačových her	cs_CZ
uk.degree-discipline.en	Computer Graphics and Game Development	en_US
uk.degree-program.cs	Informatika	cs_CZ
uk.degree-program.en	Computer Science	en_US
thesis.grade.cs	Dobře	cs_CZ
thesis.grade.en	Good	en_US
uk.abstract.cs	Sledování videí s titulky v původním jazyce je jedním z nejúčinnějších způsobů výuky cizího jazyka. Zvýrazňování slov v okamžiku jejich vyslovení pomáhá synchronizovat vizuální a sluchové vnímání a zvyšuje efektivitu učení. Metoda pro zarovnávání or- tografických přepisů do zvukových záznamů je známá jako forced alignment. Tato práce implementuje nástroj pro zarovnávání přepisu YouTube videí s řečí v jejich zvukovém záz- namu a poskytuje webové uživatelské rozhraní s videopřehrávačem prezentujícím výsledky. Integruje dva nejmodernější nástroje pro zarovnávání přepisů založené na Kaldi, první využívající standardní HMM, druhý založen na neuronových sítích a porovnává jejich přesnost. Integrované zarovnávače také poskytují zarovnání na úrovni foném, které lze použít pro trénování statistických modelů ve výzkumu rozpoznávání řeči. Práce popisuje implementační a architektonické koncepty, na kterých je nástroj založen, které lze použít v různých softwarových projektech. 1	cs_CZ
uk.abstract.en	Watching videos with subtitles in the original language is one of the most effective ways of learning a foreign language. Highlighting words at the moment they are pronounced helps to synchronize visual and auditory perception and increases learning efficiency. The method for aligning orthographic transcriptions to audio recordings is known as forced alignment. This work implements a tool for aligning transcript of YouTube videos with the speech in their audio recording, providing a web user interface with video player presenting the results. It integrates two state-of-the-art forced aligners based on Kaldi, first using standard HMM approach, second based on neural networks and compares their accuracy. Integrated aligners also provide a phone level alignment, which can be used for training statistical models in further speech recognition research. Work describes implementation and architectural concepts the tool is based on, which can be used in various software projects. 1	en_US
uk.file-availability	V
uk.grantor	Univerzita Karlova, Matematicko-fyzikální fakulta, Katedra distribuovaných a spolehlivých systémů	cs_CZ
thesis.grade.code	3
uk.publication-place	Praha	cs_CZ