Zobrazit minimální záznam

Forced alignment pomocí neuronových sítí
dc.contributor.advisorKofroň, Jan
dc.creatorBeňovič, Marek
dc.date.accessioned2020-10-07T09:51:02Z
dc.date.available2020-10-07T09:51:02Z
dc.date.issued2020
dc.identifier.urihttp://hdl.handle.net/20.500.11956/121244
dc.description.abstractSledování videí s titulky v původním jazyce je jedním z nejúčinnějších způsobů výuky cizího jazyka. Zvýrazňování slov v okamžiku jejich vyslovení pomáhá synchronizovat vizuální a sluchové vnímání a zvyšuje efektivitu učení. Metoda pro zarovnávání or- tografických přepisů do zvukových záznamů je známá jako forced alignment. Tato práce implementuje nástroj pro zarovnávání přepisu YouTube videí s řečí v jejich zvukovém záz- namu a poskytuje webové uživatelské rozhraní s videopřehrávačem prezentujícím výsledky. Integruje dva nejmodernější nástroje pro zarovnávání přepisů založené na Kaldi, první využívající standardní HMM, druhý založen na neuronových sítích a porovnává jejich přesnost. Integrované zarovnávače také poskytují zarovnání na úrovni foném, které lze použít pro trénování statistických modelů ve výzkumu rozpoznávání řeči. Práce popisuje implementační a architektonické koncepty, na kterých je nástroj založen, které lze použít v různých softwarových projektech. 1cs_CZ
dc.description.abstractWatching videos with subtitles in the original language is one of the most effective ways of learning a foreign language. Highlighting words at the moment they are pronounced helps to synchronize visual and auditory perception and increases learning efficiency. The method for aligning orthographic transcriptions to audio recordings is known as forced alignment. This work implements a tool for aligning transcript of YouTube videos with the speech in their audio recording, providing a web user interface with video player presenting the results. It integrates two state-of-the-art forced aligners based on Kaldi, first using standard HMM approach, second based on neural networks and compares their accuracy. Integrated aligners also provide a phone level alignment, which can be used for training statistical models in further speech recognition research. Work describes implementation and architectural concepts the tool is based on, which can be used in various software projects. 1en_US
dc.languageEnglishcs_CZ
dc.language.isoen_US
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjectrozpoznávání řečics_CZ
dc.subjectforced alignmentcs_CZ
dc.subjectneuronové sítěcs_CZ
dc.subjectframework pro webové aplikacecs_CZ
dc.subjecttypescriptcs_CZ
dc.subjectkaldics_CZ
dc.subjectspeech recognitionen_US
dc.subjectforced alignmenten_US
dc.subjectneural networksen_US
dc.subjectweb application frameworken_US
dc.subjecttypescripten_US
dc.subjectkaldien_US
dc.titleForced Alignment via Neural Networksen_US
dc.typediplomová prácecs_CZ
dcterms.created2020
dcterms.dateAccepted2020-09-16
dc.description.departmentKatedra distribuovaných a spolehlivých systémůcs_CZ
dc.description.departmentDepartment of Distributed and Dependable Systemsen_US
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.identifier.repId201422
dc.title.translatedForced alignment pomocí neuronových sítícs_CZ
dc.contributor.refereeHnětynka, Petr
thesis.degree.nameMgr.
thesis.degree.levelnavazující magisterskécs_CZ
thesis.degree.disciplineComputer Graphics and Game Developmenten_US
thesis.degree.disciplinePočítačová grafika a vývoj počítačových hercs_CZ
thesis.degree.programComputer Scienceen_US
thesis.degree.programInformatikacs_CZ
uk.thesis.typediplomová prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Katedra distribuovaných a spolehlivých systémůcs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Department of Distributed and Dependable Systemsen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csPočítačová grafika a vývoj počítačových hercs_CZ
uk.degree-discipline.enComputer Graphics and Game Developmenten_US
uk.degree-program.csInformatikacs_CZ
uk.degree-program.enComputer Scienceen_US
thesis.grade.csDobřecs_CZ
thesis.grade.enGooden_US
uk.abstract.csSledování videí s titulky v původním jazyce je jedním z nejúčinnějších způsobů výuky cizího jazyka. Zvýrazňování slov v okamžiku jejich vyslovení pomáhá synchronizovat vizuální a sluchové vnímání a zvyšuje efektivitu učení. Metoda pro zarovnávání or- tografických přepisů do zvukových záznamů je známá jako forced alignment. Tato práce implementuje nástroj pro zarovnávání přepisu YouTube videí s řečí v jejich zvukovém záz- namu a poskytuje webové uživatelské rozhraní s videopřehrávačem prezentujícím výsledky. Integruje dva nejmodernější nástroje pro zarovnávání přepisů založené na Kaldi, první využívající standardní HMM, druhý založen na neuronových sítích a porovnává jejich přesnost. Integrované zarovnávače také poskytují zarovnání na úrovni foném, které lze použít pro trénování statistických modelů ve výzkumu rozpoznávání řeči. Práce popisuje implementační a architektonické koncepty, na kterých je nástroj založen, které lze použít v různých softwarových projektech. 1cs_CZ
uk.abstract.enWatching videos with subtitles in the original language is one of the most effective ways of learning a foreign language. Highlighting words at the moment they are pronounced helps to synchronize visual and auditory perception and increases learning efficiency. The method for aligning orthographic transcriptions to audio recordings is known as forced alignment. This work implements a tool for aligning transcript of YouTube videos with the speech in their audio recording, providing a web user interface with video player presenting the results. It integrates two state-of-the-art forced aligners based on Kaldi, first using standard HMM approach, second based on neural networks and compares their accuracy. Integrated aligners also provide a phone level alignment, which can be used for training statistical models in further speech recognition research. Work describes implementation and architectural concepts the tool is based on, which can be used in various software projects. 1en_US
uk.file-availabilityV
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Katedra distribuovaných a spolehlivých systémůcs_CZ
thesis.grade.code3
uk.publication-placePrahacs_CZ


Soubory tohoto záznamu

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

Tento záznam se objevuje v následujících sbírkách

Zobrazit minimální záznam


© 2025 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV