dc.contributor.advisor | Kofroň, Jan | |
dc.creator | Beňovič, Marek | |
dc.date.accessioned | 2020-10-07T09:51:02Z | |
dc.date.available | 2020-10-07T09:51:02Z | |
dc.date.issued | 2020 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/121244 | |
dc.description.abstract | Sledování videí s titulky v původním jazyce je jedním z nejúčinnějších způsobů výuky cizího jazyka. Zvýrazňování slov v okamžiku jejich vyslovení pomáhá synchronizovat vizuální a sluchové vnímání a zvyšuje efektivitu učení. Metoda pro zarovnávání or- tografických přepisů do zvukových záznamů je známá jako forced alignment. Tato práce implementuje nástroj pro zarovnávání přepisu YouTube videí s řečí v jejich zvukovém záz- namu a poskytuje webové uživatelské rozhraní s videopřehrávačem prezentujícím výsledky. Integruje dva nejmodernější nástroje pro zarovnávání přepisů založené na Kaldi, první využívající standardní HMM, druhý založen na neuronových sítích a porovnává jejich přesnost. Integrované zarovnávače také poskytují zarovnání na úrovni foném, které lze použít pro trénování statistických modelů ve výzkumu rozpoznávání řeči. Práce popisuje implementační a architektonické koncepty, na kterých je nástroj založen, které lze použít v různých softwarových projektech. 1 | cs_CZ |
dc.description.abstract | Watching videos with subtitles in the original language is one of the most effective ways of learning a foreign language. Highlighting words at the moment they are pronounced helps to synchronize visual and auditory perception and increases learning efficiency. The method for aligning orthographic transcriptions to audio recordings is known as forced alignment. This work implements a tool for aligning transcript of YouTube videos with the speech in their audio recording, providing a web user interface with video player presenting the results. It integrates two state-of-the-art forced aligners based on Kaldi, first using standard HMM approach, second based on neural networks and compares their accuracy. Integrated aligners also provide a phone level alignment, which can be used for training statistical models in further speech recognition research. Work describes implementation and architectural concepts the tool is based on, which can be used in various software projects. 1 | en_US |
dc.language | English | cs_CZ |
dc.language.iso | en_US | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.subject | rozpoznávání řeči | cs_CZ |
dc.subject | forced alignment | cs_CZ |
dc.subject | neuronové sítě | cs_CZ |
dc.subject | framework pro webové aplikace | cs_CZ |
dc.subject | typescript | cs_CZ |
dc.subject | kaldi | cs_CZ |
dc.subject | speech recognition | en_US |
dc.subject | forced alignment | en_US |
dc.subject | neural networks | en_US |
dc.subject | web application framework | en_US |
dc.subject | typescript | en_US |
dc.subject | kaldi | en_US |
dc.title | Forced Alignment via Neural Networks | en_US |
dc.type | diplomová práce | cs_CZ |
dcterms.created | 2020 | |
dcterms.dateAccepted | 2020-09-16 | |
dc.description.department | Katedra distribuovaných a spolehlivých systémů | cs_CZ |
dc.description.department | Department of Distributed and Dependable Systems | en_US |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.identifier.repId | 201422 | |
dc.title.translated | Forced alignment pomocí neuronových sítí | cs_CZ |
dc.contributor.referee | Hnětynka, Petr | |
thesis.degree.name | Mgr. | |
thesis.degree.level | navazující magisterské | cs_CZ |
thesis.degree.discipline | Computer Graphics and Game Development | en_US |
thesis.degree.discipline | Počítačová grafika a vývoj počítačových her | cs_CZ |
thesis.degree.program | Computer Science | en_US |
thesis.degree.program | Informatika | cs_CZ |
uk.thesis.type | diplomová práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Katedra distribuovaných a spolehlivých systémů | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Department of Distributed and Dependable Systems | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Počítačová grafika a vývoj počítačových her | cs_CZ |
uk.degree-discipline.en | Computer Graphics and Game Development | en_US |
uk.degree-program.cs | Informatika | cs_CZ |
uk.degree-program.en | Computer Science | en_US |
thesis.grade.cs | Dobře | cs_CZ |
thesis.grade.en | Good | en_US |
uk.abstract.cs | Sledování videí s titulky v původním jazyce je jedním z nejúčinnějších způsobů výuky cizího jazyka. Zvýrazňování slov v okamžiku jejich vyslovení pomáhá synchronizovat vizuální a sluchové vnímání a zvyšuje efektivitu učení. Metoda pro zarovnávání or- tografických přepisů do zvukových záznamů je známá jako forced alignment. Tato práce implementuje nástroj pro zarovnávání přepisu YouTube videí s řečí v jejich zvukovém záz- namu a poskytuje webové uživatelské rozhraní s videopřehrávačem prezentujícím výsledky. Integruje dva nejmodernější nástroje pro zarovnávání přepisů založené na Kaldi, první využívající standardní HMM, druhý založen na neuronových sítích a porovnává jejich přesnost. Integrované zarovnávače také poskytují zarovnání na úrovni foném, které lze použít pro trénování statistických modelů ve výzkumu rozpoznávání řeči. Práce popisuje implementační a architektonické koncepty, na kterých je nástroj založen, které lze použít v různých softwarových projektech. 1 | cs_CZ |
uk.abstract.en | Watching videos with subtitles in the original language is one of the most effective ways of learning a foreign language. Highlighting words at the moment they are pronounced helps to synchronize visual and auditory perception and increases learning efficiency. The method for aligning orthographic transcriptions to audio recordings is known as forced alignment. This work implements a tool for aligning transcript of YouTube videos with the speech in their audio recording, providing a web user interface with video player presenting the results. It integrates two state-of-the-art forced aligners based on Kaldi, first using standard HMM approach, second based on neural networks and compares their accuracy. Integrated aligners also provide a phone level alignment, which can be used for training statistical models in further speech recognition research. Work describes implementation and architectural concepts the tool is based on, which can be used in various software projects. 1 | en_US |
uk.file-availability | V | |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Katedra distribuovaných a spolehlivých systémů | cs_CZ |
thesis.grade.code | 3 | |
uk.publication-place | Praha | cs_CZ |