Využití uživatelské odezvy pro zvýšení kvality řečové syntézy
Improving text-to-speech in spoken dialogue systems by employing user's feedback
diplomová práce (OBHÁJENO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/90579Identifikátory
SIS: 188021
Katalog UK: 990021530020106986
Kolekce
- Kvalifikační práce [11342]
Autor
Vedoucí práce
Konzultant práce
Plátek, Ondřej
Oponent práce
Peterek, Nino
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Umělá inteligence
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
7. 9. 2017
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Výborně
Klíčová slova (česky)
speech synthesis, phonetic dictionary, user feedback, machine learning, FST, speech recognitionKlíčová slova (anglicky)
syntéza řeči, fonetický slovník, uživatelská odezva, strojové učení, FST, rozpoznávání řečiDialogové systémy využívající mluvené řeči jsou v poslední době stále více zlepšovány, nicméně stále nezvládají rozhovory o neznámých tématech. Jedním z problémů je fakt, že modul pro řečovou syntézu může mít problém některá slova správně vyslovit. V práci prozkoumáme metody, které dokážou špatnou výslovnost detekovat a posléze vylepšit. Toto je zásadní krok pro zlepšení uživatelské přívětivosti, protože například špatná výslovnost vlastních jmen je velmi nežádoucí. Chybná výslovnost je způsobená nesprávnou fonetickou reprezentací slova. Naším cílem je detekovat tato slova, využít známou informaci o výslovnosti a za pomoci uživatelské odezvy opravit fonetickou transkripci. Takto získaná transkripce navíc může být přidána do slovníku rozpoznávače mluvené řeči. Naše metody tedy mohou zlepšit jak rozpoznávání, tak generování mluvené řeči.
Although spoken dialogue systems have greatly improved, they still cannot handle communications involving unknown topics. One of the problems is, that they experience difficulties when they should pronounce unknown words. We will investigate methods that can improve spoken dialogue systems by correcting the pronunciation of unknown words. This is a crucial step to provide a better user experience, since for example mispronounced proper nouns are highly undesirable. Incorrect pronunciation is caused by imperfect phonetic representation of the word. We aim to detect incorrectly pronounced words, use knowledge about the pronunciation and user's feedback and correct the transcriptions accordingly. Furthermore, the learned phonetic transcriptions can be added to the speech recognition module's vocabulary. Thus extracting correct pronunciations benefits both speech recognition and text-to-speech components of the dialogue systems.