Využití uživatelské odezvy pro zvýšení kvality řečové syntézy
Improving text-to-speech in spoken dialogue systems by employing user's feedback
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/90579Identifiers
Study Information System: 188021
CU Caralogue: 990021530020106986
Collections
- Kvalifikační práce [11870]
Author
Advisor
Consultant
Plátek, Ondřej
Referee
Peterek, Nino
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Artificial Intelligence
Department
Institute of Formal and Applied Linguistics
Date of defense
7. 9. 2017
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Excellent
Keywords (Czech)
speech synthesis, phonetic dictionary, user feedback, machine learning, FST, speech recognitionKeywords (English)
syntéza řeči, fonetický slovník, uživatelská odezva, strojové učení, FST, rozpoznávání řečiDialogové systémy využívající mluvené řeči jsou v poslední době stále více zlepšovány, nicméně stále nezvládají rozhovory o neznámých tématech. Jedním z problémů je fakt, že modul pro řečovou syntézu může mít problém některá slova správně vyslovit. V práci prozkoumáme metody, které dokážou špatnou výslovnost detekovat a posléze vylepšit. Toto je zásadní krok pro zlepšení uživatelské přívětivosti, protože například špatná výslovnost vlastních jmen je velmi nežádoucí. Chybná výslovnost je způsobená nesprávnou fonetickou reprezentací slova. Naším cílem je detekovat tato slova, využít známou informaci o výslovnosti a za pomoci uživatelské odezvy opravit fonetickou transkripci. Takto získaná transkripce navíc může být přidána do slovníku rozpoznávače mluvené řeči. Naše metody tedy mohou zlepšit jak rozpoznávání, tak generování mluvené řeči.
Although spoken dialogue systems have greatly improved, they still cannot handle communications involving unknown topics. One of the problems is, that they experience difficulties when they should pronounce unknown words. We will investigate methods that can improve spoken dialogue systems by correcting the pronunciation of unknown words. This is a crucial step to provide a better user experience, since for example mispronounced proper nouns are highly undesirable. Incorrect pronunciation is caused by imperfect phonetic representation of the word. We aim to detect incorrectly pronounced words, use knowledge about the pronunciation and user's feedback and correct the transcriptions accordingly. Furthermore, the learned phonetic transcriptions can be added to the speech recognition module's vocabulary. Thus extracting correct pronunciations benefits both speech recognition and text-to-speech components of the dialogue systems.