Využití uživatelské odezvy pro zvýšení kvality řečové syntézy

Hudeček, Vojtěch

Improving text-to-speech in spoken dialogue systems by employing user's feedback

diplomová práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (151.4Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/90579

Identifikátory

SIS: 188021

Katalog UK: 990021530020106986

Konzultant práce

Plátek, Ondřej

Oponent práce

Peterek, Nino

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Umělá inteligence

Katedra / ústav / klinika

Ústav formální a aplikované lingvistiky

Datum obhajoby

7. 9. 2017

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Čeština

Známka

Výborně

Klíčová slova (česky)

speech synthesis, phonetic dictionary, user feedback, machine learning, FST, speech recognition

Klíčová slova (anglicky)

syntéza řeči, fonetický slovník, uživatelská odezva, strojové učení, FST, rozpoznávání řeči

Dialogové systémy využívající mluvené řeči jsou v poslední době stále více zlepšovány, nicméně stále nezvládají rozhovory o neznámých tématech. Jedním z problémů je fakt, že modul pro řečovou syntézu může mít problém některá slova správně vyslovit. V práci prozkoumáme metody, které dokážou špatnou výslovnost detekovat a posléze vylepšit. Toto je zásadní krok pro zlepšení uživatelské přívětivosti, protože například špatná výslovnost vlastních jmen je velmi nežádoucí. Chybná výslovnost je způsobená nesprávnou fonetickou reprezentací slova. Naším cílem je detekovat tato slova, využít známou informaci o výslovnosti a za pomoci uživatelské odezvy opravit fonetickou transkripci. Takto získaná transkripce navíc může být přidána do slovníku rozpoznávače mluvené řeči. Naše metody tedy mohou zlepšit jak rozpoznávání, tak generování mluvené řeči.

Abstrakt (anglicky)

Although spoken dialogue systems have greatly improved, they still cannot handle communications involving unknown topics. One of the problems is, that they experience difficulties when they should pronounce unknown words. We will investigate methods that can improve spoken dialogue systems by correcting the pronunciation of unknown words. This is a crucial step to provide a better user experience, since for example mispronounced proper nouns are highly undesirable. Incorrect pronunciation is caused by imperfect phonetic representation of the word. We aim to detect incorrectly pronounced words, use knowledge about the pronunciation and user's feedback and correct the transcriptions accordingly. Furthermore, the learned phonetic transcriptions can be added to the speech recognition module's vocabulary. Thus extracting correct pronunciations benefits both speech recognition and text-to-speech components of the dialogue systems.

Citace dokumentu

Metadata

Zobrazit celý záznam