跳到主要內容

臺灣博碩士論文加值系統

(34.204.180.223) 您好!臺灣時間:2021/08/06 00:04
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:陳柏翰
研究生(外文):Bo - Han Chen
論文名稱:音訊擷取應用於語音合成之研究
論文名稱(外文):A Study on Voice Extraction for Text-to-Speech
指導教授:李錫捷李錫捷引用關係
指導教授(外文):Hsi-Chieh Lee
學位類別:碩士
校院名稱:元智大學
系所名稱:資訊管理學系
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2009
畢業學年度:97
語文別:中文
論文頁數:38
中文關鍵詞:語音合成語音辨識HMMTTS
外文關鍵詞:Speech synthesizeSpeech recognitionHMM(Hidden Markov Models)TTS(Text-to-speech)
相關次數:
  • 被引用被引用:0
  • 點閱點閱:336
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
本研究將提出一個能自由地錄製語音合成語料的系統,提供使用者方便的錄製語音合成所需要的語料,籍由儲存客製化的語料,應用於含有TTS功能的系統上,例如:聽取E-mail、盲人導覽系統、幼兒有聲書,各種需要語音輸出的系統皆可應用。
在語音辨識部份使用了HTK(Hidden Markov Model Toolkit)做為語音辨識系統的開發工具,利用隱藏式馬可夫模型做為辨識模型,以及使用維特比解碼器(Viterbi decoder)進行音素切割(Force Alignment)將所辨識出來的音訊切割出來並儲存,以供未來Text-to-Speech使用,再加上音量調整、平滑化、音長調整的方法將輸出的語音更自然。
在使用HTK為語音辨識,數字辨識的辨識率達到94.29%,命令辨識達到95.69%,為了切割所有中文常用音,我們整理出1166個音,其整體辨識率達64.01%。
This study proposes a system that can record and produce the speech corpora freely, and offers users a system to conveniently recording speech corpora for the text-to-speech system. Users can store the customized speech corpora and apply it to any systems with the TTS function. It can be applied to systems that need voice output such as listen E-mail system, blind person guide system, and infant sound book.
This research uses HTK (Hidden Markov Model Toolkit) to develop the speech recognition system. The HTK provides the users with HMM (Hidden Markov Models) to be the speech recognition model. This research uses the Viterbi decoder provided by HTK to proceed force alignment and store the recognized the segments for the future text-to-speech. Together with volume adjustment, voice smoothing, and duration adjustment, the output voice will be more natural.
When HTK is used for speech recognition, the recognition rate of number has reached 94.29%, and recognition rate of voice command has reached 95.69%. In order to segment all Chinese syllables commonly used in daily life, the research collects 1166 syllables for recognition and the recognition rate is up to 64.01%.
書名頁 i
論文口試委員審定書 ii
授權書 iii
中文摘要 iv
英文摘要 v
誌謝 vii
目錄 viii
表目錄 x
圖目錄 xi
第一章 緖論 1
1.1 研究動機 1
1.2 研究目的 2
1.3 研究範圍與限制 2
1.4 論文章節組織 3
第二章 文獻探討 4
2.1 語音轉換(Voice Conversion)相關文獻 4
2.2 聲音的基本特性 6
2.3 梅爾倒頻譜參數(Mel-Frequency Cepstral Coefficients) 7
2.4 語者辨識模型 12
第三章 研究架構與方法 14
3.1 研究架構 14
3.2 語音辨識系統建立 16
3.2.1  隱藏式馬可夫模型 (HMM Hidden Markov Model) 16
3.2.2  梅爾倒頻譜參數(MFCC Mel-Frequency Cepstral Coefficients) 17
3.3 建立Speaker聲音階段 17
3.4 TTS階段 18
3.4.1  音量調整 18
3.4.2  音長調整 19
3.3.3  語音平滑化 23
第四章 實驗結果 25
4.1 開發與測試環境 25
4.2 系統畫面 26
4.3 語音辨識實驗結果 27
4.3.1  單音節的語音辨識 27
4.3.2  非特定語者與特定語者實驗結果 29
4.3.3  命令辨識的實驗結果 30
4.3.4  數字辨識的實驗結果 30
4.4 語音擷取實驗結果 31
4.5 實驗結果分析 34
第五章 結論 35
參考文獻 37
[1]M. Abe, S. Nakamura, K. Shikano, and H. Kuwabara, “Voice conversion through vector quantization,” ICASSP-88, vol. 1, pp. 655-658, Apr 1988.
[2]F. Charpentier and M. Stella, “Diphone synthesis using an overlap-add technique,” ICASSP 86, TOKYO, pp. 2015- 2018, 1986.
[3]H. Duxans, A. Bonafonte, A. Kain, and J. V. Santen, “Includeing dynamic and phonetic information in voice conversion systems,” proc. of ICSLP, pp. 1193-1196, 2004.
[4]D. Enke, H. C. Lee, A. M. Ozbayoglu, A. Thammano, and C. H. Dagli, “SimNet Neural Network: An Application to Speaker Identification,” Intelligent Engineering Systems Through Artificial Neural Networks, vol. 5, 1995.
[5]J.-S. Jang. "Audio Signal Processing and Recognition " May, 2009; http://neural.cs.nthu.edu.tw/jang/books/audioSignalProcessing/.
[6]F. F. Lee, “Time Compression and Expansion of Speech by the Sampling method,” J. Audio Eng. Soc., pp. 738-742, 1972.
[7]L. R. Rabiner, “A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition,” Proc. of the IEEE, vol. 77, pp. 257-286, 1989.
[8]L. R. Rabiner and B. H. Juang, “An Introduction to Hidden Markov Model,” IEEE ASSP Magazine, pp. 4-16, 1986.
[9]D. A. Reynolds, “Large Populcation Speaker Identification Using Clean and Telephone Speech,” IEEE SIGNAL PROCESSING LETTERS, vol. 2, pp. 3, March, 1995.
[10]D. A. Reynolds and R. C. Rose, “Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models,” IEEE Transactions on speech and audio processing vol. 3. NO.1, pp. 72-83, 1995.
[11]Y. Stylianou, “Continuous probabilistic transform for voice conversion,” IEEE Transactions on speech and audio processing, vol. 6, 1998.
[12]H. Valbret, E. Moulines, and J. P. Tubach, “Voice transformation using PSOLA technique,” ICASSP, vol. 1, pp. 145 –148, 1992.
[13]S. Young, G. Evermann, M. Gales, T. Hain, D. Kershaw, X. A. Liu, G. Moore, J. Odell, D. Ollason, D. Povey, V. Valtchev, and P. Woodland, The HTK Book (for HTK Version 3.4): Cambridge University Engineering Department, 2006.
[14]林青慧, “強韌式語音辨識系統:從麥克風、市話到手機,” 國立清華大學碩士論文, 2004.
[15]張唐瑜, “大量詞彙作為合成單元的中文文轉音系統,” 國立中興大學碩士論文, 2004.
[16]楊永泰, “隱藏式馬可夫模型應用於中文語音辨識之研究,” 中原大學碩士論文, 2000.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊