跳到主要內容

臺灣博碩士論文加值系統

(18.97.14.86) 您好!臺灣時間:2025/02/20 04:48
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:劉德賢
研究生(外文):Te-Hsien Liu
論文名稱:應用雙馬可夫模型與聲音轉換於情緒語音合成之研究
論文名稱(外文):Voice Conversion for Emotional Speech Synthesis Using Bi-HMM
指導教授:吳宗憲吳宗憲引用關係
指導教授(外文):Chung-Hsien Wu
學位類別:碩士
校院名稱:國立成功大學
系所名稱:資訊工程學系碩博士班
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2005
畢業學年度:93
語文別:中文
論文頁數:40
中文關鍵詞:語音合成情緒語音
外文關鍵詞:emotional speech synthesisvoice conversion
相關次數:
  • 被引用被引用:2
  • 點閱點閱:473
  • 評分評分:
  • 下載下載:89
  • 收藏至我的研究室書目清單書目收藏:1
  電腦語音科技一直扮演著人機溝通介面的重要橋樑,也是科技能否真正融入人類日常生活,邁向下個世代環境發展的重要指標。傳統的電腦語音合成技術已達至高品質合成語音的階段,近年來更往情緒感知的方向突破;然而,以帶有情緒特性的合成單元進行電腦語音合成,雖能提供高品質與高情緒感知的合成語音,但對語料的大量需求卻使得應用發展受阻。因此本研究利用聲音轉換的技術,並提出雙馬可夫的機率式轉換模型,提供一僅需少量平行情緒語料的電腦情緒語音合成方法。

  在本論文中,對於應用聲音轉換於電腦情緒語音合成的問題,分為下列三項研究重點:1)根據不同情緒,設計小量的平衡語料腳本,並錄製為平行語料;2)提出雙馬可夫聲音轉換模型,同時考慮來源聲音與目標聲音的連續性,進行轉換;3)整合中性情緒的文字轉語音系統,進行電腦情緒語音之合成。

  在實驗中,首先針對聲音轉換模型以客觀方式進行評估,觀察其在語音參數上,所降低的誤差。並利用主觀式的評估方法,進行情緒鑑定測試,本論文提出之方法,確實可在小量語料的限制之下,在情緒鑑別度上得到好的表現。
 With the development of technique in telecommunication, internet and computer science, speech plays an important role in human machine interaction. However, lack of the stress of emotion in traditional synthesized speech make human computer iteration less fun and natural. Although, some corpus-based emotional TTS systems have been introduced, the requirement of large size of speech database obstructs the application of such systems.

 In this thesis, a Bi-HMM model was proposed for text to emotional speech synthesis. More specially, this study focuses on: 1) designing balanced small-sized emotional parallel speech databases, 2) proposing a Bi-HMM voice conversion model to convert synthesized neutral speech into an emotional speech, 3) finally, integrating the emotional speech conversion system as a post-processor for emotional speech synthesis.

 In order to evaluate our proposed approach, 15 sentences each with 3 emotions were used as the experimental speech samples. The experimented results using subjective test on the proposed approach and baseline system shows that proposed emotional speech conversion module obtain a better score on MOS and higher accuracy on emotion identification and intelligibility evaluation test.
中文摘要
英文摘要
誌謝
目錄
圖目錄
表目錄
第一章 序論 1
1.1. 前言 1
1.1.1. 研究動機與目的 1
1.1.2. 研究背景之現況 3
1.2. 文獻回顧 4
1.3. 研究方法 5
1.3.1 系統架構 6
1.3.2 平行的情緒平衡語料 7
1.4. 章節概要 8
第二章 統計式聲音轉換模型與比較 9
2.1. 統計式聲音轉換模型 9
2.1.1. 聯合常態分佈與轉換函式 9
2.1.2. 以高斯混合模型與馬可夫模型 11
2.2. 統計式聲音轉換模型之比較 12
第三章 雙馬可夫聲音轉換模型 15
3.1. 模型架構 15
3.2. 轉換方式 17
第四章 情緒平衡平行語料之收集 22
4.1. 收集方式 22
4.2. 語料統計量 25
4.3. 語料的語音參數特性 26
第五章 實驗結果與討論 30
5.1. 不同轉換方法的失真度比較 30
5.2. 不同情緒的失真度比較 32
5.3. 不同轉換方法的主觀式評估結果 33
第六章 結論與未來展望 36
參考文獻 38
[1]M. Schröder, ``Emotional Speech Synthesis – A Review', in Proc. of EuroSpeech, pp. 561-564, 2001.

[2]陳俊甫, ``應用機率式句法結構與隱含式語義索引於情緒語音合成之單元選取', 國立成功大學資訊工程研究所碩士論文, 2004

[3]A. Iida, F. Higuchi and N. Campbell, ``A Corpus-based Speech Synthesis with Emotion', Speech Communication, 40(1-2): 161-187, 2001.

[4]Abe, M., Nakamura, S., Shikano, K., and Kuwabara, H., “Voice Conversion through Vector Quantization,” Procs. of ICASSP, pp. 655-658, 1988

[5]Y. Stylianou, “Continuous Probabilistic Transform for Voice Conversion,” IEEE Trans. on Speech and Audio Processing, vol. 6, no. 2, 1998

[6]Ben Gillett, “Transforming Voice Quality,” Procs. of EuroSPeech, pp. 1713-1716, 2003

[7]Alexander Kain, “Spectral Voice Conversion for Text-to-Speech Synthesis,” Procs. of ICASSP, vol. 1, pp. 285-288, 1998

[8]H. Duxans, A. Bonafonte, A. Kain and J. van Santen, ``Including Dynamic and Phonetic Information in Voice Conversion Systems', in Proc. of ICSLP, vol. 1, pp. I-5-8, 2004.

[9]Alexander Kain, “Including Dynamic Information ,” Procs. of SEPLN, 2004

[10]Antonio Bonafonte, “Estimation of GMM in Voice Conversion Including Unaligned Data,” Procs. of EuroSpeech, pp. 861-864, 2003

[11]Min Chu, “Voice Conversion with Smoothed GMM and MAP Adaptation,” Procs. of EuroSpeech, pp. 2413-2416, 2003

[12]Hartmut R. Pfizinger, “DFW-based Spectral Smoothing for Concatenative Speech Synthesis,” Procs. of ICSLP, vol. 2, pp. 1397-1400, 2004

[13]Orphanidou C., “Wavelet-based Voice Morphing,” WSEAS Journal on Systems, 2004

[14]H. Kawahara, ``Speech Representation and Transformation using Adaptive Interpolation of Weighted Spectrum: Vocoder Revisited', in Proc. of ICASSP, pp. 1303-1306, 1997.

[15]H. Kawahara, I. Masuda-Katsuse and A. de Cheveigné, ``Restructuring Speech Representations using a Pitch Adaptive Time-Frequency-based F0 Extraction: Possible Role of a Repetitive Structure in Sounds', Speech Communication, 27(3-4):187-207, 1999.

[16]S. M. Kay, Fundamentals of Statistical Signal Processing: Estimation Theory, Prentice Hall, 2nd ed., 1993.

[17]S. E. Levinson, ``Continuously Variable Duration Hidden Markov Models for Automatic Speech Recognition', Comput. Speech Lang., 1:29-45, 1986.

[18]王小川, 語音訊號處理, 全華科技股份有限公司, 2004
連結至畢業學校之論文網頁點我開啟連結
註: 此連結為研究生畢業學校所提供,不一定有電子全文可供下載,若連結有誤,請點選上方之〝勘誤回報〞功能,我們會盡快修正,謝謝!
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top