跳到主要內容

臺灣博碩士論文加值系統

(3.238.204.167) 您好!臺灣時間:2022/08/09 22:04
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:周培廉
研究生(外文):Pei-Lien Chou
論文名稱:語者之語音特徵轉換
論文名稱(外文):A Study on Speaker's Voice Conversion
指導教授:王小川王小川引用關係
指導教授(外文):Hsiao-Chuan Wang
學位類別:碩士
校院名稱:國立清華大學
系所名稱:電機工程學系
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2002
畢業學年度:90
語文別:中文
論文頁數:39
中文關鍵詞:語音轉換
外文關鍵詞:voice conversion
相關次數:
  • 被引用被引用:1
  • 點閱點閱:309
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:1
語音轉換是將來源語者的聲音轉換成目標語者的聲音,主要是轉換語者聲音的特質,而語音內容不變。本研究的兩個主要目標是尋找有效語音特徵轉換方法,及提高轉換後的語音與目標語者語音之相似度。早期的研究是將來源語者與目標語者的頻譜特徵參數做向量量化,使用碼本對照(Codebook Mapping)的方法來做語者特徵轉換。由於此種轉換方式的頻譜特徵是「離散」的,因此也造成轉換音質不佳的問題。為了解決上述的限制,近年來有人提出使用高斯混合模型(Gaussian Mixture Model,GMM)來做特徵轉換,然而,GMM所輸出目標語者的頻譜可以視為是一個加權平均的結果,因此造成頻譜的過度平滑化。我們將針對一般使用向量量化(VQ)或高斯混合模型(GMM)的轉換方式的缺失做改善。雖然我們也是使用碼本對照(Codebook Mapping)的方法,但是在轉換的過程中,使用特殊的「前N個」(Top-N)與最佳路徑的方式,建立一套「連續」的轉換機制,使得轉換後的波形特徵沒有「不連續」以及「過度平滑化」的問題。在訓練過程中,相較於一般使用DTW做時間對齊的方式,我們提出一套以音節變異特性,做自動分段線性對應的方法。在實驗中我們發現,不論是轉換語音的音質,或是語者特徵的正確性,都得到較佳的結果。由於韻律訊息對於語者特性來說,其重要性不亞於頻譜訊息,所以我們對於韻律訊息轉換也做進一步的研究,實驗結果證實了韻律訊息的重要性。

目錄
第一章 緒論 ………………………………………………… 1
1.1 研究動機 ……………………………………………. 1
1.2 語音轉換簡介 ………………………………………. 2
1.3 研究方向 ……………………………………………. 4
1.4 章節概要 ……………………………………………. 5
第二章 語音轉換技術與系統架構 ………………………… 6
2.1 基週同步分析 ………………………………………. 6
2.2 特徵參數擷取 ………………………………………. 8
2.3 語者模型建立 ……………………………………... 10
2.4 波形參數轉換 ……………………………………... 13
2.5 韻律參數轉換 ……………………………………... 17
2.6 語音合成 …………………………………………... 19
第三章 語音轉換實驗 …………………………………….. 20
3.1 語音資料 …………………………………………... 20
3.2 語音轉換結果 ……………………………………... 20
3.3語音轉換實驗--語者相似度 ………………………. 25
3.4主觀聽覺實驗 ……………………………………… 27
3.4.1 語音音質測驗 ……………………………...... 28
3.4.2 語者轉換正確性測驗 ……………………….. 32
第四章 結論 ……………………………………………..… 36
參考文獻 …………………………………………………… 38

參考文獻
[1] Hisao Kuwabara , Yoshinori Sagisaka , “Acoustic Characteristics of Speaker Individuality:Control and Conversion” , Speech Communication 16 (1995) 165-173.
[2] Masanobu ABE , Satoshi NAKAMURA , Kiyohiro SHIKANO , Hisao KUWABARA , “Voice Conversion through Vector Quantization” , In: Proceedings IEEE ICASSP 1988
[3] H. Valbret , E. Moulines , J. P. Tubach , “Voice Transformation using PSOLA Technique” , Speech Communication 11 (1992). pp.175-187.
[4] Yannis Stylianou , Olivier Cappe , Eric Moulines , “Continuous Probabilistic Transform for Voice Conversion” , IEEE Trans on Speech and Audio Processing, Vol. 6, No. 2, March 1998.
[5] Tomoki Toda , Hiroshi Saruwatari , Kiyohiro Shikano , “High Quality Voice Conversion based on Gaussian Mixture Model with Dynamic Frequency Warping” , IEICE Transactions in Japanese, Vol. J84-D-II, No. 10, pp. 2181-2189, Oct. 2001.
[6] Noriyasu Maeda , Banno , Hideki , Shoji Kajita , Kazuya Takeda , Fumitada , Itarura , “Speaker Conversion through Non-Liner Frequency Warping of STRAIGHT Spectrum” , Proc. of 6th European Conference on Speech Communication and technology (Eurospeech'99, 1999.9, Budapest).
[7] J. M. Gutierrez-Arriola , J. M. Montero , J. A. Vallejo , R. San-Segundo , J. M. Pardo , “A New Multi-Speaker Formant Synthesizer that applies Voice Conversion Techniques” , Proc. Eurospeech 2001, pp 357-360, ISBN 87-90834-09-7, Denmark 2001.
[8] Levent M. Arslan , “Speaker Transformation Algorithm using Segmental Codebook” , Speech Communication 28 (1999) 211-226.
[9] Christian HAMON , Eric MOULINES , Francis CHARPENTIRE , “Diphone Synthesis System based on Time-Domain Prosodic Modifications of Speech” , In Proceedings of the 1989 IEEE International Conference on Acoustics, speech, and Signal Processing, Glasgow, Scotland, 1989.
[10] Jan P. H. van Santen , “Prosodic Modeling in Text-to-Speech Synthesis” , Proc. Eurospeech 1997

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top