跳到主要內容

臺灣博碩士論文加值系統

(3.87.33.97) 您好!臺灣時間:2022/01/27 16:11
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:何宗仁
研究生(外文):Tzong-Ren Ho
論文名稱:國語基本音節的頻域轉換
論文名稱(外文):A Study of Spectral Conversion of Mandarin Base-Syllables
指導教授:張文輝
指導教授(外文):Wen-Whei Chang
學位類別:碩士
校院名稱:國立交通大學
系所名稱:電信工程系
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2002
畢業學年度:90
語文別:中文
論文頁數:50
中文關鍵詞:語音轉換對映函數正弦分析合成主成分分析國語基本音節
外文關鍵詞:voice conversionmapping functionsinusoidal analysis-synthesisprincipal component analysisMandarin Base-Syllalbes
相關次數:
  • 被引用被引用:2
  • 點閱點閱:161
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
語音轉換的效能取決於其對映函數是否能充分對映兩語者之特徵參數。前人研究乃基於向量碼書對映之技術,但因其存在量化失真,使其語音轉換效能降低。本論文則以連續機率模型來描述語音特徵參數,分別基於統計分析以及高斯混合模型之觀點,以求取最佳對映函數。鑑於對映函數的訓練需要大量的語料量,而語音特徵參數彼此間之相關性極高,因此引入主成分分析作維度降低的預處理,有效地降低對映函數訓練所需之語料量,同時提昇模型訓練之收斂速度。本論文更進一步分析國語基本音節的發聲特徵,對不同音類的語音設計其最佳對映函數,並將其結果應用在聽障者之發聲矯正上。根據實驗結果顯示,在發聲缺陷最為嚴重的擦音及塞擦音之矯正上,其效果斐然。

The performance of voice conversion depends on the mapping function with the aim to convert the characteristic features from the source speaker to the target speaker. Previous research is based on vector cookbook mapping, but the converter’s performance is degraded due to the quantization noise. To overcome this limitation, we proposed two mapping functions based on continuous probabilistic models. One is based on a statistical model, and the other is based on a Gaussian mixture model. To save that the training data, we exploit the high correlation of speech characteristic features, and employ the principal component analysis to reduce the dimension of characteristic features. Simulation results indicate that the proposed mapping function helps to enhance the hearing-impaired speech, especially the fricatives and affricates.

第一章 緒論 ………………………………………………………...1
1.1動機與方向 ………………………………………………….1
1.2章節概要 …………………………………………………….3
第二章 語音模型分析與預處理…………………………………….4
2.1 語音的分析與合成 ..…………………………………………4
2.1.1 諧波正弦分析 ….………………………………………5
2.1.2 諧波正弦合成 ……………….…………………………7
2.2 訓練資料的預處理 …..………………………………………9
2.2.1 主成分分析 …….………………………………………9
2.2.1.1 基本原理 …………………………………………10
2.2.1.2 演算法則 …………………………………………12
2.2.1.3 效能評估 …………………………………………13
2.2.2 動態時間校準 ...………………………………………15
第三章 基於統計分析之轉換函數 …………….…………………20
3.1 模型描述 ……………………………………………………20
3.1 參數訓練 ……………………………………………………22
第四章 基於高斯混合模型之轉換函數 …….……………………26
4.1 高斯混合模型 ………………………………………………26
4.2 對映函數及其訓練 …………………………………………28
第五章 語音轉換之系統模擬 ……………….……………………32
5.1 國語基本音節 ………………………………………………32
5.2 對映函數之比較 ……………………………………………35
5.3 主成分分析之於對映函數效能評估 ………………………37
5.4 聽障語者之發音矯正實驗 …………………………………39
第六章 結論與未來展望 …………………….……………………46
6.1結論 …………….……………………………………………46
6.2未來展望 ……….……………………………………………47
參考文獻 ……………………………………….……………………48

[1] M. Abe, S. Nakamura, K. Shikano, and H. Kuwabara, “Voice conversion through vector quantization,” Proc. IEEE ICASSP-88 Acoustics, Speech, and Signal Processing, vol. 1, pp. 655-658, 1988.
[2] Y. M. Cheng, D. O’Shaughnessy, and P. Mermelstein, “Statistical Recovery of Wideband Speech from Narrowband Speech,” IEEE Trans.
[3] Y. Stylianou, O. Cappe, and E. Moulines, “Continuous probabilistic transform for voice conversion,” IEEE Trans. Speech and Audio Processing, vol. 2, pp. 544-548, October 1994.
[4]李承龍, 「語音轉換及其在異常發聲矯正之應用」, 國立交通大學碩士論文,民國九十年。
[5] R. J. McAulay and T. F. Quatieri, “Speech analysis-synthesis based on a sinusoidal representation,” IEEE Trans. Acoust., Speech and Signal Proc., ASSP-34(4):744-754, 1986.
[6] R. J. McAulay and T. F. Quatieri, “ Speech Transformations Based on a Sinusoidal Representation,” IEEE Trans. Acoustics, Speech, and Signal Processing, vol. ASSP-34, No.6, pp 1449-1464, December 1986.
[7] I.T. Jolliffe, “Principal Component Analysis, ” Springer-Verlag, 1986.
[8] Hallowell Davis and S. Richard Silverman, “Hearing and Deafness”, Edition, Holt, Rineheart and Winston.
[9] H. Sskoe and S. Chiba, “Dynamic programming optimization for spoken word recognition,” IEEE Trans. Acoustic, Speech, Signal Proc., ASSP-26(1): 43-49, February 1978.
[10] R. J. McAulay and T. F. Quatieri, “Pitch estimation and voicing detection based on a sinusoidal model,” Proc. IEEE Int. Conf. Acoust., Speech and Signal Proc., pages 249-252, Albuquerque, NM, Apr. 3-6 1990.
[11] Lawrence Rabiner, Biing-Hwang Juang, “Fundamentals of Speech Recognition”, Prentice Hall, New Jersey, 1993.
[12] R. J. McAulay and T. F. Quatieri. “Low rate speech coding based on a sinusoidal model,” In S. Furui and M. M. Sondhi, editors, Advances in Speech Signal Processing, chapter 6. Marcel Dekker, New York, 1992
[13] R. J. McAulay and T. F. Quatieri. “Computationally efficient sine-wane synthesis and its application to sinusoidal transform coding,” In Int. Conf. Acoust., Speech Proc., pages 370-373, 1988.
[14] Stephen A. Zahorian, Martin Rothenberg, “Principal-components analysis for low-redundancy encoding of speech spectra”, J. Acoust. Soc. Am. 69(3), March 1981.
[15] A. Dempster, N. Laird, and D. Rubin, “Maximum likelihood from incomplete data via the EM algorithm,” J. Royal Stat. Soc., vol. 39, pp. 1-38, 1977.
[16] S. M. Kay, Fundamentals of Statistical Signal Processing: Estimation Theory. Englewood Cliffs, NJ: Prentice-Hall, 1993.
[17] Douglas A. Reynolds, Richard C. Rose, “Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models”, IEEE Trans. Speech and Audio Processing, vol. 3, pp. 72-83, January 1995.
[18] L. R. Rabiner, J. G. Wilpon, B. H. Juang, “A segmental K-means training procedure for connected word recognition based on whole word reference patterns,” AT&T Technical Journal, Vol. 65, No. 3, pp. 21-31, May 1986.
[19]謝國平, “語言學概論”, 三民書局, pp71-80, 民85.
[20] Lawrence Rabiner, Biing-Hwang Juang, “Fundamentals of Speech Recognition”, p163-171, Prentice Hall, New Jersey, 1993.
[21] B. Massen and D. Provel, “The effect of segmental and suprasegmental corrections on the intelligibility of deaf speech,” J. Acoust. Soc. Am., 78, pp. 877-886, 1985.
[22] R. Nickerson, “Characteristics of the speech of deaf persons,” The Volta Review, 77, pp. 342-362, 1975.
[23] W. Kinsner, A. Langi, “Speech and image signal compression with wavelets”, IEEE Communications, Computers and Power in the Modern Environment, p368-375, 1993.
[24] S. Wang, A. Sekey, and A. Gersho. “An objective measure for predicting subjective quality of speech coders.” IEEE J. Select. Areas Commun., 10(5): 819-829, June 1992.

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
1. 黃琮琪,(1993),「臺灣地區肉類消費支出型態、預測與貿易自由化之衝擊」,農業經濟半年刊,第54期:117-165。
2. 夏漢容,(1963),「台灣毛豬之需要分析」,農業經濟半年刊,第2期:108-153。
3. 李皇照,(1999b),「台灣地區總合食品需求彈性之估計」,農業經濟半年刊,第66期:1-20。
4. 李登輝、陳希煌,(1964),「臺灣糧食需求之分析與預測」,臺灣銀行季刊,15(4): 75-110。
5. 李家銘,(2001b),「臺灣地區漁產品消費需求之研究」,農產運銷論叢,第6期:207-227。
6. 洪美惠,(1993),「臺灣主要肉品需求之探討:AIDS模型之應用」,臺灣銀行季刊,44(3):370-395。
7. 林啟淵,(1997),「臺灣地區肉品逆需求體系之研究」,經濟論文,25(2): 251-267。
8. 李家銘,(2001a),「臺灣地區漁產品完整需求體系之研究」,農產運銷,第123期:54-63。
9. 張素梅,(1984),「台灣地區肉類需求的函數形式」,經濟論文叢刊,第12輯:83-94。
10. 陳宗玄,(2001),「臺灣肉類需求動態與長期結構之研究」,臺灣銀行季刊,52 (3):49-68。
11. 林灼榮、陳正亮,(1991),「臺灣肉類需求結構性變遷之研究」,臺灣土地金融季刊,第109期:65-83。
12. 彭作奎,(1977),「臺灣牛肉供需分析」,雜糧與畜產,第48期:5-10。
13. 李皇照,(1999a),「需求體系動態設定與限制條件檢定:台灣民間消費資料之實證」,農業經濟叢刊,第4期:179-204。
14. 李皇照、林豐騰,(1998),「動態線性支出體系:十二類總合產品支出分析」,農產運銷論叢,第三期:185-196。
15. 李皇照,(1992b),「臺灣地區肉類需求體系之研究」,臺灣土地金融季刊,第114期:49-68。