跳到主要內容

臺灣博碩士論文加值系統

(3.236.84.188) 您好!臺灣時間:2021/08/02 19:48
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:陳俊傑
研究生(外文):Chun-Chieh Chen
論文名稱:結構化語者模型之研究
論文名稱(外文):The study of structural speaker model
指導教授:莊堯棠
指導教授(外文):Yau-Tarng Juang
學位類別:碩士
校院名稱:國立中央大學
系所名稱:電機工程研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2004
畢業學年度:92
語文別:中文
論文頁數:83
中文關鍵詞:語者辨識語者識別語者確認語者調適
外文關鍵詞:speaker verificationspeaker identificationspeaker adaptationspeaker recognition
相關次數:
  • 被引用被引用:9
  • 點閱點閱:79
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
在本論文中,我們提出以樹狀結構高斯密度為基礎的文字不特定語者調適系統。首先將一個訓練良好的通用背景模型以樹狀結構建造出在聲學空間中具有不同解析度的結構化背景模型,因此利用結構化的語者調適法調適出來的特定語者模型亦具有多重解析度的聲紋特性;利用樹狀結構於語者調適技術及語者模型在語者辨識正確率上有不錯的效果。
我們也將比較樹狀結構在不同語者調適方法上的效果。在少量調適語料的情況下,模型中沒有分到調適語料的高斯分佈會使得辨識的效能降低。因此對於沒有調適的高斯分佈,本論文提出一個加入結構化的向量場平滑化演算法,改善傳統向量場平滑化方法的缺點,進一步地提升系統的辨識效能。
在語者確認方面,樹狀結構中每一層解析度都有一定的效果,本論文也嘗試結合多層解析度計分的方法,以萃取在不同空間架構下的優缺點,以降低語者確認系統的等錯誤率。
摘要…………………………………………………………………… Ⅰ
目錄…………………………………………………………………… Ⅱ
附圖目錄………………………………………………………………. Ⅴ
附表目錄…………………………………………….………………… Ⅶ
第一章 緒論……………………………………………………………1
1.1 研究動機…………………………………………………… 1
1.2 語者辨識概述……………………………………………… 2
1.3 語者調適技術概述………………………………………… 4
1.4 論文方向與研究目的……………………………………… 5
1.5 章節概要…………………………………………………… 6
第二章 語者辨識之基本技術…………………………………………7
2.1 特徵參數擷取……………………………………………… 7
2.2 語者模型建立……………………………………………..10
2.2.1 高斯混合模型………………………………………11
2.2.2 語者模型訓練流程…………………………………12
2.2.3 向量量化……………………………………………13
2.2.4 EM演算法………………………………………….16
2.3 語者辨識………………………………………………….17
2.3.1 語者識別……………………………………………17
2.3.2 語者確認……………………………………………18
2.3.3 背景語者模型………………………………………20
2.3.4 門檻值的選取………………………………………21
2.4 語者調適技術…………………………………………….22
2.4.1 貝氏調適法…………………………………………23
2.4.2 向量場平滑化………………………………………27
第三章 結構化語者模型之架構……………………………………..31
3.1 結構化背景模型的訓練……………………………………32
3.1.1 K-L離散度………………………………………….33
3.1.2 最大最小距離演算法………………………………34
3.1.3 最大相似度…………………………………………36
3.1.4 結構化背景模型……………………………………36
3.2 多層解析度之調適法…………………………………….39
3.2.1 結構化貝氏調適法…………………………………39
3.2.2 結構化之向量場平滑化……………………………41
3.3 多層解析度計分之結合…………………………………….44
第四章 語者調適實驗……………………………………………….46
4.1 語音資料庫…………………………………………………46
4.2 結構化背景模型實驗………………………………………47
4.2.1 樹狀結構中不同解析度的比較……………………48
4.3 語者調適實驗………………………………………………50
4.3.1 傳統高斯混合模型與調適高斯混合模型的比較…50
4.3.2 調適語料長度對貝氏調適法的影響………………52
4.3.3 加入結構化向量場平滑化的影響…………………53
4.4 結構化高斯混合模型實驗…………………………………56
4.4.1 結構化背景模型架構的比較………………………56
4.4.2 使用結構化高斯混合模型的影響…………………58
4.5 多重解析度計分實驗………………………………………61
4.5.1 不同空間解析度分數的效應………………………61
4.5.2 結合空間解析度計分的影響………………………62
第五章 結論與未來展望…………………………………………….65
5.1 結論…………………………………………………………65
5.1 未來展望……………………………………………………66
參考文獻……………………………………………………………….68
[1]L. R. Rabiner and B. H. Juang, Fundamentals of Speech Recognition, Prentice Hall, New Jersey, 1993.
[2]X. Huang, A. Acero and H. W. Hon, Spoken Language Processing, Prentice Hall, 2001.
[3]J. T. Tou and R. C. Gonzalez, Pattern Recognition Principles, Addison Wesley, 1974.
[4]L. S. Lee and Y. Lee, “Voice Access of Global Information for Broad-Band Wireless: Technologies of Today and Challenges of Tomorrow,” Proceedings of the IEEE, vol. 89, no. 1, pp. 41-57, January 2001.
[5]G. R. Doddington, “Speaker recognition-identifying people by their voices,” Proceedings of the IEEE, vol. 73, no. 11, pp. 1651-1664, November 1985.
[6]J. L. Gauvain and C. H. Lee, “Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains,” IEEE Trans. Speech and Audio Processing, vol. 2, no. 2, pp. 291-298, April 1994.
[7]R. Kuhn, J. C. Junqua, P. Nguyen and N. Niedzielski, “Rapid Speaker Adaptation in Eigenvoice Space,” IEEE Trans. Speech and Audio Processing, vol. 8, no. 6, pp. 695-707, November 2000.
[8]M. Tonomura, T. Kosaka and S. Matsunaga, “Speaker Adaptation Based on Transfer Vector Filed Smoothing Using Maximum a Posteriori Probability Estimation,” ICASSP-95, vol.1, pp. 688-691, 1995.
[9]D. A. Reynolds and R. C. Rose, “Robust Text-Independent Speaker Identification Using Gaussian Mixture Models,” IEEE Trans. Speech and Audio Processing, vol. 3, no. 1, pp. 72-83, January 1995.
[10]R. Vergin, D. O’Shaughnessy and A. Farhat, “Generalized Mel Frequency Coefficients for Large-Vocabulary Speaker-Independent Continuous-Speech Recognition,” IEEE Trans. Speech and Audio Processing, vol. 7, no. 5, pp. 525-532, September 1999.
[11]T. K. Moon, “The Expectation-Maximization Algorithm,” IEEE Signal Processing Magazine, vol. 13, no. 6, pp. 47-60, November 1996.
[12]C. S. Liu, H. C. Wang and C. H. Lee, “Speaker Verification Using Normalized Log-Likelihood Score,” IEEE Trans. Speech and Audio Processing, vol. 4, no. 1, pp. 56-60, January 1996.
[13]K. Shinoda and C. H. Lee, “A Structural Bayes Approach to Speaker Adaptation,” IEEE Trans. Speech and Audio Processing, vol. 9, no. 3, pp. 276-287, March 2001.
[14]T. Watanabe, K. Shinoda, K. Takagi and K. –I. Iso, “High speed speech recognition using tree-structured probability density function,” in Proc. Int. Conf. Acoustics, Speech, Signal Processing, 1995, pp. 556-559.
[15]B. Xiang and T. Berger, “Efficient Text-Identification Speaker Verification with Structural Gaussian Mixture Models and Neural Network,” IEEE Trans. Speech and Audio Processing, vol. 11, no. 5, pp. 447-456, September 2003.
[16]T. J. Hanzen and A. K. Halberstadt, “Using aggregation to improve the performance of mixture Gaussian acoustic models,” in Proc. Int. Conf. Acoustics, Speech, Signal Processing, 1998, pp. 653-656.
[17]B. L. Pellom and J. H. L. Hansen, “An Efficient Scoring Algorithm for Gaussian Mixture Model Based Speaker Identification,” IEEE Signal Processing Letters, vol. 5, no. 11, pp. 281-284, November 1998.
[18]吳金池,”語者辨識系統之研究”,國立中央大學電機工程研究所碩士論文,民國九十一年。
[19]賴彥輔,”語者辨識之研究”,國立中央大學電機工程研究所碩士論文,民國九十二年。
[20]陳冠廷,”以樹狀結構有效使用調適語料之語者調適技術”,國立台灣大學電信工程研究所碩士論文,民國八十八年。
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top