(3.236.175.108) 您好!臺灣時間:2021/02/28 03:19
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

我願授權國圖
: 
twitterline
研究生:范世明
研究生(外文):Shih-Ming Fan
論文名稱:高斯混合模型在語者辨識與國語語音辨認之應用
論文名稱(外文):The Applications of GMM in Speaker Identification and Mandarin-Speech Recognition
指導教授:王逸如王逸如引用關係
指導教授(外文):Yih-Ru Wang
學位類別:碩士
校院名稱:國立交通大學
系所名稱:電信工程系
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2002
畢業學年度:90
語文別:中文
論文頁數:50
中文關鍵詞:高斯混合模型語者辨識語音辨認
外文關鍵詞:Gaussian mixture model (GMM)speaker identificationspeech recognition
相關次數:
  • 被引用被引用:14
  • 點閱點閱:1429
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:121
  • 收藏至我的研究室書目清單書目收藏:1
在本論文中,我們將語者辨識模型以訓練一個包含二個狀態之馬可夫鏈做為GMM模型之上層架構,做為傳統語者模型之改進,並使用最小錯誤鑑別式訓練語者模型,以得到更精確的語者特徵參數分佈。由實驗結果可知,訓練語料的長短會影響模型之精確度,而對於以聲母-韻母模型為架構之語者辨識系統,在各高斯混合數較少或是測試秒數較短情形下,其語者辨識結果都比傳統模式有較佳之表現。最後,我們將GMM模型應用於語者正規化HMM模型之國語語音辨認,以簡化標準VTN模式之音節系統複雜度與計算量,並將測試語料以不同長度去估計最佳伸縮因子,得以加速預估時間。由結果可知,測試語料長短將會影響音節辨認率,雖辨認率稍低於標準VTN模式,但系統複雜度、計算量及辨認時間皆減少許多。
In this thesis, the applications of Gaussian mixture model (GMM) in both speaker identification and speech recognition were studied. For the speaker identification system, a conventional speaker identification system using GMM was implemented first. Then, a two-state Markov chain was added in the upper layer of GMM identifier to model the initial-final structure of Mandarin speech in order to improve the performance of system. Finally, the generalized probabilistic descent (GPD) was used to retrain the system according to the minimum classification error (MCE) criterion. By experiments, 10-20% reduction of recognition error rate was achieved for the proposed method.
In the speech recognition system, the GMM was used to find the warping factor used in vocal tract normalization (VTN) method. According to the experiments, only few seconds of speech data was needed for estimating the warping factor. Although the recognition rate of the proposed system was slightly degenerated, the complexity of the proposed recognition system can be significant reduced.
目 錄
中文摘要 I
英文摘要 II
誌謝 III
目錄 IV
表目錄 VI
圖目錄 VII
第一章 緒論 1
1.1 研究動機 1
1.2 研究方向 2
1.3 章節概要 2
第二章 語者辨識之基本系統 3
2.1 語音前處理 3
2.2 高斯混合模型 5
2.3 語者辨識 9
第三章 語者辨識系統之改進 10
3.1 TWO-STATE HMM的語者模型 10
3.2 MCE/GPD 鑑別式訓練 11
3.3 語者辨識 16
第四章 語者辨識系統之實驗分析 19
4.1 語音資料庫 19
4.1.1 錄音環境 20
4.1.2 資料統計 20
4.2實驗一 訓練語料長度之GMM語者辨識率之影響 21
4.3實驗二 傳統GMM與I/F GMM之比較 22
4.4 實驗三 使用最小錯誤鑑別法訓練模型 25
4.4.1 、 之參數之選定 25
4.4.2 實驗數據分析 27
第五章 GMM模型在語音辨認之應用 29
5.1以頻率偏移方式對語者正規化 29
5.2 VTN辨認系統 31
5.3 不同辨認系統之實驗分析 35
5.4 不同測試長度做快速VTN辨認模式 36
第六章 結論及未來展望 39
6.1 結論 39
6.2 未來展望 40
參考文獻 41
附錄 43
表 目 錄
表4.1 錄音環境 20
表4.2 資料庫資訊統計表 20
表4.3 14秒語者模型之語者辨識率 21
表4.4 16秒語者模型之語者辨識率 21
表4.5 20秒語者模型之語者辨識率 21
表4.6 24秒語者模型之語者辨識率 21
表4.7 傳統GMM與I/F GMM之結果比較 23
表4.8 傳統GMM與I/F GMM之錯誤下降率 24
表4.9 傳統GMM/MCE模式與I/F GMM/MCE模式之結果比較 27
表4.10 傳統GMM/MCE模式與I/F GMM/MCE模式之錯誤下降率 27
表5.1 TCC-300語料庫訓練語料與測試語料之統計表 35
表5.2使用語者正規化方式前後之音節辨認率結果 36
表5.3不同測試秒數之音節辨認率 36
表5.4女性語者的伸縮因子分佈統計 37
表5.5男性語者的伸縮因子分佈統計 37
圖 目 錄
圖2.1 語者辨識系統方塊圖 3
圖2.2 語音前處理方塊圖 4
圖2.3 以混合高斯機率分佈描述高斯混合模型之示意圖 6
圖2.4 LBG( BINARY SPLIT ) 7
圖2.5 語者辨識之系統架構 9
圖3.1 使用GMM與二個狀態之HMM的語者模型方塊圖 11
圖3.2 與 曲線示意圖 13
圖3.3 GMM/MCE模式之模型訓練流程 16
圖3.4 音節內路徑限制示意圖 17
圖3.5 音節間路徑限制示意圖 18
圖4.1 不同訓練語料秒數長度示意圖 22
圖4.2 傳統GMM與I/F GMM模式不同秒數之平均錯誤下降率 24
圖4.3 傳統GMM與I/F GMM模式不同混合數之平均錯誤下降率 24
圖4.4 、 選定方法 26
圖4.5 傳統GMM/MCE與I/F GMM/MCE模式不同秒數之平均錯誤下降率 28
圖4.6 傳統GMM/MCE與I/F GMM/MCE模式不同混合數之平均錯誤下降率 28
圖5.1 使用頻率偏移之語音前處理 30
圖5.2 模型訓練方塊圖 31
圖5.3 最佳化VTN辨認方法之流程 32
圖5.4 兩階段式VTN辨認流程 33
圖5.5 使用快速VTN方式之辨認方塊圖 34
[1] Lawrence Rabiner and Bing-Hwang Juang, “Fundamentals of speech recognition”, Prentice Hall, 1993.
[2] 涂家章,“使用MAT2000語料庫之中文語音辨認”, 國立交通大學碩士論文,民國八十九年六月。
[3] D.A. Reynolds, “Speaker identification and verification using Gaussian mixture speaker models,” Speech Communication 17. pp.91-108 , March 1995
[4] A. P. Dempster, N. M. Laira and D. B. Rubin, “Maximum Likelihood from Incomplete Data via the EM Algorithm,” Harvard University and Educational Testing Service, Dec. 1976.
[5] 鄭志民,”基於高斯混合模型之語者辨認”, 國立清華大學碩士論文,民國八十九年六月。
[6] Douglas A. Reynolds, “Robust Text-Independent Speaker Indentification Using Gaussian Mixture Speaker Models,” IEEE Trans. On Speech and Audio Processing. Vol. 3, NO. 1, January 1995.
[7] Biing-Hwang Juang, Wu Chou, and Chin-Hui Lee, ”Minimum Classification Error Rate Methods for Speech Recognition,” IEEE Trans. On Speech and Audio Processing. Vol. 5, NO. 3, May 1997.
[8] W. Chou, B.H. Juang and C.H Lee, “Segmental GPD Training of HMM based Speech Recognizer,” In proceedings of ICASSP, IEEE International Conference on Acoustics, Speech, and Signal Processing, Vol. 1, page(s): 473 -476, 1992.
[9] del Alamo, C.M.; Caminero Gil, F.J.; dela Torre Munilla, C.; Hernandez Gomez, L. “Discriminative Training of GMM for Speaker Identification,” In proceedings of ICASSP, IEEE International Conference on Acoustics, Speech, and Signal Processing, Vol. 1, page(s): 89 -92 , 1996.
[10] Li Lee, Richard Rose, “A Frequency Warping Approach to Speaker Normalization,” IEEE Trans. On Speech and Audio Processing. Vol. 6, NO. 1,January 1998.
[11] Welling, L.; Kanthak, S.; Ney, H., “Improved Method For Vocal Tract Normalization,” IEEE International Conference on Acoustics, Speech, and Signal Processing, Vol.2, page(s): 761 —764, 1999.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
系統版面圖檔 系統版面圖檔