(34.239.150.57) 您好!臺灣時間:2021/04/18 23:00
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

我願授權國圖
: 
twitterline
研究生:葉人鳳
研究生(外文):Jen-Feng Yeh
論文名稱:國語連續音節辨認系統之電話通道語者效應偏移量移除與分析
論文名稱(外文):Speaker-Based Telephone Channel Bias Remove Analysis with Continuous Mandarin Speech Recognition Method
指導教授:陳信宏陳信宏引用關係
指導教授(外文):Sin-Horng Chen
學位類別:碩士
校院名稱:國立交通大學
系所名稱:電信工程系
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2003
畢業學年度:91
語文別:中文
論文頁數:48
中文關鍵詞:通道語者效應偏移量右相關聲母隱藏式馬可夫模型前後文相關隱藏式馬可夫模型以HMM為基礎的語者偏移量移除
外文關鍵詞:channel/speaker biasRight-Context Dependent initial HMMContext Dependent HMMHMM-based Bias Removing
相關次數:
  • 被引用被引用:1
  • 點閱點閱:126
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:13
  • 收藏至我的研究室書目清單書目收藏:1
本篇論文中,主要針對training phase的HMM模型進行改進,我們希望對語音信號有較好的modeling,以估計channel/speaker bias,將其去除後得到較佳的正規化特徵參數。在已知語料庫之語音信號的HMM模型切割資訊條件下,我們以HMM-based Bias Removing的方法對特徵參數做初步的調適,由觀察得知,特徵參數在去除偏移量後明顯使F-ratio提升,而且訓練出HMM狀態模型的之分佈較移除信號偏移量前更為緊密。實驗中以MAT4500語料庫9:1的比例為訓練及測試語料做外部測試(outside testing),基本系統語音模型的高斯混合數(mixture)以50個音框取ㄧ個混合數,最大混合數不超過32個,靜音模型的混合數取64個,訓練右相關聲母隱藏式馬可夫模型(Right-Context Dependent initial HMM)及前後文相關隱藏式馬可夫模型(Context Dependent HMM),以HMM-based Bias Removing的方法取代SBR的作法消除信號偏移量,Signal Model 1平移轉換特徵參數正規化(i.e. 線性轉換)在intra-syllable RCD-HMM系統下的辨識率為61.23%,較基本系統(SBR)的音節辨識率約略高出1%,Signal Model 2 的affine轉換特徵參數正規化(i.e. 線性轉換)在intra-syllable RCD-HMM系統的辨識率由60.17%提升至65.71%,CD-HMM系統的辨識率由62.56 %提升至67.96 %。此外,更進一步考慮將語音信號的聲母、韻母、靜音(silence)部分區分開,分別求取此三類型資料的轉換矩陣 及向量 ,分類將特徵參數正規化,在Signal Model 2 轉換下,intra-syllable RCD-HMM系統辨識率由60.17%提升至73.31%,CD-HMM系統的辨識率由62.56 %提升至76.56 %。因此在已知語音信號的HMM模型切割資訊條件下,HMM-based Bias Removing的方法將使得辨認系統效能提升。

In this thesis, the methods of improving the robustness and accuracy of features using speaker-based feature normalization are described. A continuous mixture-Gaussian hidden Markov model (HMM)-based Mandarin speech recognition system using MAT4500 database is constructed. In HMM training procedure, bias estimated from HMM segment is addressed to compact each HMM model. Besides, a series of studies between SBR and HMM biases are perused. The recognition rate of applying speaker-based feature normalized in the 100 RCD initials and 40 CI finals-HMM system is 65.71% on condition that HMM segment is addressed. This experimental result is higher than typical SBR method, 60.17%. By the way, the accuracy rate was raised from 62.56% to 67.96% in the Context Dependent HMM system. Further more; features are classified according to initial/final and silence. An accuracy rate of 73.31% was achieved in the intra-syllable RCD-HMM system and 76.56% in the CD-HMM system.

目 錄
中文摘要 Ⅰ
英文摘要 Ⅱ
誌謝 Ⅲ
目錄 Ⅳ
表目錄 Ⅵ
圖目錄 Ⅶ
第一章 緒論 1
1.1 研究動機 1
1.2 研究領域 2
1.3 章節概要 3
第二章 語者通道效應偏移量分析 4
2.1 SBR信號偏移量移除法 5
2.2 語者為基礎的HMM偏移量移除 8
2.2.1 語音特徵向量的轉換 8
2.2.2 特徵向量的平移轉換 9
2.2.3 特徵向量的AFFINE轉換 11
2.3 特徵參數正規化之效能評估 15
2.4 HMM-BASED偏移量移除之語音辨識系統 18
2.4.1 模型的訓練 18
2.4.2 辨認方法 19
2.5 特徵參數正規化方法之改進修正 20
2.5.1 轉換矩陣 及向量 的類別 20
2.5.1 增加轉換矩陣類別後可能造成的影響 20
第三章 實驗結果與分析 21
3.1 訓練語料 21
3.2 測試語料 22
3.3 辨認率的計算 22
3.4 基本語音辨認系統架構 23
3.4.1 右相關聲母模型 24
3.4.2 前後文相關隱藏式馬可夫模型 26
3.4.2.1 決策樹根節點的選取 26
3.4.2.2 問題集的選取 27
3.4.2.3 分裂的標準 28
3.4.2.4 停止分裂的條件 29
3.4.2.5 合併 30
3.4.3 光束搜尋法 30
3.5 基本系統測試比較 31
3.6 語者HMM偏移量移除 32
3.6.1 特徵參數平移轉換之辨識結果 33
3.6.2 特徵參數affine轉換之辨識結果 33
3.6.3 錯誤分析 36
3.7 特徵參數正規化之改進修正 38
3.7.1 辨識系統測試比較 38
3.7.2 錯誤分析 40
3.8 本章實驗結論 41
第四章 結論與未來研究方向 42
4.1 結論 42
4.2 未來研究方向 43
參考文獻 44
附錄一 47

參考文獻
[1] Ben Gold and Nelson Morgan, “Speech and Audio Signal Processing”, John Wiley & Sons, INC. 2000.
[2] Mazin G. Rahim and Bing-Hwang Juang, “Signal Bias Removal by Maximum Likelihood Estimation for Robust Telephone Speech Recognition,” IEEE Trans. On Speech and Audio Processing, vol.4, pp.19-30, January 1996.
[3] 廖于棻,“通道偏移量分析以及不匹配環境下的電話語音辨認”, 國立交通大學碩士論文,民國九十一年六月。
[4] 陸康瑋,”國語語音辨認中語者調適技術之研究”,國立台灣大學碩士論文,民國84年。
[5] S. E. Levinson, L. R. Rabiner, and M. M. Sondhi, “An Introduction to the Application of the Theory of Probabilistic Function of a Markov Process to Automatic Speech Recognition,” The Bell System Technical Journal, Vol.62, No. 4, April 1983.
[6] Lawrence Rabiner and Bing-Hwang Juang, “Fundamentals of speech recognition”, Prentice Hall, 1993.
[7] Steve Young and Gerrit Bloothooft “Corpus-Based Methods In Language and Speech Processing” 1997,Kluwer Academic Publishers pp.14-19
[8] Dempster, A., Laird, N., Rubin, D., “Maximum likelihood from incomplete data via the EM algorithm,” Journal of Royal Statistical Society 39, 1-38, 1977.
[9] H. Ney, “The Use of a One-Stage Dynamic Programming Algorithm for Connected Word Recognition,” IEEE Trans. Acoustics, Speech, Signal Processing, vol.32, no.2, pp.263-271, April 1984.
[10] 蔣昇倫,”經電話通道之國語連續411音節辨認”,國立交通大學碩士論文,民國八十六年六月。.
[11] 涂家章,“使用MAT2000語料庫之中文語音辨認”, 國立交通大學碩士論文,民國八十九年六月。
[12] 呂儲仰,”國語連續音節辨認系統之改進與分析”,國立交通大學碩士論文,民國九十一年六月。
[13] 謝寶華,“使用前後文相關HMM模型之國語連續語音辨認”, 國立交通大學碩士論文,民國九十年六月。
[14] Jean-Claude Junqua “Robust Speech Recognition In Embedded Systems And PC Applications” Panasonic Technologies, Inc., U.S.A. kluwer academic publishers 2000.pp. 48-51
[15] S. J. Young “ The General Use of Tying in Phoneme-Based HMM Speech Recognizers”. In Proceedings of ICASSP, IEEE International Conference on Acoustics, Speech, and Signal Processing, Vol. 1, page(s):569-572, 1992
[16] Po-yu Liang , Jia-lin Shen , Lin-shan Lee “Decision Tree Clustering for Acoustic Modeling in Speaker-Independent Mandarin Telephone Speech Recognition” in Proc . ISCSLP, 1998
[17] Bin Ma,Taiyi Huang,Bo Xu,Xijun Zhang&Fei Qu“ Context-Dependent Acoustic Models For Chinese Speech Recognition” ICASSP 96, Atlanta, pp. 455-458, 1996
[18] S.J. Young at al. “Tree-Based State Tying for High Accuracy Acoustic Modeling”,Proc. of Human Language Technology,pp.307-312,1994
[19] Wolfgang Reichl and Wu Chou “Robust Decision Tree State Tying for Continuous Speech Recognition” IEEE Trans. SAP,Vol:8,No. 5,pp.555-566,SEPTEMBER 2000
[20] 梁伯宇, “國語連續語音辨識之聲學模型研究”,國立台灣大學碩士論文,民國八十七年六月。
[21] R. Haeb-Umbach and H. Ney, “Improvements in beam search for10000-word Continuous -speech recognition,” IEEE Trans. Speech Audio Processing, vol. 2, pp. 353—356, 1994.
[22] Yih-Ru Wang,“The Keyword spotting system using decision tree clustering”, 行政院國家科學委員會專題研究計畫成果報告,民國八十九年七月。
[23] 陳科旭,“使用右文相關聲韻母模式之國語關鍵詞辨認”,國立交通大學碩士論文,民國八十九年六月。
[24] Yunxin Zhao, “An EM Algorithm for Linear Distortion Channel Estimation Based on Observations from a Mixture of Gaussian Sources,” IEEE Trans. on Speech and Audio Processing, vol.7, pp.400-413, July 1999.

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
系統版面圖檔 系統版面圖檔