(100.26.179.251) 您好!臺灣時間:2021/04/12 21:52
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

我願授權國圖
: 
twitterline
研究生:林政賢
論文名稱:以可靠度導引之通道效應及頻寬不匹配補償於強健性語音辨認
論文名稱(外文):A reliablity-guided channel and bandwidth mismatch compensation for robust speech recognition
指導教授:廖元甫廖元甫引用關係
學位類別:碩士
校院名稱:國立臺北科技大學
系所名稱:電腦通訊與控制研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2003
畢業學年度:91
語文別:中文
論文頁數:78
中文關鍵詞:SM
相關次數:
  • 被引用被引用:2
  • 點閱點閱:169
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:10
  • 收藏至我的研究室書目清單書目收藏:0
本論文主要探討訓練語料及測試語料間環境不匹配之問題,特別針對通道效應及頻寬不匹配作探討。在通道效應之部分首先對於不匹配之測試語句與系統模型間特徵參數維度上以及時間軸上進行可靠度量測,接下來利用可靠度量測加權值來進行測試語句之切割以及SM不匹配偏移量補償。使用傳統電話線(MAT)及行動電話資料庫(ATC)分別當作訓練及測試語料之實驗結果證實能將系統辨認率在不匹配情況下從26.2%提升至48.1%。再度利用可靠度量測方法來對不同頻寬之測試語句進行不匹配量測,並針對頻寬不匹配之部分利用改進過之GMM對映方式進行補償,以寬頻麥克風資料庫(TCC-300)進行不同頻寬之測試結果顯示,在一個寬頻HMM系統前提下,的確能夠將系統辨認率分別在5.5kHz及4kHz頻寬情況提升至67.78%及64.73%,並且相當接近匹配狀況之辨認率(70.28%,67.72%)。
目錄
中文摘要……………………………………………………………...Ⅰ
英文摘要……………………………………………………………...Ⅱ
誌謝…………………………………………………………………...Ⅲ
目錄…………………………………………………………………...Ⅳ
表目錄………………………………………………………………...Ⅵ
圖目錄………………………………………………………………...Ⅶ
第一章 序論 1
1.1 論文章節概要 3
第二章 電話線語音與麥克風語音辨認實驗 5
2.1 HmmX辨認系統架構 5
2.1.1中文語音辨認單元 6
2.1.2 HMM模型架構 8
2.1.3特徵參數求取 10
2.1.4 特徵參數/模型之不匹配量測 14
2.1.5 通道效應補償 14
2.1.5 HMM訓練與辨認 16
2.2.5 辨認率計算公式 18
2.2 MAT4500與TCC300辨認實驗 18
2.2.1實驗語料 19
2.2.2 實驗內容與結果 20
2.2.3 實驗討論 21
2.3結論 21
第三章 通道效應補償及改進 22
3.1 研究動機 22
3.2 Stochastic Matching與差異度量測 23
3.2.1 SM通道效應補償架構 24
3.2.2 以差異度為基礎之可靠性量測 25
3.3 以可靠度量測加權之通道效應補償演算法 27
3.4 GSM與PSTN通道差異補償實驗 30
3.4.1 實驗語料與HMM參數設定 30
3.4.2 實驗內容與結果 31
3.4.3 測試語句長短對系統辨認率之分析 34
3.5 本章結論 35
第四章 頻寬不匹配效應之補償 36
4.1研究動機 36
4.2窄頻至寬頻延伸方法 38
4.3 頻寬不匹配之補償架構 39
4.3.1 以差異度測量為基礎之頻寬不匹配偵測 39
4.3.2 Hybrid HMM/GMM頻寬不匹配補償 41
4.4頻寬不匹配補償實驗 46
4.4.1 實驗語料與HMM參數設定 46
4.4.2 實驗內容與結果 47
4.4.2.1 頻寬匹配情況 47
4.4.2.2以可靠度量測為基礎之頻寬偵測 48
4.4.2.3 Backing off方法 50
4.4.2.4以GMM映射為基礎之補償 51
4.4.2.5 Hybrid HMM/GMM之頻寬不匹配補償 53
4.5 本章結論 55
第五章 結論與未來展望 56
5.1 摘要總結 56
5.2 結論 57
5.3 未來展望 58
參考文獻 59
附錄 61
參考文獻
[1] The documentation of Hidden Markov Model Toolkit (HTK), http://htk.eng.cam.ac.uk/
[2] S. E. Levinson, L. R. Rabiner, and M. M. Sondhi, “An Introduction to the Application of the Theory of Probabilistic Function of a Markov Process to Automatic Speech Recognition,” The Bell System Technical Journal, Vol.62, No. 4, April 1983.
[3] 涂家章,“使用MAT2000語料庫之中文語音辨認”, 國立交通大學碩士論文,民國八十九年六月。
[4] P. A. Devijver and J. Kittler, “Pattern Recognition — A Statistical Approach,” Prentice-Hall International, London, 1982.
[5] Mazin G. Rahim and Bing-Hwang Juang, “Signal Bias Removal by Maximum Likelihood Estimation for Robust Telephone Speech Recognition,” IEEE Trans. On Speech and Audio Processing, vol.4, pp.19-30, January 1996.
[6] Ananth Sankar and Chin-Hui Lee, “A Maximum-Likelihood Approach to Stochastic Matching for Robust Speech Recognition,” IEEE Trans. on Speech and Audio Processing, vol.4, no. 3, pp.190-202, May 1996.
[7] H. Ney, “The Use of a One-Stage Dynamic Programming Algorithm for Connected Word Recognition,” IEEE Trans. Acoustics, Speech, Signal Processing, vol.32, no.2, pp.263-271, April 1984.
[8] Chin-Hui Lee and Qiang Huo “On adaptive decision rules and decision parameter adaptation for automatic speech recognition,” Proceedings of the IEEE, vol.88, no.8, pp.1241-1269 August 2000.
[9] W.-J. Wang and S.-H. Chen, “Signal bias removal with orthogonal transform for adverse Mandarin Speech recognition,” Electronics Letters, vol. 36, no. 9, pp. 852-852, April, 2000.
[10] J. Barker, M. Cooke, L. Josifovski and P. Green, “Soft Decisions in Missing Data techniques for Robust Automatic Speech Recognition,” ICSLP 2000, Beijing.
[11] A. Dempster, N. Laird and D. Rubin, “Maximum likelihood from incomplete data via the EM algorithm,” J. Royal Statist. Soc., vol. 39, pp. 1-38, 1977.
[12] Y.M. Cheng, D. O''Shaughnessy and P. Mermelstein,, “Statistical Recovery of Wideband Speech from Narrowband Speech”. IEEE Transactions on Speech and Audio Processing, vol. 2, no. 4, pp. 544-548, October 1994.
[13] N. Enbom and W.B. Kleijn. “Bandwidth Expansion of Speech Based on Vector Quantization of the Mel Frequency Cepstral Coefficients”. IEEE Workshop on Speech Coding, Porvoo, Finland, 1999.
[14] K.-Y. Park and H.S. Kim. “Narrowband to Wideband Conversion of Speech using GMM-based Transformation”. Proc. ICASSP, Istanbul, June 2000.
[15] P. Jax and P. Vary, “Wideband Extension of Telephone Speech Using a Hidden Markov Model”, IEEE Workshop on Speech Coding, pp. 133-135, Delavan, Wisconsin, September 2000.
[16] Y. Stylianou , O. Cappe'' and E. Moulines, “Continuous Probabilistic Transform for Voice Conversion”, IEEE Transactions on Speech and Audio Processing, vol. 6, no. 2, pp. 131-142, March 1998.
[17] 蔣昇倫,”經電話通道之國語連續411音節辨認”,國立交通大學碩士論文,民國八十六年六月。
[18] 廖于棻,“通道偏移量分析以及不匹配環境下的電話語音辨認”, 國立交通大學碩士論文,民國九十一年六月。
[19] 呂儲仰,”國語連續音節辨認系統之改進與分析”,國立交通大學碩士論文,民國九十一年六月。
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
系統版面圖檔 系統版面圖檔