跳到主要內容

臺灣博碩士論文加值系統

(18.97.14.87) 您好!臺灣時間:2025/03/18 12:00
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:莊皓程
研究生(外文):Hao-Cheng Chuang
論文名稱:次頻帶最大信心值麥克風陣列演算
論文名稱(外文):Subband Maximum Confidence Measure based Microphone Array
指導教授:廖元甫廖元甫引用關係
口試委員:王逸如郭志忠
口試日期:2012-07-31
學位類別:碩士
校院名稱:國立臺北科技大學
系所名稱:電腦與通訊研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2012
畢業學年度:100
語文別:中文
論文頁數:31
中文關鍵詞:語音辨識麥克風陣列最大信心值指數
外文關鍵詞:speech recognitionmicrophone arrayMaximum Confidence Measure
相關次數:
  • 被引用被引用:0
  • 點閱點閱:242
  • 評分評分:
  • 下載下載:16
  • 收藏至我的研究室書目清單書目收藏:0
訊號在傳輸的過程中,易受到環境雜訊的干擾,利用麥克風陣列收音可以改善訊號的品質。在計算辨識率的時候,除了麥克風陣列處理器,辨認器也會影響辨識率。若陣列處理器在計算時能考慮到辨認器的資訊時,就能提高辨識率。另外,當環境有殘響雜訊時,訊號被干擾嚴重,而殘響雜訊在不同頻帶角度的改變量會不同,因此要消除殘響雜訊必須由頻帶的角度下手。
為了要提升辨識率以及消除殘響雜訊,本論文提出了次頻帶最大信心值指數的方法。用相位遮罩消除雜訊,EM演算法改變遮罩,直到最大信心值指數為最大時,及為最佳遮罩。
在測試環境為雜訊的實驗中指出,當雜訊角度為30度角時,最大信心值指數和次頻帶最大信心值指數的辨識率會比固定門檻值為0.2的方法好。當雜訊角度為60度角時,最大信心值指數、次頻帶最大信心值指數和固定門檻值為0.2的方法差不多。當殘響時間較短時,最大信心值指數和次頻帶最大信心值指數會比固定門檻值為0.2的方法好,殘響時間較長時,則三種方法辨識率差不多。


The performance of automatic speech recognition (ASR) usually degrades a lot in noise environment. Especially, room reverberation noise is often very difficult to handle. In this thesis, an one-stage phase difference (PD) microphone array and ASR intergradation which is based on subband maximum confidence measure (SMCM) algorithm is proposed to alleviate the problem. By this integration, the ASR outputs could be feedback to automatically adjust the PD thresholds. The proposed method is evaluated on a keyword-spotting task and compared with PD (fixed threshold), maximum confidence measure (MCM) in babble and reverberation noise environment. The experimental results show that SMCM is comparable with PD and MCM.

中文摘要 i
ABSTRACT ii
誌 謝 iii
目錄 iv
圖目錄 vi
表目錄 ix
第一章 序論 1
1.1研究動機 1
1.2背景 1
1.3研究目的與方法 2
1.4章節摘要 2
第二章 麥克風陣列與語音辨認器整合簡介 3
2.1Phase Difference Channel Weighting(PDCW)系統簡介 3
2.2最大信心值指數語音辨認系統簡介 4
第三章 6
次頻帶之最大信心值指數陣列訊號演算法 6
3.1次頻帶之最大信心值指數系統架構 6
3.2演算法推導 7
第四章 最大信心值指數之次頻帶陣列訊號實驗 10
4.1實驗設定 10
4.2狀況一實驗結果 11
4.2.2. 測試命令為「慢點」在各個測試環境的遮罩與頻譜圖 12
4.2.2.1.環境為雜訊在30度0dB: 12
4.2.2.2.環境為雜訊在30度6dB: 13
4.2.2.3.環境為雜訊在60度0dB: 14
4.2.2.4.環境為雜訊在60度6dB: 15
4.3殘響雜訊實驗結果 17
4.3.1.雜訊為殘響雜訊辨識率結果圖: 17
4.3.2. 測試命令為「慢點」在各個測試環境的遮罩與頻譜圖 17
4.3.2.1.環境殘響時間為0.3秒: 17
4.3.2.2.環境殘響時間為0.45秒: 18
4.3.2.3.環境殘響時間為0.5秒: 19
4.3.2.4.環境殘響時間為1秒: 21
4.4討論 22
第五章 結論與未來展望 23
5.1結論 23
5.2未來展望 23
參考文獻 24


[1] R. M. Stern and, C. Trahiotis,”Models of binaural interaction,”in Hearing, B.C.J. Moore, Ed. Academic Press,2002,pp. 347-386.
[2] H. S. Colburn and A. Kulkarni, “Models of sound localization,”in Sound Source Localization, A.N. Popper and R.R. Fay, Eds. Springer-Verlag, 2005,pp.282-316
[3] Park, H. and Stern, R, “Spatial separation of speech signals using amplitude estimation based on interaural comparisons of zero-crossings”, Speech Communication, 51:15-25, 2009.
[4] Cobos, M. and Lopez, J.J., ”Two-mircophone separation of speech mixtures based on interclass variance maximization. J. Acoust”, Soc. Am., 127:1661-1672, 2010.
[5] Harding, S., Barker, J. and Brown, G., ”Mask estimation for missing data speech recognition based on statistics of binaural interaction”, IEEE Trans. Audio Speech Lang. Process., 14:58-67,2006.
[6] Srinivasan, S., Roman, N. and Wang, D.,”Binary and ratio time-frequency masks for robust speech recognition”, Speech Communication, 48:1468-1501, 2006.
[7] Kim, C., Kumar, K., Raj, B. and Stern, R.M.,”Signal separation for robust speech recognition based on phase difference information obtained in the frequency domain”, In INTERSPEECH-2009, pp. 2495-2498, 2009.
[8] Kim, C., Stern, R.M., Eom, K. and Lee, J.,”Automatic selection of thresholds for signal separation algorithms based on interaural delay”, In INTERSPEECH-2010, pp. 729-732, 2010.
[9] ”Maximum Confidence Measure Based Interaural Phase Difference Estimation for Noise Masking in Dual-Microphone Robust Speech Recognition”
[10] Y. Ephraim and D. Malah, “Speech enhancement using a minimum mean square error log-spectral amplitude estimator,” IEEE Trans. on Acoust., Speech, Signal Processing, vol. ASSP-33, pp. 443-445, Apr. 1985.
[11] Wang, H,C., Seide,F.,Tseng,C.Y.,andLee,L.S.,”MAT-2000-design, collection, and validation of a Mandarin 2000-speaker telephone speech database”,InICSLP-2000,4:460-463,2000.



QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊