(3.236.228.250) 您好!臺灣時間:2021/04/17 12:36
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

我願授權國圖
: 
twitterline
研究生:許啟輝
研究生(外文):Chi-Hui Hsu
論文名稱:基於雜訊環境參考模型內插與子空間雜訊變異量消去法之強健性語音辨認
論文名稱(外文):Reference Model Weighting and Noise Variability Subspace Projection for Robust Speech Recognition
指導教授:廖元甫廖元甫引用關係
指導教授(外文):Yuan-Fu Liao
口試委員:蔡偉和王逸如
口試委員(外文):Wei-Ho TsaiYih-Ru Wang
口試日期:2007-07-30
學位類別:碩士
校院名稱:國立臺北科技大學
系所名稱:電腦與通訊研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2007
畢業學年度:95
語文別:中文
論文頁數:61
中文關鍵詞:雜訊環境不匹配先驗知識參考模型內插法超級向量主成分分析
外文關鍵詞:environment mismatchenvironment knowledgereference model weightingsuper-vectorprincipal component analysis
相關次數:
  • 被引用被引用:0
  • 點閱點閱:144
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
本論文在探討雜訊環境不匹配的情況下,語音辨認系統如何使用先驗知識來做雜訊環境模型的補償與參數的正規化,我們分別提出基於雜訊環境參考模型內插法與子空間雜訊變異量消去方法。
第一種方法是先在訓練時收集多個已知雜訊環境的MLLR轉移矩陣,用來代表可能的雜訊環境空間。在測試時分別以best first、a posteriori、ML的方式估測最佳權重來內插,此外還有EMLLR的方法,據以合成出適合測試環境的辨認模型。
再來第二種方法是在訓練時統計辨認單元的參數並求出超級向量,再將超級向量進行主成分分析建構特徵空間,於空間中消去雜訊環境的干擾分量,並以多層感知的訓練方法建立檢測器。在測試時利用測試語料的word graph求得超級向量,並消去雜訊環境的干擾分量,最後將檢測器與傳統聲學模型辨認出的分數做加權組合,再依調整後的分數找出最佳的辨認路徑。
實驗使用Aurora2語料庫,在複合情境的訓練模式下,與HEQ、ETSI Adv. frontend及MVA相比較。基於雜訊環境參考模型內插法將總平均辨識率提升到93.20%,而子空間雜訊變異量消去方法則是將總平均辨識率提升到92.51%。
In this study we propose two methods to compensate the noisy environment mismatch, include (a) reference model weighting and (b)noise variability subspace projection. The first method uses collected noisy environment characteristics and only one input test utterance to estimate the optimal weight sequence and then synthesizes the characteristic of the unknown test noisy environment by interpolating. The second method subtracts the noise variability on the eigen-spcae and builds word-based detectors for rescoring in automatic speech recognition.
The proposed methods were evaluated on the multi-condition training task of Aurora2 corpus. Experimental results showed that the average recognition rate compared with MVA, HEQ and ETSI Adv. frontend is improved to achieve 93.20% by reference model weighting and 92.51% by noise variability subspace projection.
中文摘要 i
ABSTRACT ii
誌謝 iii
目錄 iv
表目錄 vi
圖目錄 vii
第一章 緒論 1
1.1 研究動機與背景 1
1.2 研究方法 2
1.3 章節概要 4
第二章 基礎語音辨認系統 5
2.1 基礎系統 5
2.1.1 倒頻譜正規化ARMA濾波技術 5
2.1.2 分布等化法 8
2.1.3 兩階式維納濾波器 11
2.2 實驗設定 12
2.2.1 Aurora2語料庫 12
2.2.2 聲學模型及辨識效能評估 14
2.3 實驗結果與分析 14
2.4 本章結論 21
第三章 基於雜訊環境參考模型內插 23
3.1 基於雜訊環境參考模型內插的補償 23
3.2 參考模型權重估測 25
3.2.1 Best First 25
3.2.2 A Posteriori-based Interpolation 26
3.2.3 Maximum Likelihood-based Interpolation 27
3.3 Eigen-Maximum Likelihood Linear Regression 32
3.4 實驗結果與分析 32
3.4.1 雜訊環境的特徵空間分析 32
3.4.2 參考模型補償的辨識結果與討論 37
3.4.3 EMLLR補償的辨識結果與討論 44
3.5 本章結論 47
第四章 子空間雜訊變異量消去法 49
4.1 子空間雜訊變異量消去法 49
4.2 實驗設定與分析 50
4.2.1 Aurora2複合情境訓練模式 50
4.2.2 子空間的建立 51
4.3 實驗結果與討論 52
4.4 本章結論 56
第五章 結論與未來展望 58
5.1 結論 58
5.2 未來展望 59



表目錄

表2.1 Aurora2語料庫內容 13
表2.2 MVA乾淨語音訓練模式的實驗結果 15
表2.3 MVA複合情境訓練模式的實驗結果 16
表2.4 HEQ乾淨語音訓練模式的實驗結果 17
表2.5 HEQ複合情境訓練模式的實驗結果 18
表2.6 ETSI Adv. frontend乾淨語音訓練模式的實驗結果 19
表2.7 ETSI Adv. frontend複合情境訓練模式的實驗結果 20
表2.8 乾淨語音訓練模式下各SNR的辨識結果 22
表2.9 複合情境訓練模式下各SNR的辨識結果 22
表3.1 MVA + Best First的實驗結果 38
表3.2 MVA + A Posteriori-based Interpolation的實驗結果 39
表3.3 MVA + Maximum Likelihood Interpolation的實驗結果 40
表3.4 MVA +EMLLR的實驗結果 46
表3.5 各SNR雜訊環境中參考模型權重估測的辨識結果 47
表3.6 各SNR雜訊環境中對抗環境不匹配方法的辨識結果 48
表4.1 不做選取的Noise Variability Subspace Projection實驗結果 53
表4.2 選取前4維的Noise Variability Subspace Projection實驗結果 53
表4.3 選取前10維的Noise Variability Subspace Projection實驗結果 53
表4.4 各SNR雜訊環境中強健性參數求取技術的辨識結果 57



圖目錄

圖1.1 基於雜訊環境參考模型內插法的方塊流程圖 3
圖1.2 子空間雜訊變異量消去的方塊流程圖 4
圖2.1 倒頻譜正規化ARMA濾波技術之流程圖 5
圖2.2 參數C1在地下鐵環境中不同訊雜比下原始參數,及其經過MV與MVA的訊號比較圖 7
圖2.3 參數C0在地下鐵環境中不同訊雜比下原始參數,及其經過MV與MVA的訊號比較圖 7
圖2.4 參數Log Energy在地下鐵環境中不同訊雜比下原始參數,及其經過MV與MVA的訊號比較圖 8
圖2.5 乾淨語音、雜訊與含雜訊語音之參數Log energy的機率密度分布圖 9
圖2.6 分布等化法之示意圖 10
圖2.7 兩階式維納濾波器技術架構圖 11
圖2.8 乾淨語音訓練模式下基礎強健性技術的辨識校能比較 21
圖2.9 複合情境訓練模式下基礎強健性技術的辨識校能比較 21
圖3.1 基於雜訊環境參考模型內插法的方塊流程圖 24
圖3.2 A Posteriori-based Interpolation方塊流程圖 27
圖3.3 Maximum Likelihood -based Interpolation方塊流程圖 28
圖3.4 EMLLR方塊流程圖 31
圖3.5 建立特徵空間的方塊流程圖 33
圖3.6 雜訊環境之特徵空間 34
圖3.7 雜訊環境之特徵空間中,測試環境(A組)的分布圖 35
圖3.8 雜訊環境之特徵空間中,測試環境(B組)的分布圖 35
圖3.9 雜訊環境之特徵空間中,測試環境(C組)的分布圖 36
圖3.10 測試雜訊環境A組(乾淨、地鐵20 dB、人聲0 dB)以A Posteriori-based Interpolation補償後的超級向量投影分布圖 42
圖3.11 測試雜訊環境A組(乾淨、地鐵20 dB、人聲0 dB)以ML-based Interpolation補償後的超級向量投影分布圖 42
圖3.12 測試雜訊環境B組(乾淨、餐廳20 dB、街道0 dB)以A Posteriori-based Interpolation補償後的超級向量投影分布圖 43
圖3.13 測試雜訊環境B組(乾淨、餐廳20 dB、街道0 dB)以ML-based Interpolation補償後的超級向量投影分布圖 43
圖3.14 前24維特徵值的比重曲線圖 44
圖3.15 取不同特徵向量個數時的總平均辨識率 44
圖3.16 參考模型權重估測實驗結果的綜合比較 45
圖3.17 對抗環境不匹配方法的辨識效能綜合比較 48
圖4.1 子空間雜訊變異量消去法的系統架構圖 50
圖4.2 辨認單位”four”的超級向量投影分布圖 52
圖4.3 子空間雜訊變異量消去法的實驗結果 52
圖4.4 強健性參數求取技術的辨識效能綜合比較 56
圖5.1雜訊環境不匹配補償方法的辨識效能綜合比較 59
[1].C.P. Chen, K. Filali and J. Bilmes, “Frontend Post-Processing and Backend Model Enhancement on the Aurora 2.0/3.0 Databases,” ICSLP, pp. 241-244, 2002.
[2].C.P. Chen, J. Bilmes and K Kirchhoff, “Low-resource Noise-Robust Feature Post-Processing on Aurora 2.0,” ICSLP, pp. 2445-2448, 2002.
[3].A. de la Torre, J. C. Segura, M. C. Benitez, A. M. Peinado and A. J. Rubio, “Non-linear transformation of the feature space for robust speech recognition,” ICASSP, vol. I, pp.401-404, 2002.
[4].A. de la Torre, A. M. Peinado, J. C. Segura, J. L. P. Cordoba, M. C. Benitez and A. J. Rubio, “Histogram equalization of speech recognition for robust speech recognition,” IEEE Trans. on Speech and Audio Processing, vol. 13, no. 3, pp.355-366, May 2005.
[5].ETSI standard document, “Speech processing, transmission and quality aspects (STQ); distributed speech recognition; extended advanced front-end feature extraction algorithm; compression algorithm; back-end reconstruction algorithm,” ETSI Standard ES 202 212, November 2003.
[6].R.O. Duda, P.E. Hart, “Pattern Classification and Scene Analysis,” John Wiley and Sons, New York, 1973.
[7].N. Kumar, “Investigation of Silicon-Auditory Models and Generalization of Linear Discriminant Analysis for Improved Speech Recognition,” Ph.D. thesis, John Hopkins University, Baltimore, 1997.
[8].M.J.F. Gales, “Maximum Likelihood Multiple Subspace Projections for Hidden Markov Models,” IEEE Transactions on Speech and Audio Processing, vol. 10, no. 2, pp. 37-47, 2002.
[9].M. Gales and S. Young, “Robust continuous speech recognition using parallel model combination,” IEEE Transactions on Speech and Audio Proc., vol. 13, no. 3, September 1996.
[10].M. Akbacak and Hansen, J. H. L, “Environmental Sniffing: Noise Knowledge Estimation for Robust Speech Systems”, IEEE Trans. on Audio, Speech and Language Proc., vol. 15, issue 2, pp. 465-477, 2007.
[11].Zhipeng Zhang, Toshiaki Sugimura and Sadaoki Furui, “A Tree-Structured Clustering Method Integrating Noise and SNR for Piecewise Linear-Transformation-Based Noise Adaptation,” ICASSP, 2004.
[12].M.J.F. Gales and P.C. Woodland, “Mean and variance adaptation within the MLLR framework,” Comput. Speech Lang., vol. 10, no. 3, pp. 249–264, 1996.
[13].Aurora Database, http://www.elda.org/article20.html.
[14].K.T. Chen, W.W. Liau, H.M. Wang, L.S. Lee, “Fast Speaker Adaptation Using Eigenspace-Based Maximum Likelihood Linear Regression”, ICSLP, 2000.
[15].J. W. Hung, H. M. Wang and L. S. Lee, “Comparative analysis for data-driven temporal filters obtained via principal component analysis (PCA) and linear discriminant analysis (LDA) in speech recognition,” Eurospeech, Denmark, September 2001.
[16].N. C. Wang, J. W. Hung and L. S. Lee, “Data-driven temporal filters based on multi-eigenvectors for robust features in speech recognition,” ICASSP, Hong Kong, pp.400-403, 2003.
[17].LNKnet Pattern Classification Software, http://www.ll.mit.edu/IST/lnknet/.
[18].B. Mak and R. Hsiao, “Improving eigenspace-based MLLR adaptation by kernel PCA,” in Proceedings of the ICSLP, Jeju Island, South Korea, vol. I, pp. 13–16, October 14–18, 2004.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
系統版面圖檔 系統版面圖檔