(3.236.231.61) 您好!臺灣時間:2021/05/11 21:52
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

: 
twitterline
研究生:蔡明勳
研究生(外文):Ming-Hsun Tsai
論文名稱:基於模糊推論之語音強化系統
論文名稱(外文):On the Use of Fuzzy Inference System in the Speech Enhancement
指導教授:姚志佳姚志佳引用關係
指導教授(外文):Chih-Chia Yao
學位類別:碩士
校院名稱:朝陽科技大學
系所名稱:資訊工程系碩士班
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2008
畢業學年度:96
語文別:中文
論文頁數:71
中文關鍵詞:適應性模糊推論系統小波封包分解語音辨識語音強化
外文關鍵詞:Adaptive fuzzy inference systemWavelet packet decompositionSpeech recognitionSpeech enhancement
相關次數:
  • 被引用被引用:2
  • 點閱點閱:257
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:41
  • 收藏至我的研究室書目清單書目收藏:0
本論文的目的在於如何改善語音辨識時背景噪音所造成的辨識率降低的問題,由於測試環境的不同,對於語音辨識模型的不匹配會是造成語音辨識錯誤率提高的主要原因之一。傳統上,常看到的方法有頻譜相減法(spectrum subtraction)以及訊號子空間(signal subspace)這兩種方法來濾除雜訊,但是所濾除的效果都有限。於是本論文提出一個以模糊理論為基礎的適應性模糊推論系統來對噪音訊號做強化。模糊歸屬函數(fuzzy membership function)參數最佳化的訓練資料是利用小波轉換針對訊號所擷取而來,且此系統中使用了七條規則,能分別針對不同的雜訊環境下推論出準確的門檻值。在實驗中,本論文使用Aurora雜訊語料庫做語音訊號的強化,實驗評估後經過是硬性模糊推論系統強化過的語音訊號能有效提升SNR以及語音的辨識率。
The object of this manuscript is to improve the speech recognition rate affected by the background noise. Different testing environments cause the mismatching of the speech recognition model and which will decrease the recognition rate. Traditionally, the technologies of spectrum subtraction and signal subspace are common be applied to filter the noise. However, the performances of using above two technologies are unsatisfied. Hence, in this manuscript an adaptive fuzzy inference system is proposed to eliminate the noise from the speech signal. In the fuzzy inference system, four control factors are adopted to adjust the value of threshold and they are energy, zero crossing rate, standard deviation and average residual. Moreover, seven inference rules are proposed to infer the accurate threshold. Then, Aurora noise database is used as the experimental data. Experimental results reveals that the speech signal enhanced by the hard fuzzy inference system can effectively increase the SNR and the recognition rate of speech.
摘要 I
ABSTRACT II
致謝 III
目錄 IV
圖目錄 VI
表目錄 IX
第一章 序論 1
1.1 前言 1
1.2 研究動機 2
1.3 研究方法簡介 3
1.4 論文架構 4
第二章 相關研究 5
2.1 小波簡介 5
2.1.1 小波轉換 5
2.1.2 多頻帶分析 8
2.1.3 小波封包分解 9
2.2 模糊理論(FUZZY LOGIC) 11
2.2.1 模糊集合(Fuzzy Set) 12
2.2.2 模糊集合的基本運算 12
2.2.3 模糊規則 13
2.2.4 模糊推論系統 15
2.3 粒子群最佳化演算法(PSO) 19
2.3.1粒子群最佳化演算法介紹 19
第三章 語音強化系統(SPEECH ENHANCEMENT) 22
3.1 訊號前處理 22
3.1.1 數位取樣 23
3.1.2 音框化 26
3.1.3 預強調 26
3.1.4 漢明窗 27
3.2 系統架構 29
第四章 方法 35
4.1 VAD之運作 35
4.1.1 改進後之VAD 36
4.2 模糊變數的選擇 40
4.3 適應性模糊推論系統 44
4.3.1 推論規則 44
4.3.2訓練過程 52
第五章 實驗 53
5.1 實驗設定 53
5.2 實驗結果 60
5.2.2 SNR的分析 62
5.2.3 語音辨識率的分析 64
第六章 結論與未來展望 67
6.1 結論 67
6.2 未來展望 67
參考文獻 69

圖目錄
圖 2 - 1 尺度參數對訊號的影響 6
圖 2 - 2 位移參數對訊號的影響 6
圖 2 - 3 小波轉換示意圖 6
圖 2 - 4 離散小波轉換分解圖 8
圖 2 - 5 兩層維度的分解與合成 9
圖 2 - 6 Level-3 的小波封包分解示意圖 11
圖 2 - 7 輸入空間分割圖 15
圖 2 - 8 模糊推論系統之基本架構圖 15
圖 2 - 9 模糊化示意圖 16
圖 2 - 10 Mamdani 模糊推論過程 17
圖 2 - 11 Sugeno 模糊推論過程 18
圖 2 - 12 Tsukamoto 模糊推論過程 18
圖 2 - 13 粒子群更新過程圖 21
圖 3 - 1 語音訊號處理流程 22
圖 3 - 2 連續語音訊號 23
圖 3 - 3 不連續語音訊號 24
圖 3 - 4 類比轉數位流程圖 24
圖 3 - 5 取樣圖 25
圖 3 - 6 取音框圖 26
圖 3 - 7 語音訊號原始波形 27
圖 3 - 8 經過預強調後的波形 27
圖 3 - 9 三種常用視窗圖(矩形、漢明及漢尼窗) 29
圖 3 - 10 系統架構圖 29
圖 3 - 11 Level-3 的小波封包分解樹示意圖 30
圖 3 - 12 小波重建示意圖34
圖 4 - 1 於-5db 的高斯白雜訊環境下的特徵比較圖 36
圖 4 - 2 VAD 運作流程圖 36
圖 4 - 3 二次遞迴平均值 39
圖 4 - 4 VAD 偵測結果 39
圖 4 - 5 TEO 與Entropy 於-5db 的高斯白雜訊環境下的VAD 比較圖 40
圖 4 - 6 越零率示意圖 43
圖 4 - 7 規則一所描述的波形 46
圖 4 - 8 規則二所描述的波形 47
圖 4 - 9 規則三所描述的波形 47
圖 4 - 10 規則四所描述的波形 48
圖 4 - 11 規則五所描述的波形 49
圖 4 - 12 規則六所描述的波形 50
圖 4 - 13 規則七所描述的波形 51

表目錄
表 1 模糊變數分割表 45
表 2 Aurora 語音庫8 種噪音所對應的SNR 值 63
表 3 經強化後語音訊號的SNR 值 63
表 4 未經強化所辨識的結果 64
表 5 訊號子空間與本論文所提方法強化後之辨識率比較表 65
表 6 頻譜相減法與本論文所提方法強化後之辨識率比較表 66
[1]S. F. Boll, “Suppression of acoustic noise in speech using spectral subtraction,” IEEE Trans. Acoust., Speech, Signal Processing, 1998, Vo1. 1, pp. 468-479.
[2]F. Jabloun and B. Champagne, “A Perceptual Signal Subspace Approach for Speech Enhancement in Colored Noise,” Proc. IEEE International. Conference in Acoustics, Speech, and Signal Processing, 2002, Vo1. 1, pp. 569-572.
[3]F. Jabloun and B. Champagne, “On the use of masking properties of the human ear in the signal subspace speech enhancement approach,” in Proc. Int. Workshop Acoust. Echo Noise Control, Darmstadt, Germany, Sept. 2001, pp. 199-202.
[4] Shi-Huang Chen, Hsin-Te Wu, Yukon Chang, and T.K. Truong, ” Robust voice activity detection using perceptual wavelet-packet transform and Teager energy operator,” Pattern Recognition Letters, 2007, Vol. 28, pp. 1327–1332.
[5] I. Abdallah , S. Montr´esor, and M. Baudry, “Speech signal detection in noisy environment using a local entropic criterion,” in Eurospeech, Rhodes, Greece, Sep. 1997.
[6]F. Jabloun , A. E. Cetin, and E. Erzin ,“Teager energy based feature parameters for speech recognition in car noise,” IEEE Signal Processing Lett., 1999, Vol. 6, pp. 259-261.
[7]http://htk.eng.cam.ac.uk, the HTK homepage.
[8]S. Young, et al., The HTK Book, Version 3.0, July , 2000.
[9]A. Homaifar, E. McCormick, Simultaneous design of membership functions and rule sets for fuzzy controller using genetic algorithms, IEEE Trans. Fuzzy System, 1995,Vol. 3, pp. 129-139.
[10]Enwang Zhou, Alireza Khotanzad, “Fuzzy classifier design using genetic algorithms,” Pattern Recognition, 2007, Vol. 40, pp. 3401-3414.
[11]A. Khotanzad, E. Zhou, H. Elragal, “A neuro-fuzzy approach to short-term load forecasting in a price-sensitive environment,” IEEE Trans. Power System, 2002, Vol. 17, pp. 1273-1282.
[12]H. Ishibuchi, T. Sotani,T. Murata, “Tradeoff between the performance of fuzzy rule-based classification systems and the number of fuzzy if-then rules,” the 18 International Conference of the North American Fuzzy Information, 1999, pp. 125-129.
[13]L.X. Wang, J.M. Mendel, “Generating fuzzy rules from numerical data with applications , University of Southern California,” SIPI Report no.169, 1991.
[14]M. Delgado, A.F. Gomez-Skarmeta, F. Martin, “A fuzzy clustering-based rapid prototyping for fuzzy rule-based modeling,” IEEE Trans. Fuzzy System , 1997, Vol. 5, pp. 223-233.
[15]M. Sugeno, T. Yasukawa, “A fuzzy-logic-based approach to qualitative modeling,” IEEE Trans. Fuzzy System, 1993, Vol. 1, pp. 7-31.
[16]J.E. Baker, Reducing bias and inefficiency in the selection algorithm, Proceedings of the Second International Conference on Genetic Algorithms and their Application, Lawrence Erlbaum Associates, New Jersey, USA , 1987, pp. 14-21.
[17]Enwang Zhou, Alireza Khotanzad, “Fuzzy classifier design using genetic algorithms,” Pattern Recognition, 2007, Vol. 40, pp. 3401-3414.
[18]Shi-Huang Chen and Jhing-Fa Wang, ”A Wavelet -based Voice Activity Detection Algorithm in Noisy Environments, ” in IEEE International Conference on Electronics, Circuits and Systems (ICECS2002), Sept. 2002, Dubrovnik, Croatia.
[19]李孟穎,感知因素分析法應用於語音強化,碩士論文,國立成功大學資訊工程所,台南,2005。
[20]郭正雄,強健式語音辨識之研究:改良式頻譜消去法,碩士論文,國立暨南國際大學電機工程研究所,南投,2004。
[21]陳永耀,楊宗文。”適應性模糊推論系統在舒適度模型上的應用”,台灣大學電機工程所,台北,1999。
[22]陳璽煌,應用小波轉換於語音信號處理之研究,博士論文,國立成功大學電機工程所,台南,2001。
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊
 
系統版面圖檔 系統版面圖檔