跳到主要內容

臺灣博碩士論文加值系統

(216.73.216.23) 您好!臺灣時間:2025/10/26 07:47
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:楊政家
研究生(外文):Cheng-Jia Yang
論文名稱:計算聽覺場景分析應用於語音雜訊分離
論文名稱(外文):Computational Auditory Scene Analysis for Speech Segregation
指導教授:賴玟杏
指導教授(外文):Wen-hsing Lai
學位類別:碩士
校院名稱:國立高雄第一科技大學
系所名稱:電腦與通訊工程研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2014
畢業學年度:102
語文別:中文
論文頁數:48
中文關鍵詞:語音分離支援向量機計算聽覺場景分析
外文關鍵詞:CASASpeech SegregationSVM
相關次數:
  • 被引用被引用:0
  • 點閱點閱:407
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
語音訊號分離向來是一項艱鉅挑戰的技術之一,而本文中所使用的訊號分離方法為計算聽覺場景分析,其演算方式主要以電腦來模擬人耳聽覺系統,包括以Gammatone Filter Banks模擬內耳耳蝸部份,以Meddis內毛細胞模型來模擬聲音訊號轉換為電氣訊號的過程,將所收到的訊號轉換成時間-頻率單元(T-F units)並且藉由分類器對每個單元分類為雜訊單元或語音單元,最後收集所有語音單元並且重組語音。

本論文研究以計算聽覺場景分析結合支援向量機分類來實現語音雜訊之分離,聲音訊號特徵的提取使用梅爾倒頻譜特徵與音高特徵做為分類依據,支援向量機的分類結果為一張二元遮罩圖,我們另外針對此二元遮罩圖進行影像上的處理,分別為雜訊清除、空洞填補、形態學的斷開閉合演算,實驗測試中我們分別比較,使用雜訊濾除、空洞填補、形態學的雜訊濾除度與語音失真度,實驗結果顯示,在增加了影像上的處理後,能有效改善支援向量機分類後產生的雜訊。
Speech Separation is one of the most difficult task. It uses computational auditory scene analysis to separate in this study. The main Calculation methods is simulate Human auditory via computer, including Gammatone filter banks to simulate cochlear, and Meddis inner hair cell model simulate the wave form signal to Electrical signals. After the Gammatone filter banks and Meddis inner hair cell, the input signal will convert to time-frequency units and through classifier to classify which are noise units or speech units. Then collect all speech unit and reorganize the speech.

It uses computational auditory scene analysis and support vector machine to separate speech in this study. The features of signal is using Mel-frequency cepstral coefficients and pitch as a basis for classification. The result of classification is a binary mask, In addition to process binary mask for image, including noise remove, hole filled, morphology opening and closing. We use noise remove, hole filled, morphology to compare noise filtering and speech distortion in experiments. It showed that using image process can improve binary mask.
中文摘要 i
英文摘要 ii
致謝 iii
目錄 iv
表目錄 v
圖目錄 vi
一、緒論 01
1.1 研究動機與背景 01
1.2 論文架構 02
二、計算聽覺場景分析 03
2.1 應用與理論基 03
2.2 耳蝸聽覺模型 04
2.3 內毛細胞發放模型 06
三、語音特徵值 07
3.1 梅爾倒頻譜特徵 07
3.2 音高特徵 12
四、雜訊分離方法及相關改進 13
4.1 支援向量機 13
4.2 二元遮罩雜訊清除及改善 20
4.3 形態學斷開閉合演算 25
五、實驗結果 26
5.1 實驗方法及設計 26
5.2 實驗結果與討論 27
六、結論 46
參考文獻 47
[1] 音訊處理與辨識,張智星
http://mirlab.org/jang/books/audiosignalprocessing/index.asp
[2] 逸奇科技,數位濾波器設計
http://www.ancad.com.tw/VS_Online_Help/ch03s02.html
[3] 郭琇靜 、顧瑞祥,應用支援向量機於管制圖異常圖形之辨識, 中
華民國品質學會第 43 屆年會暨第 13 屆全國品質管理研討會 。
[4] 戴明揚、徐柏齡,基於聽覺模型的話者特徵參數提取及其在噪聲背景下的話者辨識,南京大學聲學研究所,近代聲學國家重點實驗室。
[5] DeLiang Wang, Computational Auditory Scene Analysis:
Principles, Algorithms, and Applications
[6] R. D. Patterson, I. Nimmon-Smith, J. Holdsworth,and P.
Rice.An efficient auditory filterbank based on the
gammatone function. Technical report, MRC Applied
Psychology Unit, Cambrifge, 1987.
[7] Yi Jiang, Hong Zhou, Zhenming Feng, Performance Analysis
of Ideal Binary Masks in Speech Enhancement

[8] Liheng Zhao, Zengfu Wang, An SVM Based Classification
Approach to Speech Separation
[9] A. S. Bregman. Auditory Scene Analysis. MIT Press,
  Cambridge,MA,1990.
[10] 繆紹綱,2009,數位影像處理,培生教育出版
[11] R. Meddis. Simulation of mechanical to neural transduction
in the auditory receptor. Journal of the Acoustical
Society of America, 79(3):702-711,1986
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top