跳到主要內容

臺灣博碩士論文加值系統

(44.200.169.3) 您好!臺灣時間:2022/12/01 00:21
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:鍾政翰
研究生(外文):Chung, Cheng-Han
論文名稱:使用深度學習混合神經網路於語音增強系統之實現
論文名稱(外文):Implementation of deep-learning hybrid-neural-networks speech enhancement system
指導教授:陸清達陸清達引用關係
指導教授(外文):Lu, Ching-Ta
口試委員:陸清達陳松雄王玲玲
口試委員(外文):Lu, Ching-TaChen, Song-ShyongWang, Ling-Ling
口試日期:2020-06-04
學位類別:碩士
校院名稱:亞洲大學
系所名稱:資訊傳播學系
學門:傳播學門
學類:一般大眾傳播學類
論文種類:學術論文
論文出版年:2020
畢業學年度:108
語文別:中文
論文頁數:66
中文關鍵詞:語音增強雜訊抑制雜訊估測語音偵測深度學習神經網路卷積神經網路
外文關鍵詞:speech enhancementnoise suppressionnoise estimationspeech detectiondeep-learning neural networkconvolutional neural network
相關次數:
  • 被引用被引用:0
  • 點閱點閱:187
  • 評分評分:
  • 下載下載:22
  • 收藏至我的研究室書目清單書目收藏:0
聲音在傳遞的過程中非常容易受到外在環境的干擾,而影響其可理解度;為了得到良好的聲音品質,我們會對聲音信號進行語音增強,抑制雜訊並保留良好的語音。在進行語音增強前,為了能有效地將噪音消除,語音偵測這個前置作業就顯得非常重要,但在分類語音及噪音時,時常會因為參數不知該如何設置而影響到降噪效果,語音及噪音分類的準確性,對於語音增強的效果具有關鍵性的影響。若是高估噪音的頻譜強度,會將人聲過度壓縮而失真;若是低估噪音頻譜強度,將無法有效抑制噪音,產生過多的殘留雜訊,造成增強語音品質不佳。因此本文將透過混合深度學習神經網路來進行語音分類與降噪,將多種語音特徵饋入類神經網路,透過不同的特徵來調整參數的權重,不僅能夠有效地估測語音區間,還能透過參考不同的語音特徵參數而修正分類錯誤的區段。首先使用卷積神經網路(Convolutional Neural Network, CNN)進行語音及非語音的分類,將語音轉換為聲譜圖,並以長度為512個點的音框來檢測聲紋結構,具有諧波頻譜語音聲紋特徵,則視為語音;若沒有諧波聲譜特徵則視為非語音。為了提升CNN的辨識準確度,我們將使用越零率(Zero-Crossing Rate)以及頻譜能量(Spectrum Energy)變化軌跡的特性作為特徵參數,將三種資訊放進深度學習神經網路(Deep-learning Neural Networks, DNN)進行學習,希望透過不同的語音特徵能將CNN分類錯誤的音框進行修正,保留更加完整的語音區段。進行語音增強時,我們在無語音的音框估測雜頻譜強度,並且利用頻譜刪減法(Spectral Subtraction)增強語音。在非語音的區段,我們將高估雜訊頻譜的強度,大幅抑制雜訊信號;在語音區段中,我們將低估雜訊頻譜強度,這樣不僅能有效地移除雜訊,並且在無語音區間也能大幅降低雜訊,而人聲也不會在壓縮雜訊的過程產生過度的語音失真。經過實驗證實:本文提出的方法可以有效地將語音分類,透過混和神經網路能改善單一種網路的雜訊估測結果,大幅提升語音增強的效能。
A speech signal would be corrupted by noise during transmission, causing the speech intelligibility to be decreased. The task of speech enhancement is to remove interference noise, while speech components are well preserved. Noise estimation plays a major role in speech enhancement. If the spectral level of the noise is overestimated, speech components would be excessively distorted. On the contrary, the noise cannot be effectively removed if the spectral level of the noise is underestimated. A great quantity of residual noise exists in the enhanced speech, resulting in poor enhanced speech quality. This thesis presents a speech enhancement method by using a hybrid deep-learning neural network (HDNN). Firstly, the convolutional neural network (CNN) is employed to classify speech segments by using the short-term spectrograms as input features, where the frame size is 512. The target is manually labeled according to harmonic properties. In order to improve the recognition accuracy of the CNN, the characteristics of zero-crossing rate and energy variation trajectories are used as features, and input into the deep-learning neural network for the detection of the speech segment. The noise level is overestimated in the non-speech segment, enabling the noise spectrum to be effectively suppressed in the enhanced speech. Conversely, the noise level is underestimated in the speech segment, less speech distortion is obtained. The experiment results show that the proposed method can accurately classify speech segments and effectively improve the performance of speech enhancement.
摘要 ii
Abstract iv
誌謝 vi
目錄 vii
圖目錄 ix
表目錄 xiv
第一章、緒論 1
1.1 研究動機與目的 1
1.2 文獻探討 2
第二章、深度學習神經網路偵測雜訊頻譜強度之方法 7
2.1 卷積神經網路 7
2.1.1 卷積神經網路之訓練方法 7
2.1.2 卷積層 9
2.1.2 最大池化層 10
2.1.3 全連結層 10
2.1.4 卷積神經網路之訓練結果 11
2.2 深度神經網路 14
2.2.1 深度神經網路之訓練方法 15
2.2.2 越零率 16
2.2.3 頻譜能量 16
2.2.4 深度神經網路之訓練結果 18
第三章 利用混合神經網路之語音增強方法 20
3.1 頻譜刪減演算法 20
3.2 使用混合神經網路估測雜訊 21
3.3 語音增強及合成 22
第四章 實驗結果 25
4.1 雜訊估測軌跡圖 25
4.2 增強語音之波形圖 26
4.3 增強語音之聲譜圖 35
4.4 語音品質之知覺評估 45
4.5 訊雜比 46
4.6 遷移式學習 47
第五章 結論 48
參考文獻 49

圖目錄
圖2.1卷積類神經網路示意圖。 7
圖2.3卷積層示意圖。 9
圖2.4最大池化層示意圖。 10
圖2.5全連結層示意圖。 11
圖2.6 受10 dB雜訊比白雜訊干擾之語音與CNN分類結果圖。 12
圖2.7 受10 dB雜訊比白雜訊干擾之語音與修正後CNN分類結果圖。 13
圖2.8受10 dB雜訊比白雜訊干擾之語音以受汽車噪聲訓練之CNN模型分類結果圖。 14
圖2.9深度神經網路示意圖。 14
圖2.10神經網路訓練流程圖。 15
圖2.11 ZCR變化軌跡圖;(a) 受10 dB雜訊比白雜訊干擾之語音;(b) 受10 dB雜訊比白雜訊干擾之語音之ZCR軌跡圖。 16
圖2.12 頻譜能量變化軌跡圖;(a) 受10 dB雜訊比白雜訊干擾之語音;(b) Een(m,k)軌跡圖。 17
圖2.13 頻譜能量軌跡圖;(a) 受10 dB雜訊比白雜訊干擾之語音;(b) Elog示意圖。 18
圖2.14 DNN輸出結果示意圖;(a)語音波形圖,(b)ZCR輸出結果,(c)頻譜能量輸出結果。 19
圖3.1 語音聲譜圖;(a) 受10 dB雜訊比白雜訊干擾之語音聲譜圖;(b) 使用本文方法之增強語音聲譜圖。 23
圖3.2語音波形圖;(a) 受10 dB雜訊比白雜訊干擾之語音波形圖;(b) 使用本文方法之增強語音波形圖 24
圖4.1 雜訊估測曲線圖;(a)受白雜訊干擾之語音,訊雜比值為10 dB;(b)受白雜訊干擾之語音,訊雜比值為5 dB;(c)受白雜訊干擾之語音,訊雜比值為0 dB。 25
圖4.2 語音波形圖;(a)受白雜訊干擾之語音波形圖(輸入音訊的訊雜比值為10 dB);(b)使用本文方法之增強語音波形圖。 26
圖4.3 語音波形圖;(a)受白雜訊干擾之語音波形圖(輸入音訊的訊雜比值為5 dB);(b)使用本文方法之增強語音波形圖。 27
圖4.4 語音波形圖;(a)受白雜訊干擾之語音波形圖(輸入音訊的訊雜比值為0 dB);(b)使用本文方法之增強語音波形圖。 27
圖4.5 語音波形圖;(a)受直升機駕駛艙干擾之語音波形圖(輸入音訊的訊雜比值為10 dB);(b)使用本文方法之增強語音波形圖。 28
圖4.6 語音波形圖;(a)受直升機駕駛艙干擾之語音波形圖(輸入音訊的訊雜比值為5 dB);(b)使用本文方法之增強語音波形圖。 28
圖4.7 語音波形圖;(a)受直升機駕駛艙干擾之語音波形圖(輸入音訊的訊雜比值為0 dB);(b)使用本文方法之增強語音波形圖。 29
圖4.8 語音波形圖;(a)受工廠干擾之語音波形圖(輸入音訊的訊雜比值為10 dB);(b)使用本文方法之增強語音波形圖。 29
圖4.9 語音波形圖;(a)受工廠干擾之語音波形圖(輸入音訊的訊雜比值為5 dB);(b)使用本文方法之增強語音波形圖。 30
圖4.10 語音波形圖;(a)受工廠干擾之語音波形圖(輸入音訊的訊雜比值為0 dB);(b)使用本文方法之增強語音波形圖。 30
圖4.11 語音波形圖;(a)受F16戰機座艙雜訊干擾之語音波形圖(輸入音訊的訊雜比值為10 dB);(b)使用本文方法之增強語音波形圖。 31
圖4.12 語音波形圖;(a)受F16戰機座艙雜訊干擾之語音波形圖(輸入音訊的訊雜比值為5 dB);(b)使用本文方法之增強語音波形圖。 31
圖4.13 語音波形圖;(a)受F16戰機座艙雜訊干擾之語音波形圖(輸入音訊的訊雜比值為0 dB);(b)使用本文方法之增強語音波形圖。 32
圖4.14 語音波形圖;(a)受汽車干擾之語音波形圖(輸入音訊的訊雜比值為10 dB);(b)使用本文方法之增強語音波形圖。 32
圖4.15 語音波形圖;(a)受汽車干擾之語音波形圖(輸入音訊的訊雜比值為5 dB);(b)使用本文方法之增強語音波形圖。 33
圖4.16 語音波形圖;(a)受汽車干擾之語音波形圖(輸入音訊的訊雜比值為0 dB);(b)使用本文方法之增強語音波形圖。 33
圖4.17 語音波形圖;(a)受人聲干擾之語音波形圖(輸入音訊的訊雜比值為10 dB);(b)使用本文方法之增強語音波形圖。 34
圖4.18 語音波形圖;(a)受汽車干擾之語音波形圖(輸入音訊的訊雜比值為5 dB);(b)使用本文方法之增強語音波形圖。 34
圖4.19 語音波形圖;(a)受汽車干擾之語音波形圖(輸入音訊的訊雜比值為0 dB);(b)使用本文方法之增強語音波形圖。 35
圖4.20 語音聲譜圖;(a)受白雜訊干擾之語音聲譜圖(輸入音訊的訊雜比值為10 dB);(b)使用本文方法之增強語音聲譜圖。 36
圖4.21 語音聲譜圖;(a)受白雜訊干擾之語音聲譜圖(輸入音訊的訊雜比值為5 dB);(b)使用本文方法之增強語音聲譜圖。 36
圖4.22 語音聲譜圖;(a)受白雜訊干擾之語音聲譜圖(輸入音訊的訊雜比值為0 dB);(b)使用本文方法之增強語音聲譜圖。 37
圖4.23 語音聲譜圖;(a)受直升機駕駛艙雜訊干擾之語音聲譜圖(輸入音訊的訊雜比值為10 dB);(b)使用本文方法之增強語音聲譜圖。 37
圖4.24 語音聲譜圖;(a)受直升機駕駛艙雜訊干擾之語音聲譜圖(輸入音訊的訊雜比值為5 dB);(b)使用本文方法之增強語音聲譜圖。 38
圖4.25 語音聲譜圖;(a)受直升機駕駛艙雜訊干擾之語音聲譜圖(輸入音訊的訊雜比值為0 dB);(b)使用本文方法之增強語音聲譜圖。 38
圖4.26 語音聲譜圖;(a)受工廠雜訊干擾之語音聲譜圖(輸入音訊的訊雜比值為10 dB);(b)使用本文方法之增強語音聲譜圖。 39
圖4.27 語音聲譜圖;(a)受工廠雜訊干擾之語音聲譜圖(輸入音訊的訊雜比值為5 dB);(b)使用本文方法之增強語音聲譜圖。 39
圖4.28 語音聲譜圖;(a)受工廠雜訊干擾之語音聲譜圖(輸入音訊的訊雜比值為0 dB);(b)使用本文方法之增強語音聲譜圖。 40
圖4.29 語音聲譜圖;(a)受F16戰機座艙雜訊干擾之語音聲譜圖(輸入音訊的訊雜比值為10 dB);(b)使用本文方法之增強語音聲譜圖。 40
圖4.30 語音聲譜圖;(a)受F16戰機座艙雜訊干擾之語音聲譜圖(輸入音訊的訊雜比值為5 dB);(b)使用本文方法之增強語音聲譜圖。 41
圖4.31 語音聲譜圖;(a)受F16戰機座艙雜訊干擾之語音聲譜圖(輸入音訊的訊雜比值為0 dB);(b)使用本文方法之增強語音聲譜圖。 41
圖4.32 語音聲譜圖;(a)受汽車雜訊干擾之語音聲譜圖(輸入音訊的訊雜比值為10 dB);(b)使用本文方法之增強語音聲譜圖。 42
圖4.33 語音聲譜圖;(a)受汽車雜訊干擾之語音聲譜圖(輸入音訊的訊雜比值為5 dB);(b)使用本文方法之增強語音聲譜圖。 42
圖4.34 語音聲譜圖;(a)受汽車雜訊干擾之語音聲譜圖(輸入音訊的訊雜比值為0 dB);(b)使用本文方法之增強語音聲譜圖。 43
圖4.35 語音聲譜圖;(a)受人聲雜訊干擾之語音聲譜圖(輸入音訊的訊雜比值為10 dB);(b)使用本文方法之增強語音聲譜圖。 43
圖4.36 語音聲譜圖;(a)受人聲雜訊干擾之語音聲譜圖(輸入音訊的訊雜比值為5 dB);(b)使用本文方法之增強語音聲譜圖。 44
圖4.37 語音聲譜圖;(a)受人聲雜訊干擾之語音聲譜圖(輸入音訊的訊雜比值為0 dB);(b)使用本文方法之增強語音聲譜圖。 44

表目錄
表4.1 增強語音之PESQ比較表。 45
表4.2 增強語音之SNR比較表。 46
表4.3 CNN及遷移式學習之辨識率比較表。 47




[1] Grzywalski, T. and Drgas, S., “Using recurrences in time and frequency within U-net architecture for speech enhancement,” IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 6970-6974, 2018.
[2] Huang, Q., Bao, C., Wang, X. and Xiang, Y., “DNN-based speech enhancement using MBE model,” IEEE International Workshop on Acoustic Signal Enhancement, pp. 196-200, 2018.
[3] Yuan, C., Sun C., Zou Q. and Xiong, B., “A novel speech enhancement method based on the constraints of temporal continuity,” IEEE Information Technology Networking Electronic and Automation Control Conference, pp. 532-536, 2019.
[4] Tu, Y. H., Du, J. and Lee, C. H., “DNN training based on classic gain function for single-channel speech enhancement and recognition,” IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 910-914, 2019.
[5] Ouyang, Z., Yu, H., Zhu, W. P. and Champagne, B., “A fully convolutional neural network for complex spectrogram processing in speech enhancement,” IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 5756-5760, 2019.
[6] Cui, Z. and Bao, C., “Linear prediction-based part-defined auto-encoder used for speech enhancement,” IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 6880-6884, 2019.
[7] Dubey, S., Singh, A. K. and Singh, M. K., “Speech enhancement using adaptive mean median deviation and EMD technique,” IEEE International Conference on Signals and Systems, pp. 34-39, 2019.
[8] Elshamy, S. and Fingscheidt, T., “DNN-based cepstral excitation manipulation for speech enhancement,” IEEE ACM Transactions on Audio, Speech and Language Processing, Vol. 27, No. 11, pp. 1803-1814, Nov. 2019.
[9] Michelsanti, D., Tan, Z. H., Sigurdsson, S. and Jensen J., “On training targets and objective functions for deep-learning-based audio-visual speech enhancement,” IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 8077-8081, 2019.
[10] Huang, L. S. and Yung, C. H., “A novel approach to robust speech endpoint detection in car environments,” IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 1751-1754, 2002.
[11] Sun, X., Xia, R., Li, J. and Yan, J., “A deep learning based binaural speech enhancement approach with spatial cues preservation,” IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 5766-5770, 2019.
[12] Shahriyar, S. A., Akhand, M. A. H., Siddique, N. and Shimamura, T., “Speech enhancement using convolutional denoising autoencoder,” IEEE International Conference on Electrical, Computer and Communication Engineering, 2019.
[13] Pandey, A. and Wang, D., “A new framework for CNN-based speech enhancement in the time domain,” IEEE ACM Transactions on Audio, Speech and Language Processing, Vol. 27, No. 7, pp. 1179-1188, July 2019.
[14] Ai, Y., Zhang, J. X., Chen, L. and Ling, Z. H., “DNN-based spectral enhancement for neural waveform generators with low-bit quantization,” IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 7025-7029, 2019.
[15] Qi, J., Du, J., Siniscalchi, S. M. and Lee, C. H., “A theory on deep neural network based vector-to-vector regression with an illustration of its expressive power in speech enhancement,” IEEE ACM Transactions on Audio, Speech, and Language Processing, Vol. 27, No. 12, pp. 1932-1943, Dec. 2019.
[16] Kim, J. and Hahn, M., “Speech enhancement using a two-stage network for an efficient boosting strategy,” IEEE Signal Processing Letters, Vol. 26, No. 5, May 2019.
[17] Tu, M. and Zhang, X., “Speech enhancement based on deep neural networks with skip connections,” IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 5565-5569, 2017.
[18] Tiwari, N. and Pandey, P. C., “Speech enhancement using noise estimation with dynamic quantile tracking,” IEEE ACM Transactions on Audio, Speech, and Language Processing, Vol. 27, No. 12, Dec. 2019.
[19] Xu, Z., Strake, M. and Fingscheidt, T., “Concatenated identical DNN (CI-DNN) to reduce noise-type dependence in DNN-based speech enhancement,” IEEE European Signal Processing Conference, 2019.
[20] Momeni, H. and Abutalebi, H. R., “Speech enhancement using maximum likelihood and maximum a posteriori detectors and estimators,” IEEE Iranian Conference on Electrical Engineering, pp. 1699-1703, 2019.
[21] Wang, H., Ye, Z. and Chen, J., “A speech enhancement system for automotive speech recognition with a hybrid voice activity detection method,” IEEE International Workshop on Acoustic Signal Enhancement, pp. 456-460, 2018.
[22] Hussain, T., Tsao, Y., Wang, H. M., Wang, J. C., Siniscalchi, S. M. and Liao, W. H., “Audio-visual speech enhancement using hierarchical extreme learning machine,” IEEE European Signal Processing Conference, 2019.
[23] Thomas, S., Ganapathy, S., Saon, G. and Soltau, H., “Analyzing convolutional neural networks for speech activity detection in mismatched acoustic conditions,” IEEE International Conference on Acoustic, Speech and Signal Processing, pp. 2519-2523, 2014.
[24] Ouzounov, A., “A robust feature for speech detection,” Cybernetics and Information Technologies, Vol. 4, No. 2, pp. 3-14, 2004.
[25] Ooster, J. and Meyer, B. T., “Improving deep models of speech quality prediction through voice activity detection and entropy-based measures,” IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 636-640, 2019.
[26] John, A. W., Beerends, J. G., Holier, M. P. and Hekstra, A. P., “Perceptual evaluation of speech quality (PESQ)- a new method for speech quality assessment of telephone networks and codecs,” IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings, Vol. 2, pp. 749-752, 2001.

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊