(3.230.143.40) 您好!臺灣時間:2021/04/19 04:00
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

我願授權國圖
: 
twitterline
研究生:張民昌
研究生(外文):Chang Min-Chang
論文名稱:語音活動檢測及其在語音編碼上的應用
論文名稱(外文):Voice Activity Detection and Its Application to Speech Coding
指導教授:簡福榮簡福榮引用關係
指導教授(外文):Jean Fu-Rong
學位類別:碩士
校院名稱:國立臺北科技大學
系所名稱:電機工程系碩士班
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2003
畢業學年度:91
語文別:中文
論文頁數:83
中文關鍵詞:語音活動檢測最陡坡降演算法
外文關鍵詞:GSM HRG.729VADSteepest descent algorithm
相關次數:
  • 被引用被引用:0
  • 點閱點閱:220
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
在語音的編碼過程中,除了考慮其編碼效率外,實際運用在編碼系統上尚需加入語音活動檢測(Voice Activity Detection)的前置處理器,以判斷目前的音訊是否為真正語音,若是,則採用編碼系統進一步編碼;若否,則採用簡單的雜訊編碼模擬背景雜訊,這樣不但可以節省傳輸頻寬,更可降低編碼所需要計算量。因此,語音活動檢測在語音編碼上便佔有重要的地位,如何更精準的判斷有聲或無聲狀態,是本論文主要目的。
本研究初步判斷音框為有聲(Voiced)或無聲(Unvoiced)後,再進一步利用頻譜失真(Spectrum Distortion)、越零率(Zero-crossing Rate)、聲道截面積參數和(The Sum of Vocal Tract Area Parameters )、以及音高週期(Pitch)等參數進行第二步的判斷,最後再結合適應性技術,建立一個VAD模型,使其語音活動檢測的判斷能更加精準。
本論文主要以2003年三月份的”大家說英語”教材作為訊練及測試用語料,與GSM和G.729的語音活動檢測方式做比較,其評估後的效果在訓練語料部份整體效果皆較GSM和G.729好;而測試語料部分則僅較GSM好;另外本論文也做了主觀聽覺測試的評估。

Voice activity detector is usually to be the preprocessor of a speech encoder in order to determine whether the incoming signal is a speech segment or not. If it is, a normal speech coder is used to encode the speech segment. If it is not, fewer parameters called silence insertion descriptor (SID) are needed to transmit to the decoder then a comfort noise generator (CNG) is exploited to mimic the background noise. According to the statistics about people’s talking, above 40 % even as higher as 60 % time slice is silence between talk spurts, so lots of bit rates and bandwidth can be saved.
The subject of this thesis is to develop an efficient voice activity detection (VAD) algorithm. There are five speech parameters used to classify the input signal into voiced segments (speech like segments) and unvoiced segments (non-speech like segments) including the segmental energy, the spectral distortion, the zero crossing rate, the fundamental period(pitch), and the sum of the vocal areas. The determination of the proposed VAD model’s parameters and thresholds is based on the steepest descent algorithm. About two-thirds of the teaching material of “Let’s talk in English” in March, 2003 are used as the training database, and the rest is used as the testing database. Finally, the performance of the objective error rate and subjective listening test is studied and compared with the VAD methods of the famous half-rate GSM and G.729 speech coders.

中文摘要 …...i
英文摘要 …..ii
誌謝 ….iv
目次 …...v
表目錄 ...viii
圖目錄 …...x
第一章 緒論……………………………………………………………………1
1.1 簡介………………………………………………………………….1
1.2 過去的研究………………………………………………………….1
1.3 研究動機…………………………………………………………….2
第二章 GSM HR語音編碼器…………………………………………………3
2.1 簡介………………………………………………………………….3
2.2 GSM半率編碼器的語音活動檢測判斷方式……………………...5
2.2.1 適應性濾波器與能量計算(Adaptive filter and energy
computation)…………………………………………………..5
2.2.2 自相關函式的平均值計算(ACF averaging)…………………6
2.2.3 預估值的計算(Predictor values computation)……………….6
2.2.4 頻譜的比較(Spectral comparison)……………………………7
2.2.5 週期的偵測(Periodicity detection)…………………………...8
2.2.6 音調的偵測(Tone detection)………………………………….8
2.2.7 門限值的適應性更新(Threshold adaptation)………………..9
2.2.8 VAD的偵測(VAD detection)………………………………..10
2.2.9 VAD的殘餘增加(VAD hangover addition)…………………12
2.3 GSM半率編碼器的向量和激發線性預測編碼………………….13
2.3.1 線性預估分析(LPC)與內插(Interpolation)係數…………...13
2.3.2 聽覺加權濾波器(Perceptual Weighting Filter)……………..15
2.3.3 長時距預估(Long Term Prediction)………………………...15
2.3.4 固定碼本的搜尋(Codebook Search)………………………..15
2.4 GSM半率編碼器的向量和激發線性預估解碼………………….16
2.5 GSM半率編碼器的非活動語音編/解碼器………………………18
第三章 G.729語音編碼器…………………………………………………….20
3.1 簡介………………………………………………………………...20
3.2 G.729的語音活動檢測判斷方式………………………………….21
3.2.1 有聲/無聲(Voiced/Unvoiced)狀態的初步決定方式……….21
3.2.2 有聲/無聲的平順決策(Voiced/Unvoiced Decision
Smoothing)………………………………………………….25
3.2.3 動態更新四種參數的平均值……………………………….27
3.3 G.729的共軛架構代數碼本激發線性預估編碼器..........................28
3.3.1 前置處理器(Pre-Processing)………………………………..28
3.3.2 線性預估分析(Linear Prediction Analysis)與
量化(Quantization)…………………………………………..29
3.3.3 聽覺加權濾波器(Perceptual Weighting Filter)……………..30
3.3.4 開迴路基頻分析(Open-loop Pitch Analysis)……………….30
3.3.5 適應性碼本搜尋(Adaptive-Codebook Search)……………..31
3.3.6 固定性碼本搜尋(Fixed-Codebook Search)…………………31
3.4 G.729的共軛架構代數碼本激發線性預估解碼器………………...32
3.5 G.729的非活動語音編/解碼器……………………………………32
3.5.1 非連續傳輸(DTX)演算法概述……………………………...33
3.5.2 非活動語音編碼器對無聲嵌入敘述音框的計算與量化….33
第四章 基於最陡坡降演算法之參數加權VAD方法……………………….35
4.1 簡介………………………………………………………………...35
4.2 語料的來源………………………………………………………...36
4.3 VAD所使用的參數及選取各參數的門限值…………………….38
4.3.1 能量參數……………………………………………………..38
4.3.2 越零率參數…………………………………………………..41
4.3.3 聲道截面積參數……………………………………………..43
4.3.4 音高週期參數………………………………………………..45
4.3.5 頻譜失真參數………………………………………………..49
4.3.6 VAD平順(Smoothing)用的參數……………………………51
4.4 VAD判斷參數的權重分數選取…………………………………..52
4.4.1 最陡坡降演算法(Steepest descent algorithm)……………...52
4.4.2 利用最陡坡降演算法搜尋VAD判斷所用的各參數權重分數
值……………………………………………………………..54
4.5 基於最陡坡降演算法之參數加權VAD方法判斷的完整流程…56
第五章 實驗結果……………………………………………………………...60
5.1 評估方式…………………………………………………………...60
5.2 數據分析…………………………………………………………...61
5.2.1 訓練語料的評估結果………………………………………..61
5.2.2 測試語料的評估結果………………………………………..68
5.3 修正VAD判斷方式………………………………………………....73
5.4 修正後VAD判斷的數據結果………………………………………78
第六章 結論與未來展望……...……………………………………………...82
參考文獻 ….83

[1] Antti Pasanen, “Voice Activity Detection in Noise Robust Speech Recognition,” Tampere University of Technology, Master Thesis, April. 2002.
[2] European Digital Cellular Telecommunications System ; Half rate speech; Half rate speech processing functions, ETSI GSM 06.02 (ETS 300-581-1), 1995.
[3] European Digital Cellular Telecommunications System ; Half rate speech; Voice Activity Detection (VAD), ETSI GSM 06.42 (ETS 300-581-6), 1995.
[4] European Digital Cellular Telecommunications System ; Half rate speech; Half rate speech transcoding, ETSI GSM 06.20 (ETS 300-581-2), 1995.
[5] European Digital Cellular Telecommunications System ; Half rate speech; Comfort noise aspects for the half rate speech traffic channel, ETSI GSM 06.22 (ETS 300-581-4), 1995.
[6] General Aspects of Digital Transmission System;Coding of Speech at 8kbits/s Using Conjugate-Structure Algeberaic-Code-Excited Linear-Prediction (CS-ACELP),” ITU-T G.729 Annex B, 1996.
[7] A. Benyassine, E. Shlomot, H. Y. Su, D. Massaloux, C. Lamblin, and J.P. Petit, “ITU recommendation G.729 annex B: A silence compression scheme for use with G.729 optimized for V.70 digital simultaneous voice and data applications,” IEEE Commun. Mag., vol. 35, pp. 64—73, Sept. 1997.
[8] ITU-T G.729, “Coding of Speech at 8kbit/s Using CS-ACELP,” Mar.,1996.
[9] ISO CD 11172-3,Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to about 1.5mbit/s,Part 3:Audio.
[10] 林清池,電腦語音處理與線性預測編碼,台灣:第3波電腦叢書。
[11] R.Tucker, “Voice activity detection using a periodicity measure,” Communications, Speech and Vision, IEE Proceedings I , Volume: 139 Issue: 4 , Aug. 1992, pp.377 -380.
[12] D. K. Freeman, Cosier, G., Southcott, C. B., and Boyd, I, “The voice activity detector for the Pan-European digital cellular mobile telephone service,“ in IEEE Proc. Int. Conf. Acoustic, Speech and Signal Processing, Glasgow, UK, May 1989, pp. 369—372.
[13] F. Beritelli, S. Casale, and A. Cavallaro, “A Robust Voice Activity Detector for Wireless Communications Using Soft Computing,” IEEE Journal on , Volume: 16 Issue: 9 , Dec. 1998.
[14] J.Graybeal, W.Pooch,Simulation:Principles and Methods,台灣:開發圖書有限公司,民國六十九年。
[15] E.Nemer, R.Goubran, S.Mahmoud, “Robust Voice Activity Detection Using Higher-Order Statistics in the LPC Residual Domain,” IEEE Transactions on , Volume: 9 Issue: 3 , March 2001.
[16] European Digital Cellular Telecommunications System(Phase 2); Full rate speech; Transcoding, ETSI GSM 06.10 (ETS 300-580-2), 1995.

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關論文
 
1. 3. 李美杏(1996),「股市之價量互動與因果尋跡」,統計與資訊評論,第二期,第133-152頁。
2. 5. 阮瑲財、莊淑媜、陳一如、郭迺鋒(2001),「以多元迴歸方式探討影響臺灣電子類股報酬率之因素」,產業金融季刊,第一一三期,頁85-99。
3. 8. 林楚雄、劉維琪、吳欽杉(1999),「台灣股票店頭市場股價報酬波動行為的研究」,企業管理學報,第四十四期,頁165-192。
4. 9. 林楚雄、劉維琪、吳欽杉(2000),「台灣股票店頭市場股價報酬與波動之分析」,亞太管理評論,第五卷,第四期,頁435-449。
5. 10. 邱文松(1999),「貨幣政策影響利率及股票市場之實證研究--以電子類股為例」,僑光學報,第十七卷,頁189-219。
6. 13. 許和鈞、劉永欽(1996),「台灣地區股票市場價量之線性與非線性Granger因果關係之研究」,證券市場發展季刋,第八卷,第四期,頁22-49
7. 14. 許溪南、黃文芳(1997),「台灣股市價量線性與非線性關係之研究」,管理學報,第十四卷,第二期,第.177-195頁。
8. 15. 陳世傑、莊政儒、李文雄(2001),「政黨輪替前後臺灣匯率與外資、電子類股指數動態之關係」,德明學報,第十七卷,頁43-57。
9. 20. 劉祥熹、李崇主(1996),「臺灣地區外資、匯率與股價關聯性之研究---VAR與VECM之應用」,證券市場發展,第十二卷,第三期,頁1-41。
10. 21. 蔡莉芸(2002),「電子類股、金融類股與臺股指數之相關性」,企銀報導,第二十卷,第十期,頁9-18。
 
系統版面圖檔 系統版面圖檔