(3.235.41.241) 您好!臺灣時間:2021/04/21 12:37
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

我願授權國圖
: 
twitterline
研究生:邱郁翔
研究生(外文):Chiu, Yu-Hsiang
論文名稱:適合說話人辨認的強健性語音特徵參數
論文名稱(外文):Robust Features for Speaker Recognition
指導教授:王小川王小川引用關係
指導教授(外文):Prof. Hsiao-Chuan Wang
學位類別:碩士
校院名稱:國立清華大學
系所名稱:電機工程學系
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2003
畢業學年度:91
語文別:英文
論文頁數:56
中文關鍵詞:語者辨認強健性語音特徵參數語音特徵參數說話人辨認語者確認噪音下辨認噪音影響強健性特徵參數
外文關鍵詞:speaker recognitionrobust featuresspeaker verificationrecognition under noisenoise effectrobust features for speaker recognitionrobustnessEnergy Based Filter Bank
相關次數:
  • 被引用被引用:0
  • 點閱點閱:148
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
近年來隨著各種網路應用和服務的普及,不論是資訊取得或是在銀行交易等方面,安全性一直是一個很重要的議題。雖然傳統梅爾倒頻譜參數在訓練語料和測試語料噪音相匹配的情形下有良好的辨識率,但在不匹配的情形會嚴重的下降。而噪音情況在實際應用中卻又是無法避免和預測的。
本論文主要在探討能夠對噪音較不敏感進而能在語者辨認上較為強健的聲學特徵參數。在利用MAT-160和1999 NIST SRE 語料庫的實驗結果可以證實的確可以得到較好的結果。
隨著科技的進步,越來越多的自動化工具出現在人們的生活中。在所有人和機器之間的界面中,聲音是最直接也最方便的。雖然現在利用聲音的辨認系統在實驗室環境中可以得到良好的辨識率,但在實際生活中,因為噪音的出現,會使得辨識率大為下降。雖然有不少調適模型的方法和去除雜訊的方法被提出來,但仍有其限制和條件。本篇論文的重點在提出一個根據語音能量分佈而能對環境噪音較為強健性之聲學語音特徵參數。
在語者辨認中,最為廣泛應用的便是高斯混合模型。也可看成是一個單一狀態的隱藏式馬可夫模型。在辨認之前,所有的語音必先轉成一系列的特徵參數,再和訓練好的語者模型做辨認得到分數。而模型的建立,必須事先利用大量的語音訓練資料做重復的估測和改進來取得由機率和統計特性所得到的合理參數值。
在本篇論文中,系統假構主要可分為聲音處理、訓練以及辨認三個部分。語音訊號經過256點音匡化處理後,先轉到頻域上以獲取特徵參數。利用訓練語料得到的高斯混合模型和測試語料做比對得到分數。最後再由判斷法則來得到結果。
不同的噪音在頻譜上的影響都不相同。但因語音在低頻有較大的能量而高頻能量少,在高頻部分因噪音影響而改變的幅度遠較低頻為大。因此利用統計在頻譜上語音能量的分佈,調整濾波器組中每一頻帶的寬度和位置,使得每一頻帶內的語音能量大致相等。經由這樣的處理,雖然仍會受到噪音影響,但可大幅減低其影響的幅度。
實驗分成語者辨識和語者驗證兩部分。噪音的語料庫為NOISEX-92。語者驗證利用MAT-160的語料第一到第四部分做為訓練語料,第五部分為測試語料。不同噪訊比的高斯噪音、工廠噪音、講話噪音以及F16噪音以人工的方式加到測試語料中。結果顯示的確可提高在不匹配條件下的辨認率。而語者驗證的部分是利用1999 NIST SRE的語料庫,把不同噪訊比的高斯噪音加到測試語料中。結果顯示在不匹配的條件下確實優於傳統的梅爾刻度濾波器。
本論文提出了一個頻帶調整的方法,利用語音的能量分佈來減低噪音的影響。由於在實際情況中我們無法預測會有多大或何種噪音出現在語因訊號,這麼做可以有效降低噪音對特徵參數的影響。而由實驗中也可以證實的確可行。

In recent years, speaker recognition has been an important task as the security issues become more and more important in many kinds of applications, such as information retrieval, banking transaction...etc. Many MFCC-based speaker recognizers work well when training and testing speech data are under matched conditions. If testing data in real situation where noise is hardly evitable, the performance degrades substantially.
In this thesis, we try to explore other acoustic features which can be less sensitive to the noise and then can be more robust in speaker recognition. Experiments on MAT-160 and 1999 NIST SRE database with different level noise demonstrate the improvement as comparing with the traditional MFCC features.

Table of Contents
Acknowledgement i
Abstract ii
List of Figures v
List of Tables viii
1 Introduction 1
2 Speaker Recognition 4
2.1 Preprocessing 4
2.2 Feature Extraction 6
2.3 Gaussian Mixture Model 12
2.4 The Estimation-Maximization (EM) Algorithm 14
2.5 Line-Buzo-Gray (LBG) Binary Splitting Algorithm 15
2.6 Speaker Recognition 16
3 Robust Acoustic Features 21
3.1 Noise Effect 21
3.2 Energy Based Filter Bank 23
3.3 Spectrum from All Pole Model 28
3.4 Design the shape of BPF based on F-ratio 31
4 Experiments 33
4.1 Speaker Identification 33
4.2 Speaker Verification 48
5 Conclusion and Future Work 54

Reference:
[1] Umit Yapanel, John H.L. Hansen, Ruhi Sarikaya, and, Bryan
Pellom ”Robust Digit Recognition in Noise: An Evaluation
Using the AURORA Corpus”. Eurospeech2001.
[2] Qin Jin, Tanja Schultz, Alex Waibel “SPEAKER
IDENTIFICATION USING MULTILINGUAL PHONE STRINGS”
ICASLP2002, p145~148,2002
[3] France Mihelic, Jerneja Gros, Elmar Noth, Simon Dobrisek
and Janez Zibert ”Recognition of Select Prosodic Events in
Slovenian Speech”
[4] George Doddington “Speaker Recognition based on Idiolectal
Differences between Speakers” National Institute of
Standards and Technology, USA
[5] John R. Deller, Jr., John H. L. Hansen, John G. Proakis, ”
Discrete-Time Processing of Speech Signals” IEEE PRESS.
1987
[6] Thomas F. Quatieri “Discrete-Time Speech Signal Processing
Principles And Practice” Prentice Hall PTR. , 2000
[7] Douglas O’Shaughnessy “Speech Communications Human and
Machine” second edition, IEEE PRESS 2000
[8] T.K. Moon, ”The Expectation Maximization Algorithm”, IEEE
Signal Processing Magazine, pp47-59, Nov. 1996
[9] Y. Linde, A. Buzo, R.M. Gray, “An Algorithm for the Vector
Quantizer Design”, IEEE Transaction on Communication, Vol.
28, no. 4, pp. 84-59, Jan. 1980
[10] H. Gish, N. Schmidt, R. Schwartz, “Text-independent
speaker identification”, IEEE Signal Processing Magazine,
pp18-21, Oct.1994
[11] Henry Stark, John W. Woods, “Probability and Random
Process with Application to Signal Processing”, Third
Edition, 2002 Prentice-Hall
[12] Juan M. Huerta and Richard M. Stern, “Speech Recognition
from GSM CODEC Parameters”, Department of Electrical and
Computer Engineering, School of Computer Science, Carnegie
Mellon University, USA, 1998
[13] Martin, A., Doddington, G.., Kamm, T.,Ordowski, M., and
Przybocki, M., The DET curve in assessment of detection
task performance. In Proceedings of the European Conference
on Speech Communication and Technology, 1997, pp.1895-1898.
[14] Martin, A. and Przybocki, M., The NIST 1999 speaker
recognition evaluation -an overview, Digital Signal
process. 10 (2000), 1-18.
[15] Martin, A. and Przybocki, M., The 1999 speaker recognition
evaluation, using summed two-channel telephone data for
speaker detection and speaker tracking. In Proceedings of
the European Conference on Speech Communication and
Technology,1999, pp.2215-2218.
[16] Kuo-Hwei You, Hsiao-Chuan Wang “Robust features derived
from temporal trajectory filtering for speech recognition
under the corruption of additive and convolution noises”
Acoustics, Speech, and Signal Processing, 1998. ICASSP '98.
Proceedings of the 1998 IEEE International Conference on ,
Volume: 1 , 12-15 May 1998 Page(s): 577 -580 vol.1

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊
 
系統版面圖檔 系統版面圖檔