(3.239.192.241) 您好!臺灣時間:2021/03/02 13:37
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

我願授權國圖
: 
twitterline
研究生:林詩凱
研究生(外文):Shih-Kai Lin
論文名稱:使用線性預估倒頻譜參數之語者辨識研究
論文名稱(外文):The Study of Speaker Recognition by using Linear Prediction Derived Cepstral Coefficient
指導教授:陳梧桐陳梧桐引用關係
指導教授(外文):Wu-Ton Chen
學位類別:碩士
校院名稱:中華技術學院
系所名稱:電子工程研究所碩士班
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2008
畢業學年度:96
語文別:中文
論文頁數:64
中文關鍵詞:線性預估倒頻譜參數語者辨識梅爾倒頻譜參數
外文關鍵詞:linear prediction derived cepstral coefficientsSpeaker RecognitionMel-scale Frequency Cepstral Coefficients
相關次數:
  • 被引用被引用:3
  • 點閱點閱:234
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
在語者辨識的研究上,最常被使用的語音特徵參數是梅爾倒頻譜參數[6-10]。求取梅爾倒頻譜參數的方法是將語者語音,經梅爾倒頻譜濾波器排組(MFCC)[13]在頻域上做濾波,取得濾波器輸出之對數能量,再經離散餘弦轉換,取得其語音特徵參數[7-14]。本研究則是先求取線性預估濾波器參數(LPC),再將線性預估參數轉換為線性預估倒頻譜參數(LPCC)[1],求得語音特徵參數。
實驗結果顯示,在相同的條件設定下,使用線性預估濾波器參數導出的倒頻譜參數做為語音特徵參數用來進行語者辨識,與使用傳統梅爾倒頻譜濾波器排組所萃取的特徵參數[8,9,12,19]做語者辨識比較,其語者辨識效能極為相似。
The Mel-scale frequency cepstral coefficients (MFCC) are the popular coefficients to be used in speaker recognition and speech recognition. The procedures to obtain the Mel-scale frequency cepstral coefficients are: framing and filtering the speech data by Mel-scale cepstrum filter bank, having the logarithmic energies of the output of the filters, obtaining the feature parameters of speeches by using Discrete Cosine Transformation (DCT) operation. In this study, the coefficients of the linear prediction error filters are obtained in the first. Then, with the obtained linear prediction coefficients, the linear prediction derived cepstral coefficients (LPCC) are obtained as the feature parameters.
Experimental results show that the performances of speaker recognition are very similar between the method using MFCC and the method using LPCC.
摘要 i
Abstract ii
目 次 iii
表目錄 v
圖目錄 vi
第一章 緒論 1
  第一節 研究動機 1
  第二節 相關研究簡介 2
  第三節 章節概要 3
第二章 基礎理論與技術 4
  第一節 基本說話人辨認流程 4
  第二節 聲音構成要素與求取語音特徵參數前置處理 6
    壹、說話人辨識前的前置處理 6
    貳、快速傅立葉轉換 10
  第三節 語音特徵參數擷取 10
    壹、梅爾頻率刻度三角帶通濾波器排組 10
    貳、線性預估分析 13
  第四節 倒頻譜分析 16
    壹、實數倒頻譜 16
    貳、複數倒頻譜 17
第三章 高斯混合模型建立 18
  第一節 高斯混合模型介紹 18
  第二節 求取高斯混合模型參數的初始值 19
    壹、K-means分群 19
  第三節 最大概似估測法求說話人高斯混合模型參數 21
  第四節 語音辨識法則 23
第四章 實驗步驟與結果 24
  第一節 資料庫簡介 24
  第二節、模型建立步驟流程 25
  第三節、聲紋辨識流程 29
  第四節、語音訊號與模型資料庫比對 30
  第五節、實驗結果 31
第五章 結論 37
  第一節、結論 37
  第二節、未來展望 37
參考文獻 38
附錄一MATLAB呼叫C函數 40
附錄二 程式碼 42
附錄三 以LU分解求反矩陣及行列式值 60
作者簡介 64
[1]王小川,”語音訊號處理”,全華圖書公司出版,民國九十三年。
[2]陳高斌,”應用SOM-PNN混合神經網路在語者識別”,義守大學電機工程研究所碩士論文,民國九十一年。
[3]葉桂弘,”整合語音編碼與辨識之模組化設計及其FPGA實現”,中原大學電子工程研究所碩士論文,民國九二年。
[4]鄭陽銘,”基於線性預估頻譜估計的梅爾倒頻譜參數聲紋辨識演算法”,中華技術學院電子工程研究所碩士論文,民國九十四年。
[5]簡聰海,”數值分析”,全華科技圖書股份有限公司,民國九十三年。
[6]Papoulis, A.; Pillai, S. U., “Probability, Random Variables and Stochastic Process,” Fourth Edition, McGraw Hill, 2002.
[7]Oppenheim, Alan V.; Schafer, Ronald W.; Buck, John R., “Discrete-time Signal Processing,” Second Edition, Prentice Hall International Incorporation, 2000.
[8]Douglas A. Reynolds, “An overview of automatic speaker recognition technology,” Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing, Volume: 4, 2002.
[9]Douglas A. Reynolds, “Large population speaker identification using clean and telephone speech,” IEEE Signal Processing Letters, Vol. 2, Iss.3, Mar. 1995.
[10]Douglas A. Reynolds; Richard C. Rose, “Robust text-independent speaker identification using Gaussian mixture speaker models”, IEEE Trans. on Speech and Audio Processing, vol. 3, no.1, pp.72-83, 1995.

[11]Douglas A. Reynolds, “A Gaussian mixture modeling approach to text-independent speaker identification,” Ph.D. Thesis, Georgia Institute of Technology, Atlanta, GA, 1992.
[12]Daniel J. Mashao; N. Tinyiko Baloyi, “Improvements in the speaker identification rate using feature-sets on a large population database,” Eurospeech, 7th European Conf. on Speech Comm. & Tech., 2001.
[13]Emmanuel C. Ifeachor; Barrie W. Jervis, “Digital Signal Processing,” Prentice Hall, 2002.
[14]Fredric J. Harris, “The Discrete Fourier Transform applied to Time Domain Signal Processing,” Communication Magazine, IEEE, May 1982.
[15]Jeff A. Blimes. “A gentle tutorial of the EM algorithm and its application to parameter estimation for Gaussian mixture and hidden Markov models,” International Computer Science Institute, April 1998.
[16]Jerry M. Mendel, “Lessons in Digital Estimation Theory,” Prentice-Hall, 1987.
[17]Sarikaya, R.; Pellom, B.; Hansen, J.H.L., “Wavelet Packet Transform Features with Application to Speaker Identification,” NORSIG-98 IEEE Norsic Signal Processing Symposium, pp. 81-84, Vigso, Denmark, June 1998.
[18]Sanjit K. Mitra, “Digital Signal Processing-A Computer Based Approach,” International Third Edition, McGraw Hill, 2006.
[19]Torres, H.M.; Rufiner, H.L., “Automatic speaker identification by means of Mel cepstrum, wavelets and wavelet packets,” Proc. on Engineering in Medicine and Biology Society, the 22nd Annual International Conference of IEEE, Vol.2, 2000.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
系統版面圖檔 系統版面圖檔