(3.239.33.139) 您好!臺灣時間:2021/03/03 09:45
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

我願授權國圖
: 
twitterline
研究生:林育生
研究生(外文):Yu-Sheng Lin
論文名稱:以隱藏式馬可夫模型應用於語音音高軌跡抽取之研究
論文名稱(外文):Research of Hidden Markov Model applied on extract speech pitch contour
指導教授:胡懷祖胡懷祖引用關係
指導教授(外文):Hwai-Tsu Hu
學位類別:碩士
校院名稱:國立宜蘭大學
系所名稱:電子工程學系碩士班
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2008
畢業學年度:96
語文別:中文
論文頁數:66
中文關鍵詞:高斯混合模型隱藏式馬可夫模型Viterbi演算法
外文關鍵詞:GMMHMMViterbi
相關次數:
  • 被引用被引用:1
  • 點閱點閱:219
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:1
  • 收藏至我的研究室書目清單書目收藏:0
在本論文中,我們運用語音基本的特性,提出一套藉由高斯混合模型(Gaussian mixture model, GMM)和隱藏式馬可夫模型(hidden Markov model, HMM)的訓練來求取音高軌跡(pitch contour)的方法。我們的做法是將語音特徵參數取出,對這些參數視為音框的有聲狀態(voiced)及無聲狀態(unvoiced)的區別,然後藉由高斯混合模型及隱藏式馬可夫模型的訓練以及Viterbi演算法的追蹤,辨識出各個音框的狀態為何。經由我們所提出的架構來辨識音框的狀態與人工判讀狀態方式相比較之下,可以達到1%以下的錯誤率。
確認了音框的狀態之後,將狀態結果結合語音的特徵參數,利用Viterbi演算法搜尋並且找出語音的音高軌跡,我們將得到的音高軌跡曲線與人工判讀的方式所得到的音高軌跡曲線相比較,在相似度上可達98%的正確率。
In this thesis, a scheme exploring the GMM and HMM techniques is proposed to carry out pitch detection. Several acoustical features extracted from speech signals are used for training the GMM and HMM, which are then adopted by the Viterbi algorithm to distinguish the voicing status (namely voiced or unvoiced) of each frame. While comparing the output of the proposed scheme with the manually determined results, we get an error rate below 1%.
Subsequent to the above processes, we proceed to identify the pitch contour using the Viterbi algorithm subject to the voicing conditions and acoustic features of speech frames. The correct rate can reach as high as 98% when we compare the pitch contour derived through the proposed scheme with that obtained by manual determination.
摘要 I
ABSTRACT II
目錄 III
圖表目錄 VII
第一章 序論 1
1.1 研究動機與目的 1
1.2 研究方向 1
1.3 章節概要 2
第二章 語音特徵參數擷取 4
2.1 語音能量偵測(ENERGY) 4
2.2 越零率(ZERO CROSSING RATE, ZCR) 6
2.3 加權式自相關函數(WEIGHTED AUTOCORRELATION FUNCTION ) 7
2.4 平方根均數(ROOT MEAN SQUARE): 10
2.5 頻譜熵值(SPECTRAL ENTROPY): 12
第三章 訓練模型的建立及辨識方法 14
3.1 高斯混合模型(GAUSSIAN MIXTURE MODEL, GMM) 14
3.2 正交化高斯混合模型(ORTHOGONAL GMM, OGMM) 15
3.3 連續型隱藏式馬可夫統計機率模型(CONTINUOUS HMM) 19
3.4 模型訓練(EM演算法) 21
3.5 VITERBI演算法 22
第四章 語音音框狀態辨識流程及架構 25
4.1 語音資料來源 25
4.2 語音前置處理 25
4.3 特徵參數處理 27
4.4 訓練樣本建立 28
4.5 訓練樣本U/V狀態建立 28
4.6 語音訓練樣本參數建立流程 28
4.7 音框U/V軌跡追蹤流程 33
第五章 音高軌跡搜尋與決定 35
5.1 音高候選值之決定 35
5.2 音高軌跡搜尋與決定 35
第六章 驗證與實驗結果 42
6.1 高斯混合模型混合數目實驗 42
6.2 GMM以及OGMM辨識率實驗 46
第七章 結論與未來展望 49
7.1 結論 49
7.2 未來展望 49
參考文獻 51
[1]N. R. and L. M., “A zero-crossing consistency method for formant tracking of voiced speech in high noise levels”, IEEE Trans.,Vol 33, Apr 1985,PP.349 – 355
[2]H. T. Hu, ”Robust pitch estimation based on modified comb filtering approach”, IEE Electronics Letters Vol. 43, Dec. 6 2007 pp.1471-1472
[3]S. T. and K. H., “Weighted autocorrelation for pitch extraction of noisy speec”, IEEE Trans., Vol. 9,Oct. 2001, pp.727-730
[4]S. S. A., H. A., and L. K. F., ”Pitch detection of speech signals using the cross-correlation technique”, TENCON 2000. Proceedings, Vol. 1, Sept. 2000, PP.283 - 286
[5]J. L. Shen, J. W. Hung, and L. S. Lee, ”Robust entropy-based endpoint detection for speech recognition in noisy environments”, ICSP , 1998,pp. 232-235
[6]C. Y. L, ”A Study on Automatic Phonetic Segmentation for Mandarin Speech/Singing Voice Synthesis”, 國立清華大學資訊工程學系博士論文,2005
[7]D. A. Reynolds and R. C. Rose, ”Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models”, IEEE Tran., January 1995,On Speech and Audio Processing, 3(1): 72-83
[8]L. L and J. He, ”On the use of orthogonal GMM in speaker recognition”, IEEE International Conference, Vol 2, March 1999 Page(s):845 - 848 vol.2
[9]C. C. Wu, ”The Research of Speaker Recognition System”, 國立中央大學電機工程研究所碩士論文,2002。
[10]B. L. Chen, ”Hidden Markov Models for Speech Recognition”, 2004
[11]David S., Ferrer M. A., Travieso C. M., and Alonso J. B., ”gpdsHMM: A Hidden Markov Model Toolbox in the Matlab Environment”, 2004, CSIMTA, Complex Systems Intelligence and Modern Technological Applications, pp.476-479
[12]Yu. K., Mason J., and Oglesby. J., ”Speaker recognition using hidden Markov models, dynamic time warping and vector quantization”, IEEE Proceedings, Vol.142, Oct. 1995, pp.313 – 318
[13]Valery A. Petrushin, ”Hidden Markov Models: Fundamentals and Applications”, Center for Strategic Technology Research Accenture 3773 Willow Rd.Northbrook, Illinois 60062, USA
[14]W. C. Chang, ”Model Adaptation Based Speaker Recognition Systems”, 國立中央大學電機工程研究所碩士論文, 2004
[15]S. S. Lin, ”Viterbi Beam Search Optimization and Multilingual Speech Recognition”, 國立清華大學資訊工程學系研究所碩士論文, 2001
[16]I. J. Weng, ”A Statistical Pitch Detection Algorithm”, 國立交通大學電信工程所碩士論文, 2001
[17]S. Chen and H. Leung, ”Artificial bandwidth extension of telephony speech by data hiding”, IEEE International Symposium, Vol. 4, May 2005, PP.3151 - 3154
[18]Peter Jax and Peter Vary, ”On artificial bandwidth extension of telephone speech”, Institute of communication Systems and Data Processing(IND), Aachen University(RWTH), September 2002
[19]Thomas F. Quatieri, ”Discrete-Time Speech Signal P Processing”, person Education Taiwan Ltd, 2005,
[20]R. J. Schilling and S. L. Harris, ”Fundamentals of Digital Signal Processing Using MATLAB”, 全華出版社, 2006年4月
[21]王小川, ”語音訊號處理(修訂版)”, 全華出版社, 2007年4月
[22]具再熙, ”數位訊號處理使用Matlab”, 儒林圖書有限公司, 3月2007
[23]洪維恩, ”Matlab 7程式設計”, 旗標出版股份有限公司, 3月2006
電子全文 電子全文(本篇電子全文限研究生所屬學校校內系統及IP範圍內開放)
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊
 
系統版面圖檔 系統版面圖檔