跳到主要內容

臺灣博碩士論文加值系統

(3.235.227.117) 您好!臺灣時間:2021/08/01 23:24
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:邢凱婷
研究生(外文):Kai-Ting Hsing
論文名稱:基於隱藏式條件隨機域語者模型之語者識別演算法
論文名稱(外文):Text-Independent Speaker Identification using Hidden Conditional Random Field Speaker Models
指導教授:洪維廷洪維廷引用關係
指導教授(外文):Wei-Tyng Hong
學位類別:碩士
校院名稱:元智大學
系所名稱:通訊工程學系
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2009
畢業學年度:97
語文別:中文
論文頁數:59
中文關鍵詞:語者識別馬可夫模型隱藏式條件隨機域
外文關鍵詞:HMMHCRFspeaker idendification
相關次數:
  • 被引用被引用:0
  • 點閱點閱:228
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
本論文提出以隱藏式條件隨機域(Hidden Conditional Random Fields,簡稱HCRF)來建立語者模型,實驗證明有相當好的辨識力。接著,再以鑑別式訓練法則分別訓練高斯混合模型(Gaussian Mixture Model,簡稱GMM)、隱藏式馬可夫模型(Hidden Markov Model,簡稱HMM)及HCRF模型,並以實驗驗證此三個模型在不同訓練語句之下之語者辨認能力,以及其抗雜訊訊能力。
在語者辨認搜尋方面,本論文提出適用於語者辨認之一階動態演算法,結合鑑別式訓練法訓練語者模型,實驗證明,HCRF對GMM的錯誤改善率最高為50.2%,而HCRF對HMM的錯誤改善率為15%。
In the thesis we present and verify the framework to build speaker identification system with hidden conditional random field (HCRF)-based models. We use discriminative training criterion to train Gaussian Mixture Model(GMM)-based、Hidden Markov Model(HMM)-based and HCRF-based speaker models and our experimental results with a 200-speaker database show the superiorities of HCRF-based approach for different training/testing length and noisy conditions.
中文摘要 I
英文摘要 II
誌謝 III
目錄 IV
圖目錄 VII
表目錄 IX
第一章 序論 1
1.1 研究動機與文獻回顧 1
1.2 研究概述 4
1.3 論文大綱 4
第二章 基本語者模型介紹 5
2.1 高斯混合模型 5
2.2 語者模型建立 16
2.2.1 向量量化 18
2.2.2 EM演算法 19
2.2.3 GMM模型參數預估 19
2.3 隱藏式馬可夫模型 21
2.4 條件隨機域 23
第三章 隱藏式條件隨機域之語者辨識系統 27
3.1 語者模型之改善 28
3.2 最小分類錯誤演算法 29
3.3 最小分類錯誤演算法之語者模型實作方式 32
3.4 語者辨識 34
第四章 實驗分析 39
4.1 特徵參數求取 39
4.2 語音資料庫 39
4.2.1 訓練語料 40
4.2.2 測試語料 40
4.3 訓練流程 41
4.4 實驗分析 42
4.4.1 實驗一:比較GMM、HMM、HCRF使用最小訓練法的改善。 43
4.4.2實驗二:比較3種模型下,測試語料長短對語者系統的影響 44
4.4.3實驗三:含有靜音段的測試 46
4.4.4 實驗四:含有雜訊的測試 46
第五章 結論與未來展望 46
5.1 結論 46
5.2 未來展望 46
參考文獻 46
附錄 A 46
附錄 B 46
[1]Del Alamo. C. M, Caminero Gil, F. J., dela Torre Munilla, C. Hernandez Gomez, L., “DISCRIMINATIVE TRAINING OF GMM FOR SPEAKER IDEDTIFIACTON,” ICASSP, vol. 1, pp. 89-92, 1996.
[2]張文杰, “模型調適之語者辨識系統,” 國立中央大學電機工程研究所碩士論文, 民國94年.
[3]李信廷, “改善最小錯誤鑑別式之語者辨認方法,” 國立中央大學電機工程研究所碩士論文, 民國95年.
[4]Reynolds, Douglas A., Quatieri, Thomas F., Dunn, Robert B., “Speaker Verification Using Adapted Gaussian Mixture Models,” Digital Signal Processing, pp. 19-41, 2000.
[5]范世明, “高斯混合模型在語者辨識與國語語音辨認之應用,” 國立交通大學電信工程系碩士論文, 民國90年.
[6]Finan, R. A, Sapeluk, A. T., Damper, R. I., “Comparison of Multilayer and Radial Basis Function Neural Networks for Text-Dependent Speaker Recognition,” Neural Networks, IEEE International Conference, vol. 4, pp. 1992-1997, 1996.
[7]Mak. M. W, Allen, W. G., Sexton, G. C., “SPEAKER IDENTIFICATION USING RADIAL BASIS FUNCTIONS,” Artificial Neural Networks., Third International Conference , pp.138-142, 1993.
[8]Douglas A. Reynolds, “ROBUST TEXT-IDEPENDENT SPEAKER IDENTIFICATION USING GAUSSIANMIXTURE SPEAKER MODELS,” TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, vol. 3, pp. 72-83, 1995.
[9]S.-B. Wang A. Quatton, “Hidden Conditional Random Fields for Gesture Recognition,” CVPR, vol. 2, pp. 1521-1527, 2006.
[10]游鈞顯, “應用於語音辨認之隱藏式條件隨機域聲學模型研究,” 私立元智 大學通訊工程學系, 民國97年.
[11]Milind Mahajan, Asela Gunawardana, Alex Acero, “TRANINING ALGORITHMS FOR HIDDEN CONDITIONAL RANDOM FIELDS,” ICASSP , vol. 1, pp. 14-19, 2006.
[12]J Lafferty, A McCallum, F Pereira, “Conditional Random Fields Probabilistic Models for Segmenting and Labeling Sequence Data,” ICML, pp. 282-289, 2001.
[13]A. Gunawardana, M. Mahajan, A. Acero, J. C. Platt, “Hidden Conditional Random Fields for Phone Classification,” ISCA, pp. 1117-1120, 2005.
[14]Moon, T. K., “The Expectation Maximization Algorithm,” Signal Processing Magazine, IEEE, vol. 13, pp. 47-60, 1996.
[15]Morris, A. C., Dalei Wu Koreman. J., “MLP TRAINED TO SEPARATE PROBLEM SPEAKERS PROVIDES IMPROVED FEATURES FOR SPEAKER IDENTIFICATION,” CCST, pp. 325-328, 2005.
[16]Sharma, A., Singh, S.P., Kumar, V., “Text-independent speaker identification using backpropagation MLP network classifier for a closed set of speaker,” ISSPIT, pp. 665.-669, 2005.
[17]Rong Zheng, Shuwu Zhang , Bo Xu, “TEXT-IDEPENDENT SPEAKER IDENTIFICATION USING GMM-UBM AND FRAME LEVEL LIKELIHOOD NORMALIZATION,” CHINSL, pp. 289-292, 2004.
[18]B.-H. Juang , S. Katagirl, “Discriminative Learning For Minimum Error Classification,” IEEE Trans. Signal Processing, vol. 40, pp. 3043-3054, 1992.
[19]Siohan, A. E. Rosenberg , S. Katagirl, “SPEAKER IDENTIFICATION USING MINIMUM CLASSIFICATION ERROR TRAINING,” ICASSP, vol. 1, pp. 109–112, 1998.
[20]H. C. Wang and F. Seide and C. Y. Tseng and L. S. Lee, “MAT2000 – Design, Collection and Validation of a Mandarin 2000-speaker Telephone Speech Database,” ICSLP, pp. 460-463, Beijing, China, 2000.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top