跳到主要內容

臺灣博碩士論文加值系統

(18.97.14.91) 您好!臺灣時間:2025/01/21 09:58
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:王龍政
研究生(外文):Long-Cheng Wang
論文名稱:多時段不特定語句語者辨識用電視影音資料庫之設計研究
論文名稱(外文):A Design of Multi-Session, Text Independent, TV-Recorded Audio-Video Database for Speaker Recognition
指導教授:陳志堅陳志堅引用關係
指導教授(外文):Chih-Chien Chen
學位類別:碩士
校院名稱:國立中山大學
系所名稱:電機工程學系研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2006
畢業學年度:94
語文別:中文
論文頁數:51
中文關鍵詞:梅爾頻率倒頻譜係數語者辨識不特定語句向量量化高斯混合模型
外文關鍵詞:Speaker recognitionText independentVector quantizationGaussian mixture modelMel-frequency cepstrum coefficients
相關次數:
  • 被引用被引用:2
  • 點閱點閱:128
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:1
在本論文中,我們建立了一個四個時段的電視影音資料庫。針對該資料庫,我們應用梅爾倒頻譜係數與高斯混合模型,來探討同時段與多時段、不特定語句、大量語者的辨識問題。文中首先針對同時段的語者辨識,驗證系統的可靠度,實驗證明在3000位電視語者的情況下,辨識率可達九成。但在不同時段的辨識問題上,我們以800位電視語者來作探討,正確率卻只有六成七。由於不同時段的語者資料,存在著許多錄音環境、語者心境與其他未知的特性變化,使得系統辨識能力大幅下降,這是我們在未來的研究中極需克服的問題。本論文的主要貢獻,在針對這個複雜問題,提供了未來研究一個有效可用的多時段大量語者影音資料庫。
A four-session text independent, TV-recorded audio-video database for speaker recognition is collected in this thesis. The speaker data is used to verify the applicability of a design methodology based on Mel-frequency cepstrum coefficients and Gaussian mixture model. Both single-session and multi-session problems are discussed in the thesis. Experimental results indicate that 90% correct rate can be achieved for a single-session 3000-speaker corpus while only 67% correct rate can be obtained for a two-session 800-speaker dataset. The performance of a multi-session speaker recognition system is greatly reduced due to the variability incurred in the recording environment, speakers’ recording mood and other unknown factors. How to increase the system performance under multi-session conditions becomes a challenging task in the future. And the establishment of such a multi-session large-scale speaker database does indeed play an indispensable role in this task.
論文摘要 1
致謝 2
目錄 3
圖目錄 5
表目錄 6

第一章 緒論
1-1 研究動機 7
1-2 語者辨識概論 7
1-3 研究方法 9
1-4 章節概要 10

第二章 語音訊號處理與特徵參數萃取
2-1 語音訊號處理 11
2-2 音框能量與越零率 13
2-2-1音框能量量測 13
2-2-2越零率 13
2-2-3端點偵測 13
2-3 聲音特徵參數萃取 14
2-3-1倒頻譜係數 16
2-3-2梅爾倒頻譜係數 19

第三章 電視影音資料庫
3-1 動機 22
3-2 電視影音資料庫內容 22
3-3 電視影音資料庫建立流程 23
3-3-1語者影音檔的蒐 24
3-3-2語者聲音原始檔的擷取 25
3-3-3語者聲音原始檔的處理 27
3-4 電視影音資料庫使用說明 27

第四章 高斯混合模型為基礎的語者辨識
4-1 模型描述 29
4-2 模型解釋 30
4-3 向量量化與參數初始化 31
4-4 最佳可能性估測法 35
4-5 期望值最大化演算法 35
4-6 語者指認 40

第五章 語者辨識實驗
5-1 高斯混合模型在電視影音與TIMIT資料庫之辨識實驗 41
5-2 同一個語者同時段與不同時段不特定語句辨識實驗 42
5-3 中量語者不同時段與大量語者同時段不特定語句辨識實驗43
5-3-1中量語者不同時段辨識 43
5-3-2大量語者同時段辨識 44
5-4 調整語者模型之系統設計於不同時段語者辨識實驗 45

第六章 結論及未來展望
6-1結論 47
6-2未來展望 47
參考文獻 49
[1]L. Rabiner, B. H. Juang, “Fundamentals of Speech Recognition”, Prentice Hall Signal Processing Series, 1993.

[2]John R. Deller, John G. Prooakls, John H. Hansen, “Discrete-Time Processing Of Speech Signals”, Maxwell Macmillan international

[3]W.M. Fisher, G.R. Doddingdon “The DARPA Speech Recognition Research Database: Specifications And Status”, In Proc. DARPA Workshop Speech Recognition, Feb. 1986, pp93-99

[4]Alan V. Oppenheim, Ronald W. Schafer, “Discrete-Time Signal Processing”, Prentice Hall Signal Processing Series, 1999.

[5]Douglas A. Reynolds, Richard C. Rose “Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models”, IEEE Signal Transactions on Speech and Audio Processing, Vol.3, No.1, January 1995, pp72-83

[6]Douglas A. Reynolds “Large Population Speaker Identification Using Clean And Telephone Speech”, IEEE Signal Processing Letters, Vol.2, No.3, March 1995, pp46-48

[7]S. B. Davis, P. Mermelstein, “Comparison Of Parametric Representations For Monosyllabic Word Recognition In Continuously Spoken Sentences”, IEEE Transations on ASSP-28, pp 357-366, 1980

[8]A. P. Dempster, N. M. Laird, “Maximum-Likelihood For Incomplete Data Via The EM Algorithm”, J. Royal Statist. Soc. SerB., pp39, 1977.

[9]C. F. J. Wu, “On The Convergence Properties Of The EM Algorithm”, The Annals of Statistics, 11(1):95-113, 1983.

[10]Jeff A. Blimes, “A Gentle Tutorial Of The EM Algorithm And Its Application To Parameter Estimation For Gaussian Mixture And Hidden Markov Models”, International Computer Science Institute, April 1998.

[11]Todd K. Moon, “The Expectation-Maximization Algorithm,” IEEE Signal Processing Magazine, Nov. 1996.
[12]S. Furui, “Cepstral Analysis Technique for Automatic Speaker Verification.” IEEE Trans. Acoustics, Speech and Signal Processing, vol. 29, No. 2, pp. 254-272, 1981.

[13]Jean-Luc Gauvain, Chin-Hui Lee, “Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains,” IEEE Transactions on Speech and Audio Processing, 1994.

[14]王小川,語音訊號處理,2004,台北:全華。

[15]鄭順德,“不特定語句中量語者辨識系統之設計研究”,國立中山大學電機工程研究所碩士論文,2002。
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top