跳到主要內容

臺灣博碩士論文加值系統

(18.97.14.84) 您好!臺灣時間:2024/12/05 02:54
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:黃俊豪
研究生(外文):Chun-Hao Huang
論文名稱:大量語者不特定語句環境下語者辨識系統之特徵設計
論文名稱(外文):Feature Design for Text Independent Speaker Recognition in Numerous Speaker Cases
指導教授:陳志堅陳志堅引用關係
指導教授(外文):Chih-Chien Chen
學位類別:碩士
校院名稱:國立中山大學
系所名稱:電機工程學系研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2001
畢業學年度:89
語文別:中文
論文頁數:55
中文關鍵詞:人工智慧語者辨識梅爾-倒頻譜向量量化
外文關鍵詞:Speaker RecognitionMel-CepstrumArtificial Neural
相關次數:
  • 被引用被引用:10
  • 點閱點閱:285
  • 評分評分:
  • 下載下載:29
  • 收藏至我的研究室書目清單書目收藏:1
本論文設計了以Microsoft Windows作為作業平台之大量語者不特定語句情況下的語者辨識系統。本論文採取語料之梅爾-倒頻譜作為特徵,再利用人工智慧的方法建立起數狀分類器。在辨識過程中只需算出未知語者所歸屬之小群再將特徵量化並語該小群中的語者做對,即可得知未知語者身分。經實驗證明,在人數增多時,辨識率並不隨之下降,辨識速度也較傳統方法快。
A Microsoft Windows program is designed to implement a text independent speaker recognition system in numerous speaker cases based on Mel-Cepstrum and hierarchical tree classifier and binary vector quantization. Experimental result show that the accuracy is barely affected by increasing population sizes. And the speed of recognizing is fast than traditional methods.
目 錄
頁 次
致謝詞
論文提要
目錄
圖表目錄

第一章 序論 1
1-1 研究動機 1
1-2 研究背景及目的 3
1-3 論文架構 6

第二章 語音訊號的分析技術 7
2-1 語音處理的產生 7
2-2 靜音切割 10
2-3 劃分音框與視窗函數 13

第三章 語者辨識系統的設計 16
3-1 特徵萃取 16
3-1-1 功率頻譜密度函數(Power Spectrum Density) 17
3-1-2 倒頻譜係數(Cepstrum Coefficients) 18
3-1-3 梅爾-倒頻譜係數(Mel-Cepstrum Coefficients) 22
3-2 類神經網路(Artificial Neural Networks) 26
3-2-1 前言 26
3-2-2 SOFM 27
3-2-3 LVQ 30
3-2-4 分群強韌性的研究 34
3-3 辨識器設計 35

第四章 系統實作結果 37
4-1 系統實作簡介 37
4-2 資料庫與系統參數設計 38
4-3 實驗結果 39

第五章 結論與建議 52



主要圖表目錄 頁次
圖(1-1)人類的發音過程 7
圖(1-2)人類的發音模型 8
圖(1-3)語音的數位話模型 9
圖(2-1)第一號語者的時間軸波形 10
圖(2-2)利用能量-越零率之端點偵測法 12
圖(2-3)語音訊號的半穩態特性 13
圖(2-4)三種不同視窗的效果 14
圖(3-1)不同兩個人的PSD 17
圖(3-2)求Cepstrum的流程圖 20
圖(3-3)利用Cepstrum將激發源與聲道脈衝響應分開 21
圖(3-4)人類聽覺系統對頻率的感知 22
圖(3-5)使用不同的頻率部份來計算Mel-Cepstrum 24
圖(3-6)Mel-Cepstrum的求法 25
圖(3-7)SOFM的方塊圖 27
圖(3-8)SOFM的權重疊代情形 28
圖(3-9)SOFM的例子 28
圖(3-10)SOFM的收斂情形 29
圖(3-11)LVQ的方塊圖 31
圖(3-12)LVQ的例子 32
圖(3-10)LVQ的收斂情形 33
圖(4-1)語者辨識系統的訓練流程圖 42
圖(4-2)語者辨識系統的測試流程圖 43
圖(4-3)分群結果 45
圖(4-4)人數v.s.辨識率 46
圖(4-5)特徵v.s.辨識率 47
圖(4-6)完成後的視窗程式 53

表(3-1)臨界頻帶 24
表(4-1)分群數目與分群正確率及辨識率 44
表(4-2)Training:15s Testing:5s 所得結果(TIMIT) 48
表(4-3)Training:8 sentences Testing:1 sentences所得結果(TIMIT) 49
表(4-4)Training:8 sentences Testing:1 sentences所得結果(NTIMIT)50
表(4-5)各種情況下的正確率表(TV Database) 51
表(4-6)TV Database的人名表 52
[1]Douglas A. Reynolds, “Large Population Speaker Identification Using Clean and Telephone Speech”, IEEE Signal Processing Letters, Vol.2, No.3, March 1995, pp46-48

[2]Kevin R. Farrell, Richard J. Mammone, and Khaled T. Assaleh, “Speaker Recognition Using Neural Networks and Conventional Classifiers”, IEEE Trans. on Speech and Audio Processing, Vol.2, No.1, Part Two, January 1994, pp194-205

[3]S. Y. Lung, and Chih-Chien Thomas Chen, “Further Reduced Form of Karhunen –Loeve Transform for Text Independent Speaker Recognition”, Electronics Letters, Vol.34, July 1998, pp1380-1382

[4]John R. Deller, John G. Proaskis, and John H. L. Hansen, “Discrete-Time Processing of Speech Signals”, Prentice Hall

[5]N.R. French and J.C. Steinberg, “Factors governing the intelligibility of speech sounds”, J. Acoust. Soc. Am., 19: 90-119, 1947

[6]Martin T. Hagan, Howard B. Demuth, and Mark Beale, “Neural Network Design”, PWS Publishing Company

[7]Teuvo Kohonen, “The Self-Organizing Map”, Proceedings of the IEEE, Vol.78, No.9, September 1990, pp1464-1480

[8]Jialong Ho, Li Liu, and Gunther Palm, “A Discriminative Training Algorithm for VQ-Based Speaker Identification”, IEEE Trans. on Speech and Audio Processing, Vol.7, No.3, May 1999, pp353-356

[9]Pierre Castellano, “A Study of LVQ Learning Schedules for ANN Speaker Identification”, IEEE Region 10’s Ninth Annual International Conference, Theme: Frontiers of Computer Technology, Proceedings of 1994, pp902-905

[10]Zhong-Xuan Yuan, Bo-Ling Xu, and Chong-Zhi Yu, “Binary Quantization of Feature Vectors for Robust Text-Independent Speaker Identification”, IEEE Trans. on Speech and Audio Processing, Vol.7, No.1, January 1999, pp70-78

[11]Viresh Moonasar, and Ganesh K. Venayagamoorthy, “Speaker Identification Using a Combination of Different Parameters as Feature Inputs to Artificial Neural Network Classifier”, Africon, 1999 IEEE, Vol.1, 1999, pp189-194

[12]Alan V. Oppenheim, Renold W. Schafer, “Discrete-Time Signal Processing”, Prentice Hall

[13]王理嘉, “語音學教程”, 五南圖書出版公司

[14]龍生雲, “不特定語句之中文語者辨識系統研究”, 國立中山大學博士論文, 民國88年

[15]鄭開尹, “中文語者辨識系統之視窗軟體設計研究”, 國立中山大學碩士論文, 民國88年
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top