跳到主要內容

臺灣博碩士論文加值系統

(216.73.216.44) 您好!臺灣時間:2026/01/03 07:37
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:李柏毅
研究生(外文):Bo-Yi Li
論文名稱:運用語氣識別於關鍵詞辨識系統
論文名稱(外文):Apply Emotional Speech Recognition to Keyword Spotting System
指導教授:黃志賢黃志賢引用關係
指導教授(外文):Chih-Hsien Huang
學位類別:碩士
校院名稱:崑山科技大學
系所名稱:數位生活科技研究所
學門:電算機學門
學類:電算機應用學類
論文種類:學術論文
論文出版年:2010
畢業學年度:98
語文別:中文
論文頁數:123
中文關鍵詞:關鍵詞辨認語音辨識語氣
外文關鍵詞:Keyword SpottingSpeech RecognitionEmotional
相關次數:
  • 被引用被引用:0
  • 點閱點閱:1090
  • 評分評分:
  • 下載下載:18
  • 收藏至我的研究室書目清單書目收藏:1
  本研究就我們所收集之語氣語料庫及TCC300語音語料庫進行初步的語氣分類與語音辨識建立系統。透過一般語音辨識最常採用之梅爾倒頻譜係數為主之參數表示法與隱藏式馬可夫模型為主之辨識架構下,使用一階段搜尋演算法(one pass search algorithm)完成語氣與語音辨識工作。在語氣辨識部份,我們假設一段時間內的語氣並不全然會穩定維持在特定語氣,所以,我們在一階段搜尋演算法之後,搭配累計各種可能語氣的持續時間長度決策機制,以持續時間最長者,作為語氣辨識之結果。在語氣辨識效能評估上,我們亂數產生了十組訓練與測試語料集合進行實驗,並採用卡方檢定驗證在不同組別之辨識結果趨勢之一致性及不同語氣間之混淆性。在應用系統中,首先會進行語氣辨識並根據辨識之結果選擇語音辨識時所使用之相對應語氣之語音模型進行辨識。在語音辨識上,我們採用關鍵詞辨認(keyword spotting)方式針對展示系統之語音新聞查詢功能辨識出關鍵詞配合辨識出之語氣,回報合適之語音新聞內容並撥放之。

  This study proposed the emotional speech classification and speech recognition system through the collected emotional speech corpus and TCC300 speech corpus. We exploited one pass search algorithm to complete the recognition task of emotion and speech by the used of the MFCC and hidden Markov model-based recognition architecture. In emotional speech recognition, we assumed that the short-time speech emotion may varied, therefore, the mechanism of longest lasting time accumulation of the most possible speech emotion was adopted after one pass search algorithm to obtain the result. To evaluate the performance of emotional speech classification, we generate ten sets of training and test data collections randomly. The chi-square testing was adopted to examine the performance trends among different experiment data sets and the confusion between different emotional speech. After the emotional speech classification, the speech recognition was followed to extract the keywords for the spoken news query. The system listed appropriate spoken news to be ready for playback according the recognized speech emotion and the keywords.

摘 要 i
ABSTRACT ii
誌 謝 iii
目 錄 iv
圖目錄 vi
表目錄 vii
一、 緒論 1
1.1 前言 1
1.2 研究動機 2
1.3 研究目的 3
二、 系統架構 4
三、 特徵參數擷取及後處理 6
3.1 語音前處理與參數擷取 6
3.1.1 預強調 6
3.1.2 音框化 7
3.1.3 漢明窗 7
3.2 參數擷取 8
3.2.1 離散餘弦轉換(discrete cosine transform, DCT ) 9
四、 統計為主之語音辨識架構 10
4.1 語音模型 10
4.1.1 隱藏式馬可夫模型 10
4.1.2 高斯混合模型 12
4.2 語音模型訓練 14
4.2.1 維特比演算法 14
4.2.2 向量量化演算法 15
4.3 一階段搜尋演算法 19
4.4 時間決策演算法 23
4.5 關鍵詞辨認 23
五、 實驗結果 24
5.1 語料庫與實驗設定 24
5.1.1 語氣部份實驗設定 24
5.1.2 語音部份實驗設定 25
5.1.3 卡方檢定 26
5.2 情緒語音實驗結果討論 27
5.3 應用系統介面 57
六、 結論與未來展望 60
七、 參考文獻 62
附 錄 一 64
附 錄 二 70
附 錄 三 72
附 錄 四 77



[1]R. Cowie, et al., “Emotion recognition in human-computer interaction,” IEEE Signal Processing Magazine, vol. 18, no. 1, Jan. 2001,pp. 32-80.
[2]C.-H. Huang, C.-H. Tsai and B.-Y. Li, “The Corpus Preparation and Effective Feature Representation of Emotional Speech,” Proceedings of Fourth International Conference on Innovative Computing, Information and Control, 2009.
[3]N. Brenner and C. Rader, “A New Principle for Fast Fourier Transformation”, IEEE Trans. Acoust., Speech, Signal Processing, No. 24, 1976, pp. 264-266.
[4]Lawrence Rabiner and Biing-Hwang Juang, Fundamentals of Speech Recognition, Prentice Hall PTR, 1993.
[5]B. Schuller, G. Rigoll, and M. Lang, “Hidden Markov Model-Based Speech Emotion Recognition,” Proceedings of The 28th International Conference on Acoustics, Speech, and Signal Processing, vol. II, 2003, pp. 1-4.
[6]H. Ney,“The use of a one-stage dynamic programming algorithm for connected word recognition,” IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-32, Apr.1984, pp. 263-271.
[7]Abe, M., Nakamura, S., Shikano, k., and Kuwabara, H., “Voice Conversion through Vector Quantization,” Proceedings of The 13rd International Conference on Acoustics, Speech, and Signal Processing, 1988, pp. 655-658.
[8]N. Ahmed, T. Natarajan, and K. R. Rao, “Discrete Cosine Transform”, IEEE Trans. Computers, Jan. 1974, pp. 90-93.
[9]S.B. Davis, and P. Mermelstein, “Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences,” IEEE Trans. Acoust., Speech, Signal Processing, Vol. 28, No. 4, 1980, pp. 357–366.
[10]M. Weintraub,“Keyword-Spotting Using SRI''s DecipherTM Large- Vocabulary Speech Recognition System,” Proceedings of The 18th International Conference on Acoustics, Speech and Signal Processing, Minneapolis, Minnesota, April 1993, pp. 463-466.
[11]張柏雄,“中文語音情緒之自動辨識”,碩士論文,國立成功大學工程科學系, 2002。
[12]廖香娟,“強健性發音表示集及狀態分享式決策樹之產生,”碩士論文,國立成功大學資訊工程研究所, 2000.


QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top