(3.230.154.160) 您好!臺灣時間:2021/05/07 18:40
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

我願授權國圖
: 
twitterline
研究生:林婉怡
研究生(外文):Wan-Yi Lin
論文名稱:流利國語語音之聲調辨識及其在大字彙辨識上的應用
論文名稱(外文):Tone Recognition for Fluent Mandarin Speech and Its application on Large Vocabulary Recognition
指導教授:李琳山李琳山引用關係
學位類別:碩士
校院名稱:國立臺灣大學
系所名稱:電信工程學研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2004
畢業學年度:92
語文別:中文
論文頁數:67
中文關鍵詞:辨識聲調語音
外文關鍵詞:recognitionspeechtone
相關次數:
  • 被引用被引用:4
  • 點閱點閱:179
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
摘要
中文以聲調區分字義,因而聲調辨識對於中文語音辨識是一個很重要的問題。但是在不同的音段中聲調的特徵有很大的變異,以致於聲調辨識率難以提昇。因此本論文的目標是建立一個能夠處理聲調特性的變異的國語聲調辨識系統,進而和大字彙中文語音辨識系統結合,以期增進辨識率。本論文以大陸口音的語音廣播新聞語料為實驗素材。
本論文主要分為四個部分,第一部份是針對大字彙中文語音辨識、聲調辨識、以及基頻抽取做一個全面的介紹。第二部分在抽取強健且可信賴的基頻,以作為聲調辨識一個重要的特徵參數。
第三部分是針對音高輪廓受到上下文影響,提出新的音節間特徵參數。而除了上下文之外其他造成聲調特性的變異的因素不易分析,所以也以分群的方法來建立聲調特性的變異模型,再使用聲調雙連模型拓展會影響目前音節的音節數目。藉由這些方法,來協助解決聲調特性的變異的問題。
第四部分是將聲調辨識與大字彙中文語音辨識結合,建立一個在聲學模型辨識時就有區分聲調的系統,實驗顯示辨識率可以獲得一定程度的提升。
摘要 1
第一章 導論
1.1 研究動機 2
1.2 國語聲調辨識簡介 3
1.3 章節大綱 4
第二章 基礎背景簡介
2.1 大字彙國語連續語音辨識  5
2.1.1 基礎實驗語料 5
2.1.2 特徵參數抽取 6
2.1.3 聲學模型的架構 7
2.1.4 基礎實驗 9
2.2 聲調辨識 10
2.3 基頻抽取 14
2.4 本章結論 16
第三章 使用可適性蓋伯表示法及瞬時頻譜抽取基頻
3.1 可適性蓋伯表示法 17
3.2 瞬時頻譜 20
3.3 追蹤和平滑化 20
3.4 實驗環境 22
3.5 實驗結果 24
3.5.1 錯誤率比較 24
3.5.2 計算量比較 29
3.6 本章結論 29
第四章 聲調辨識
4.1 音節間特徵參數 30
4.1.1 使用音節音長的輕聲模型 30
4.1.2 音高輪廓受到相鄰音節影響之特徵參數 31
4.1.3 特徵參數權重 36
4.2 聲調特性的變異模型 36
4.2.1 基於音節間特徵參數將訓練語料分群 40
4.2.2 利用模型可能性分數之最大化來修飾訓練語料子
集 42
4.2.3 使用基於曲線契合來修飾訓練語料子集 43
4.3 前後文相關聲調雙連模型 46
4.4 實驗環境 46
4.5 實驗結果 48
4.5.1 使用音節間特徵參數的實驗結果 48
4.5.2 使用聲調特性的變異模型以及權重的實驗結果 50
4.5.3 使用上下文相關聲調雙連模型的實驗結果
55
4.5.4 與其他方法比較 56
4.6 本章結論 57
第五章 聲調辨識與大字彙中文語音辨識的結合
5.1 聲調辨識結合大字彙中文語音辨識 58
5.2 實驗結果 60
5.3 本章結論 61
第六章 結論與展望
6.1 結論 63
6.2 展望 64
參考資料
[1] S. B. Davis & P. Mermelstein, “Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences”, IEEE Trans. Acoustics Speech and Signal Processing, ASSP – 28 (4) : p.p. 357 – 366, August, 1980
[2] 陳柏琳,“中文語音資訊檢索—以音節為基礎之索引特徵、統計式檢索模型及進一步技術”,國立台灣大學資訊工程所博士論文。
[3] T. Lee, P.-C. Ching, L.-W. Chan, Y.-H. Cheng, and B. Mak “Tone recognition of isolated Cantonese syllables,” IEEE Tras. Acous Speech Audio Processing, Volume: 3 Issue: 3 , May 1995, pp. 204 -209
[4] S. H. Chen and Y. R.Wang, “Vector Quantization of Pitch Information in Mandarin Speech,” IEEE Transactions on Communications, Vol.38, pp. 1317-1320, 1990.
[5] W.-J. Yang, J.-C. Lee, Y.-C. Chang and H.-C. Wang, “Hidden Markov Model for Mandarin Lexical Recognition”, IEEE Trans. on ASSP, Vol. 36, No7, July 1988, pp.988-992.
[6] J. S. Zhang and K. Hirose, “Tone Recognition of Chinese Continuous Speech Using Tone Critical Segments”, Eurospeech, Budapest, Hungary, Sept. 1999, pp.879-882.
[7] Wang, C. and S. Seneff,”Robust pitch Tracking For Prosodic Modeling Of Telephone Speech”, ICASSP 2000
[8] Shie Qian and Dapang Chen, “Joint Time-Frequency Analysis” Prentice Hall, 1996
[9] Abe T, Kobayashi T., and Imai S.,” Harmonics tracking and pitch extraction based on instantaneous frequency” ICASSP-95., Volume: 1, 9-12 May 1995. Page(s): 756 -759 vol.1
[10] http://www.speech.kth.se/wavesurfer/
[11] H. C-H Huang, F. Seide, “Pitch tracking and tone features for Mandarin speech recognition,” ICASSP ''00. Proceedings. Volume: 3, 5-9 June 2000. Page(s): 1523 -1526 vol.3
[12] J. Han and M. Kamber, “Data Mining: concepts and techniques”, San Francisco: Morgan Kaufmann Publishers, 2001
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊
 
系統版面圖檔 系統版面圖檔