(18.206.238.77) 您好!臺灣時間:2021/05/17 18:05
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

: 
twitterline
研究生:陳貽靖
研究生(外文):Yi-Ching Chen
論文名稱:利用k最近鄰居法於分聲調和不分聲調之中文母音辨識及錯誤音之探討
論文名稱(外文):Using the methods of K-Nearest Neighbors to recognize the Mandarin vowel with tone and error investigation
指導教授:李宗寶
指導教授(外文):Chung-Bow Lee
口試委員:郭仁泰邱國欽
口試委員(外文):Ren-Tai KuoKuo-Ching Chiou
口試日期:2016-06-28
學位類別:碩士
校院名稱:國立中興大學
系所名稱:統計學研究所
學門:數學及統計學門
學類:統計學類
論文種類:學術論文
論文出版年:2016
畢業學年度:104
語文別:中文
論文頁數:38
中文關鍵詞:梅爾頻率倒頻譜係數特徵擷取K最近鄰居法
外文關鍵詞:k-nearest neighborMFCC
相關次數:
  • 被引用被引用:0
  • 點閱點閱:61
  • 評分評分:
  • 下載下載:15
  • 收藏至我的研究室書目清單書目收藏:0
本篇論文主要目的是探討特定語者在1391個所有中文單字中,分聲調及不分聲調之母音辨識。首先將錄製好的語音資料進行前處理,再利用梅爾倒頻譜係數來求取特徵參數,最後以K最近鄰居法當作辨識方法,而實驗因子有「子、母音音框數個數」、「音框取樣點數」、「音框的特徵值維度」等,在這些不同參數中找出最佳組合。本實驗利用二十二位特定語者錄製的1391個所有中文單字進行辨識。實驗結果發現,在母音音框數為25、特徵值維度為39、音框取樣點為256時,不分聲調平均辨識率 87.18%,分聲調平均辨識率 81.00%。本論文也嘗試探討錯誤音及如何提高辨識率。

This paper mainly discussed the recognition of 1391 mandarin vowel with tone. First, we make the vocal data doing fore-process, then transform it into feature by Mel-frequency cepstrum coefficient. Last, construct the speech model by the method of k-nearest neighbor. We consider experimental factors such as "the number of frame","the dimension of speech feature" in the experimental. The experiment of speech database is recorded by twenty-two different speakers. In the experimental result, we find that the best average recognition rate of indifferent tone is 87.18%, different tone is 81.00%, in the optimal combination of the parameters. In this paper, we also have investigated the wrong tone and how to improve recognition rate.

摘要 i
Abstract ii
目錄 iii
附圖目錄 v
附表目錄 vi
第一章 緒論 1
1.1研究動機與目的 1
1.2語音辨識研究內容 1
1.2.1何謂語音辨識 1
1.2.2語音的特性 1
1.2.3語音辨識研究範圍 2
1.2.4語音辨識的應用 3
1.3相關研究 4
1.4論文架構 5
第二章 語音訊號前處理與特徵值求取 6
2.1前言 6
2.2語音訊號前處理 7
2.2.1數位取樣 7
2.2.2常態化 8
2.2.3端點偵測 9
2.2.4音框切割 11
2.2.5預強調 11
2.2.6視窗化 11
2.3特徵參數的求取 12
2.3.1離散傅立葉轉換 13
2.3.2三角濾波器 14
2.3.3頻率範圍 15
2.3.4對數能量 15
2.3.5離散餘弦轉換 15
第三章 語音模型的建立與辨識方法 16
3.1前言 16
3.2語音模型的建立 16
3.3辨識流程和方法 18
第四章 實驗結果 21
4.1操作介面 21
4.2語音來源 21
4.3參數設定 21
4.4實驗結果 22
4.4.1 分聲調與不分聲調辨識結果 22
4.4.2 錯誤音探討 28
第五章 結論和建議 31
參考文獻 32
附錄 33


[1]Amin, T. B., Mahmood, I. (2008), "Speech Recognition using Dynamic Time Warping", Advances in Space Technologies, 2008. ICAST 2008. 2nd International Conference on, pp. 74-79.
[2]Lin, Y. L., Wei. G., (2005), "Speech emotion recognition based on HMM and SVM", 2005 International Conference on Machine Learning and Cybernetics, Vol. 8, pp. 4898 - 4901.
[3]Unnikrishnan, K. P., Hopfield, J. J., Tank, D. W. (1991), "Connected-Digit Speaker-Dependent Speech Recognition Using a Neural Network with Time-Delayed Connections", IEEE Trans. on Signal Processing, Vol. 39, no. 3, pp. 698-713.
[4]李俊昇、黃珠娟、許馨仁、林明慧 (2010), "語音情緒辨識技術與應用之研究",台灣感性學會研討會論文。
[5]陳鴻彬、林士翔、陳柏琳 (2006) , "對數能量特徵正規化於語音辨識之進一步研究",國立台灣師範大學。
[6]王小川 (2004),“語音訊號處理”。台北市:全華。


QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top