(44.192.112.123) 您好!臺灣時間:2021/03/01 03:59
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

我願授權國圖
: 
twitterline
研究生:鄭鶴得
研究生(外文):He-de Jheng
論文名稱:中文二字語詞辨識系統之設計研究
論文名稱(外文):A Design of Speech Recognition System for Two-Word Mandarin Phrases
指導教授:陳志堅陳志堅引用關係
指導教授(外文):Chih-Chien Chen
學位類別:碩士
校院名稱:國立中山大學
系所名稱:電機工程學系研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2007
畢業學年度:95
語文別:中文
論文頁數:56
中文關鍵詞:音高軌跡二字詞卡氏轉換
外文關鍵詞:two-word mandarinpitch contourKarhunen-Loeve transform
相關次數:
  • 被引用被引用:5
  • 點閱點閱:110
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
本論文以研究如何增進中文二字語詞辨識率為目標。二字語詞辨識效果不佳的主要原因,來自兩個部份: 一是混洧性單音的辨識準確性不夠高,二是聲調的判定不夠準,首先為增進單音的準確性,我們使用了語料平衡之訓練,並改變聲母與韻母在狀態觀測機率值的權重。其次,為增進聲調的正確辨識率,除了使用音高軌跡外,另外加入卡氏轉換,觀察頻譜能量在不同頻段之改變狀態特性。實驗證明吾人加入上述二項改進之道後,二字語詞的正確辨識率可由79% 提昇到85%。
The objective of this thesis is to increase the correct recognition rate of the two-word Mandarin phrases. The reason for inaccuracy is due to the ambiguities of the syllables and the intonations. For the syllable ambiguity, a balanced speech training dataset is designed and the weights of the state observation probabilities on vowels and consonants are adjusted. For the tone ambiguity, both the pitch contour and the spectrum evolution property derived from the Karhunen-Loéve transform are applied. The experimental results indicate that an 85% correct rate can be achieved, that is a 6% increase in the performance for the system without the above improvements.
摘要I
致謝II
目錄III
圖目錄V
表目錄VII
第一章 緒論 1
1-1 研究動機與目的1
1-2 研究方法與成果簡介1
1-3 各章節內容概要4
第二章 中文二字詞語音辨識流程介紹5
2-1 辨識流程介紹5
2-2 聲調的相關研究8
2-2-1 中文變調規則10
2-3 擷取音高軌跡11
2-3-1 週期性訊號預前判斷12
2-3-2 自相關函數(autocorrelation function)14
2-3-3 修正音高錯誤17
2-4 使用卡氏轉換萃取聲調特徵18
2-5 聲調模型訓練21
第三章 語音模型的訓練與辨識流程22
3-1 隱藏式馬可夫模型22
3-2 模型訓練23
3-3 單音模型訓練29
3-4 辨識流程與文字比對30
3-5 聲調辨認32
第四章 辨識系統設計與實驗結果38
4-1 辨識系統設計38
4-2 實驗結果39
4-3 使用卡氏轉換於兩大類分類之後的四聲辨識結果41
第五章 結論與展望44
參考文獻46
[1] 潘睿慈, “特定語者中文語詞辨識系統之設計研究” , 國立中山大學電機工程研究所碩士論文, 民國94年7月
[2] 林威伯, “使用簡易音高週期浮現演算法及類神經網路之多語者台語聲調辨識”, 長庚大學電機工程研究所碩士論文, 民國89年
[3] 吳家蓁, “國語韻母/ㄚ/四種聲調之音響學特性 : 著重於音頻、音強,與持續時長實際變化的研究”, 國立台北護理學院聽語障礙科學研究所,
民國92年
[4] Ng ML, Gilbert HR, Learman JW: Fundamental frequency,intensity,and vowel duration characteristics related to perception of Cantonese alaryngeal speech. Folia Phoniatr Logop 2001;53(1):36-47.
[5] Yasuhiro Minami, Erik McDermott, Atsushi Nakamura, Shigeru Katagiri,”A recognition method using synthesis-based scoring that incorporates direct relations between static and dynamic Feature vector time series”.
[6] Saurabh Kumar Shandilya and Preeti Rao,“Retreiving pitch of the singing voice in polyphonic audio”2003
[7] Ben Gold, Nelson Morgan “Speech and audio signal Processing”,pp.415-428 ,Wiley & Sons 2000
[8] L.R Rabiner. On the use of autocorrelation analysis for pitch detection. IEEE Trans. ASSP, ASSP-25:24-33, 1977.
[9] D.R. Reddy. Pitch period determination of speech sound. CACM, 10:343-348, 1967.
[10] M.j. Ross, H.L. Shaffer, A. Cohen, R. Freudberg, and H.J. Manley. Average magnitude difference function pitch extractor. IEEE Trans. ASSP, ASSP-22:353-362, Oct. 1974.
[11] J.D. markel, "the SIFT algorithm for Fundamental Frequency Esyimation." IEEE trans. On audio and Electroacoustics, Vol AU-20, No 5, pp.367-377, December 1972
[12] Alan V. Oppenhieim, Ronald W. Schafer,”Discrete-Time Signal Processing”, Prentice Hall,1993.
[13] John R. Deller,Jr. ,John G. Proakis, and John H. L. Hansen,“Discrete-Time Processing of Speech Signals”,New jersey,Prentice Hall,Inc,1987
[14] L. R. Rabiner, “A tutorial on hidden Markov modles and selected application in speech recognition”, Proc. IEEE, vol.77, pp. 257-286, Feb. 1989
[15] U.C.Berkeley, “A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models”ICSI. April 1998.
[16] 王小川, ”語音訊號處理”, 全華, 民國93年.
[17] 胡哲原, “視窗程式設計 Linux C/C++ 使用GTK+與Qt”, 文魁資訊股份有限公司, 2002.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
系統版面圖檔 系統版面圖檔