跳到主要內容

臺灣博碩士論文加值系統

(3.236.84.188) 您好!臺灣時間:2021/08/06 12:00
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:許博閔
研究生(外文):Po-Min Hsu
論文名稱:混合式中文人名語音辨識系統之設計研究
論文名稱(外文):A Hybrid Design of Speech Recognition System for Chinese Names
指導教授:陳志堅陳志堅引用關係
指導教授(外文):Chih-Chien Chen
學位類別:碩士
校院名稱:國立中山大學
系所名稱:電機工程學系研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2004
畢業學年度:92
語文別:中文
論文頁數:61
中文關鍵詞:語詞辨識隱藏式馬可夫模型卡氏轉換端點偵測梅爾倒頻譜
外文關鍵詞:Hidden Markov modelendpoint detectionPhrase recognitionMel-cepstrumKarhunen Loeve transform
相關次數:
  • 被引用被引用:5
  • 點閱點閱:127
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
本論文研究在於建立一個中文人名語音辨識系統,以卡氏轉換、梅爾倒頻譜係數、隱藏式馬可夫模型及維特比演算法等語詞相關辨識技術來設計實現。卡氏轉換具有最小均方誤差和能量聚集性高的特性,能將語音資料簡化後仍保有大部分資訊。隱藏式馬可夫模型目前廣泛被利用在語音辨識上,以狀態描述語音產生的方式,為一可以代表語音時變特性之統計模型。本系統中,特定語者在實驗室環境下,辨識率可達93.97%,所需時間為3秒。
A speech recognition system for Chinese names based on Karhunen Loeve transform (KLT), MFCC, hidden Markov model (HMM) and Viterbi algorithm is proposed in this thesis. KLT is the optimal transform in minimum mean square error and maximal energy packing sense to reduce data. HMM is a stochastic approach which characterizes many of the variability in speech signal by recording the state transitions. For the speaker-dependent case, the correct identification rate can be achieved 93.97% within 3 seconds in the laboratory environment.
目 錄
頁 次
致謝……………………………………………………………………Ⅰ
論文摘要………………………………………………………………Ⅱ
目錄……………………………………………………………………Ⅲ
圖表目錄……………………………………………………………Ⅵ

第一章 緒論...........................................1
1-1 研究動機...........................................1
1-2研究方法............................................2
1-3 論文架構...........................................2

第二章 語詞辨識系統與數位語音信號處理...........4
2-1語詞辨識的基本架構.............................4
2-2辨識系統之語音前置處理......................6
2-2-1 端點偵測........................................6
2-2-2 預強............................................9
2-2-3 取窗型函數.....................................10
2-3 語音切割之研究..........................14
2-4 語音信號的特徵萃取......................18
2-4-1 倒頻譜係數..................................19
2-4-2 倒頻譜迴歸係數...............................21
2-4-3 梅爾倒頻譜係數.................................21
2-5 卡式轉換簡介..............................25

第三章 隱藏式馬可夫模型為基礎之語詞辨識系統....30
3-1 語音訊號之隱藏式馬可夫模型.........................30
3-2 隱藏式馬可夫模型之建立.............................31
3-3 隱藏式馬可夫模型之訓練.............................32
3-3-1 期望值最大演算法 ..............................32
3-3-2 參數重估(Parameters Reestimation)..............33
3-4 隱藏式馬可夫模型之辨識程序.........................38

第四章 系統設計與實驗結果............................41
4-1 資料庫規劃與建立...................................41
4-1-1資料庫規劃 ...............................41
4-1-2資料庫建立................................42
4-2 系統實作..........................................43
4-3 實驗結果...................................47
4-3-1 訓練次數與辨識率之關係.........................47
4-3-2 模型狀態數與辨識率之關係.......................48
4-3-3 卡氏轉換選取姓名實驗...........................50
4-3-4 中文單音姓氏選取實驗...........................52
4-3-5 識率與辨識時間估計.............................54

第五章 結論與建議.....................................56
5-1 結論...........................................56
5-2建議...........................................58
參考文獻...............................................59
附表一 中文姓氏列表...................................61










圖 目 錄
頁 次
圖 2-1 語詞辨識系統流程..................................4
圖 2-2 中文單音「陳」時域下之波形..........................6
圖 2-3 中文單音「陳」應用能量-越零率端點偵測法的示意圖.....8
圖 2-4 相鄰的音框在時域上重疊一半.......................10
圖 2-5 (a)單一音框的弦波信號(b)Hamming Window的波形
(c)乘上Hamming Window的結果......................11
圖 2-6 Rectangualr、Hamming及Hanning窗型函數的頻譜
波形.............................................13
圖 2-7 臨界值選取太高而判斷錯誤造成之結果...............14
圖 2-8 重估端點示意圖..................................15
圖 2-9 臨界值選取太低而判斷錯誤造成之結果.............16
圖 2-10 重估端點示意圖.................................17
圖 2-11 人類語音產生模型...............................18
圖 2-12 倒頻譜係數求解流程.............................20
圖2-13 真實頻率與mel頻率對應關係....................22
圖2-14 濾波器群組示意圖..............................23
圖2-15 Mel-Cepstrum流程圖.........................24
圖 3-1 語音訊號及其隱藏式馬可夫模型.....................30
圖 3-2 正向逆向變數圖示.................................35
圖 3-3 以維特比演算法尋找最佳路徑.......................38
圖 3-4 語詞辨識流程....................................39
圖 4-1 基本HMM辨識系統流程.............................43
圖 4-2 KLT+HMM辨識系統流程..............................44
圖 4-3 辨識姓氏+KLT+HMM辨識系統流程.....................45
圖 4-4 模型狀態數與辨識率之關係.........................52











表 目 錄
頁 次
表 2-1 語音訊號能量、越零率..............................9
表 4-2 訓練次數與辨識率之關係............................47
表 4-4 卡氏轉換選取姓名實驗(a)...........................50
表 4-5 卡氏轉換選取姓名實驗(b)...........................51
表 4-6 姓氏檢出實驗結果..................................52
表 4-7 辨識率與辨識所需時間..............................54
參考文獻

[1] 賴昭華,“不特定語者中量語詞辨識系統之設計研究”,國立中山大
學電機工程研究所碩士論文,2002

[2] Lawrence Rabiner and Biing-Hwang Juang, Fundamentals of Speech
Recognition, New Jersey: Prentice Hall,Inc.,1993.

[3] J. R. Deller, J. G. Proakis, and J. H. L. Hansen, Discrete Time Processing
of Speech Signals, New York: Macmillan Pub. Co., 1993.

[4] 洪一忠, “基於分段機率模型之國語單音節辨認,” 國立台灣大學電機
工程研究所碩士論文, 民國81年6月.

[5] Campanelle, S. J., and G. S. Robinson, “A comparison of orthogonal
transformations for digital speech processing ”,IEEE Transactions on
Communications, vol. 19, part 1, pp. 1045-1049, Dec. 1971.

[6] Devijver, P. A., and J. Kittler, Pattern Recognition: A Statistical
Approach, London, England: Prentice Hall International, 1982.

[7] J. P. Campbell, “ Speaker recognition: A Tutorial ”, IEEE proceedings,
Vol.85, Sep. 1997, pp. 1437-1462.

[8] L. R. Rabiner, “A tutorial on hidden Markov models and selected
applications in speech recognition,” Proc. IEEE , vol. 77 , pp.257 -286 ,
Feb. 1989.

[9] J. A. Blimes, “A Gentle Tutorial of the EM Algorithm and its
Application to Parameter Estimation for Gaussian Mixture and Hidden
Markov Models,” International Computer Science Institute, April 1998.

[10] 袁义达,张诚, 中国姓氏:群体遗传和人口分布, 上海:华东师范大学出版社,2002.



[11] A. M. Kondoz, Digital Speech coding, New York: John Wiley
& Sons Inc., 1994.

[12] B. H. Juang and L. R. Rabiner, “Mixture Autoregressive Hidden Markov
models for speech signals.” IEEE Trans. Speech and Audio
Processing,vol.33 ,pp 1404-1413, 1985.

[13] A. V. Oppenheim and R. W. Schafer, Discrete-Time Signal Processing, New Jersey: Prentice Hall, Inc.,1993.

[14] 黃銘崇, “不特定語者語詞辨識系統之特徵設計,” 國立中山大學電機
工程研究所碩士論文, 民國90年6月5日.

[15] 鄭順德, “不特定語者中量語者辨識系統之設計研究,” 國立中山大學
電機電機工程研究所碩士論文, 民國91年7月24日.

[16] 陳豫德, “中文人名語音辨識系統之設計研究,” 國立中山大學電機
工程研究所碩士論文, 民國92年 7月
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊