跳到主要內容

臺灣博碩士論文加值系統

(3.231.230.177) 您好!臺灣時間:2021/07/28 19:59
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:張慶勇
研究生(外文):Ching-Yung Chang
論文名稱:中文地址語音辨識系統之設計研究
論文名稱(外文):A Design of Mandarin Speech Recognition System for Addresses
指導教授:陳志堅陳志堅引用關係
指導教授(外文):Chih-Chien Chen
學位類別:碩士
校院名稱:國立中山大學
系所名稱:電機工程學系研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2004
畢業學年度:92
語文別:中文
論文頁數:57
中文關鍵詞:隱藏式馬可夫模語詞辨識端點偵測梅爾倒頻譜係數
外文關鍵詞:Mel-frequency cepstrum coefficientsHidden Markov model (HMM)phrase recognitionend-point detection
相關次數:
  • 被引用被引用:7
  • 點閱點閱:103
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
本論文探討如何利用梅爾倒頻譜參數、隱藏式馬可夫模型及維特比演算法等語詞辨識相關技術,來設計一套中文地址的語音辨識系統。隱藏式馬可夫模型目前被廣泛地應用在語音辨識,其利用雙重的隨機程序,用狀態(state)的轉移來描述語音產生的方式,以對應語音模型的時變特性。為了簡化系統,減少辨識所需時間,本論文利用中文單音結構的特性,結合單音辨識的方法來完成。此系統,在實驗室中,語者相依的環境下,平均60秒內可完成地址輸入的動作,辨識率達98%。
A Mandarin speech recognition system for addresses based on MFCC, hidden Markov model (HMM) and Viterbi algorithm is proposed in this thesis. HMM is a doubly stochastic process describing the ways of pronunciation by recording the state transitions according to the time-varing properties of the speech signal. In order to simplify the system design and reduce the computational cost, the mono-syllable structure information in Mandarin is used by incorporating both mono-syllable recognizor and HMM for our system. For the speaker-dependent case, Mandarin address inputting can be accomplished within 60 seconds and 98% correct identification rate can be achieved in the laboratory environment.
目 錄
頁 次
致謝辭 ………………………………………………………… I
論文摘要 ……………………………………………………… II
目錄 …………………………………………………………… III
圖表目錄 ………………………..………………………………… VI

第一章 緒論 ………………….………………………………… 1
1-1 研究動機與目的 ……………...………………………… 1
1-2 研究方法 ………………………………………………... 2
1-3 章節概要 ………………………………………………... 2

第二章 語音訊號處理的基本技術 ……………...…………. 3
2-1 語詞辨識的基本架構 …………………………………... 3
2-2 辨識系統之語音前置處理 ……………………………... 5
2-2-1端點偵測 ……………………………………………… 5
2-2-1-1訊號能量(Energy) …………………………...… 5
2-2-1-2 越零率(Zero Crossing Rate) ………………..… 5
2-2-1-3 最大相似比測試(MLR test) ………...………... 7
2-3 乘上視窗函數(Window) ……………………..………… 9
2-4 特徵參數抽取 …………………………………….…… 13
2-4-1 倒頻譜係數 ………………………………..……… 14
2-4-2 梅爾倒頻譜係數 ………………………………..… 17
2-4-3 線性預測倒頻譜參數(LPC-based Cepstrum) ……. 20
2-4-3-1 線性預估編碼 ………………………...…… 20
2-4-3-2 求倒頻譜參數 …………………………..…. 22
第三章 隱藏式馬可夫模型 ….…………………………..… 23
3-1 模型描述 …………………………………...………….. 23
3-2 參數初始化 ……………………………………….…… 23
3-3 隱藏式馬可夫模型之訓練 …….……………………… 24
3-4 期望值最大演算法(EM) ……………………………… 27
3-5 參數重估 ………………………………………………. 28
3-6 隱藏式馬可夫模型之辨識程序 ………………….…… 30
第四章 單一聲調之音節辨認 …………………………...… 33
4-1 國語單音節的特性 ……………………………………. 33
4-2 單一聲調之音節辨認實驗 ………………..…………... 35
第五章 系統設計與實驗結果 …………..…………………. 42
5-1 資料庫建立與規劃 ………………………………..…... 42
5-2 系統設計 …………………….………………………… 45
5-3 實驗結果 …………………………….………………… 50
第六章 結論與建議 …………..……………………………. 53
6-1 結論 ………………………………..…………………... 53
6-2 建議 …………….……………………………………… 54

參考文獻 ………………………………………………………….. 55



圖 目 錄
頁 次
圖2-1 語詞辨識系統流程 ………………………………………… 3
圖2-2 語詞”two”波形及其訊號能量、越零率 …………………… 6
圖2-3 語句”高雄市-鼓山區”波形與 統計量 ..……………….. 9
圖2-4 各種視窗的振幅頻譜 ………………………………...…… 13
圖2-5 語音產生模型 ……………….…………………………….. 14
圖2-6 求取倒頻譜分析流程圖 …………………………………... 15
圖2-7 Cepstrum 分析流程圖例 …………………………………. 16
圖2-8 Real frequency scale (Hz)和Perceived frequency scale (Mels)
的轉換關係圖 …………………………….………………... 14
圖2-9 Mel-scale參數流程圖 ……………………………………. 18
圖2-10 Linear frequencies和Mel frequencies之轉換關係式 …… 19
圖2-11 Mel-spaced filiter …………………………………………. 20
圖3-1 語音訊號及其隱藏式馬可夫模型 ………………………... 23
圖3-2 正向過程圖示 …………………………………………....... 26
圖3-3 逆向過程圖示 …………………………………………..…. 27
圖3-4 正向逆向過程圖示 …………………………………..……. 28
圖3-5 以維特比演算法尋找最佳路徑 …………………….…… 31
圖4-1 兩段式辨認架構 ………………………………………..... 39
圖5-1 以最佳Top-N單音組合來篩選路名之流程圖 …………. 46
圖5-2 縣市、鄉鎮市區及路名辨識架構圖 …………………... 47
圖5-3 巷、弄、號、樓部分的辨識架構圖 .......……………… 49
表4-1 國語單音節的結構 …………………………………...…… 33
表4-2 中文408音與料庫之規格 ………………………………… 35
表4-3 中文408單音辨識實驗(MFCC+HMM)之結果 ………… 36
表4-4 中文408單音辨識實驗(LPCC+ML decision rule)之結果  37
表4-5 兩段式辨認之實驗結果 …………………………………... 40
表5-1 關鍵詞資料庫列表 ………………………………………... 43
表5-2 實驗參數設定 ……………………………………………... 43
表5-3 關鍵詞資料庫辨識結果 ………………………………….. 44
表5-4 巷弄號樓依字數作分類之辨識率 ……….……………….. 45
表5-5 台北市路名的辨識 …………………………………….….. 50
表5-6 台中市路名的辨識 ………………………….…………….. 51
表5-7 高雄市路名的辨識 ………………………………….…….. 51
表5-8 第一階段(含區)的辨識情形 …………………………….. 52
表5-9 系統測試結果 …………………………………….……….. 52
參考文獻

[1]V.R. Algazi, K. L. Brown, M. J. Ready, D. H. Irvine, C. L.Cadwell,
Sang Chung, “Transform Representation of the Spectra of Acoustic
Speech Segment with Applications-I: General Approach and
Application to Speech Recognition,” IEEE Trans. Speech and
Audio Processing, vol.1, No.2, April 1993.

[2]J. R. Deller, J. G. Proakis, and J. H. L. Hansen, Discrete Time Processing
of Speech Signals, New York: Macmillan Pub. Co., 1993.

[3]A. M.Kondoz, Digital Speech coding, New York: John Wiley & Sons
Inc.,1994

[4]S. S. Stevens and J. Volkmann, “The relation of pitch of frequency:
Arevised scale,” Am. J. Psychol., 53:329-353,1940.

[5]J. R. Deller, J. G. Prooakls, J. H. Hansen, Discrete-Time Processing of
Speech Signals, Maxwell Macmillan international.

[6]S. B. Davis, P. Mermelstein, “Comparison Of Parametric
Representations For Monosyllabic Word Recognition In Continuously
Spoken Sentences”, IEEE Transations on ASSP-28, pp 357-366, 1980.

[7]Tze Fen Li,”Speech recognition of mandarin monosyllables,” Pattern
Recognition, vol.36, pp2713-2721, April 2003

[8]L. R. Rabiner, “A tutorial on hidden Markov models and selected applications in speech recognition,” Proc. IEEE , vol. 77 , pp.257 -286 ,
Feb. 1989.

[9]A. V. Oppenheim and R. W. Schafer, Discrete-Time Signal Processing,
New Jersey: Prentice Hall, Inc.,1993

[10]J. A. Blimes, “A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models,” International Computer Science Institute, April 1998.
[11]M. B. Gulmezoglu, V. Dzhafarov, M. Keskin, and A. Barkana, “A Novel
Approach to Isolated Word Recognition,” IEEE Trans. Speech and
Audio Processing, vol.7, pp 620-628, Nov. 1999.

[12]J. F. Wang, C. H. Wu, S. H. Chang, and J. Y. Lee, “A Hierarchical Network Model Based on a C/V Segmental Algorithm for Isolated Mandrain Speech Recognition,” IEEE Trans. Signal Processing, vol.39,
pp2141-2146, Sep 1991.

[13] J. Taboada, S. Feijoo, R. Baisa, and C. Hernandez, “Explicit Estimation
of Speech Boundaries” IEE. Proc. Sci. Meas. Technol, vol. 141,
pp153-159, May 1994.

[14]Y. Wu, and Y. Li, “Robust Speech/Non-Speech Detection in Adverse Conditions Using the Fuzzy Polarity Correlation Method,” 2000 IEEE International Conference on, Systems, Man, and Cybernetics, vol. 4,
pp2935-2939, Oct. 2000.

[15] B. H. Juang and L. R. Rabiner,” Mixture Autoregressive Hidden Markov models for speech signals.” IEEE Trans. Speech and Audio
Processing,vol.33 ,pp 1404-1413, 1985.

[16] 楊鎮光,”Visual Basic 與語音辨識-讓電腦聽話”,民國91年6月17
日.

[17] 蘇浩岳, “電話語音查號系統之改進,” 國立交通大學電信工程研究所
碩士論文, 民國86年6月.

[18] 洪一忠, “基於分段機率模型之國語單音節辨認,” 國立台灣大學電機
工程研究所碩士論文, 民國81年6月.

[19] 黃銘崇, “不特定語者語詞辨識系統之特徵設計,” 國立中山大學電機
工程研究所碩士論文, 民國90年6月5日.

[20] 賴昭華, “不特定語者中量語詞辨識系統之設計研究,” 國立中山大電
機工程研究所碩士論文, 民國91年7月24日.

[21] 侯政寬, “中文關鍵語詞搜尋系統之設計與研究,” 國立中山大學電機
工程研究所碩士論文, 民國92年7月.

[22] 陳豫德, “中文人名語音辨識系統之設計研究,” 國立中山大學電機工
程研究所碩士論文, 民國92年7月.

[23] 鄭博文, “雜訊環境下語音辨識系統之設計研究,” 國立中山大學電機
工程研究所碩士論文, 民國92年7月.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top