(3.239.33.139) 您好!臺灣時間:2021/03/02 16:08
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

我願授權國圖
: 
twitterline
研究生:馬偉雲
研究生(外文):Wei-Yun Ma
論文名稱:連續語音辨認的速度改進研究
論文名稱(外文):Speed Improvement for Continuous Speech Recognition
指導教授:劉啟民劉啟民引用關係
指導教授(外文):Chi-Min Liu
學位類別:碩士
校院名稱:國立交通大學
系所名稱:資訊工程系
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:1999
畢業學年度:87
語文別:中文
論文頁數:49
中文關鍵詞:連續語音辨認維特比光束搜尋法動態光束搜尋法
外文關鍵詞:continuous speech recognitionviterbibeam searchdynamic beam search
相關次數:
  • 被引用被引用:0
  • 點閱點閱:128
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
中文連續語音辨認技術要能夠實際應用到電腦輸入法,必須要有高辨識率以及快速的辨識時間才能達成。如何在維持高辨識率的情形之下,仍能大幅度的節省辨識時間即是本論文的研究目標。
在本論文中,使用中文的詞作為搜尋單位,在維特比搜尋法中,結合詞雙連語言模型做連續語音辨識,如此可同時整合聲學處理(Acoustic Processing) 與語言處理(Linguistic Processing)而得到整體最佳結果(Global Optimum) 。在Pentium- 450M Hz的測試環境下,使用20句連續中文語音作測試,字辨識率可達47.87%,平均一句話的辨識時間為13.4sec。這種作法雖然在辨識率上能夠得到很好的表現,但其搜尋空間十分龐大,以聲學處理來說,搜尋空間跟詞庫大小成正比。以語言處理來說,搜尋空間跟詞庫大小平方成正比,如此龐大的搜尋空間,將會嚴重影響辨識時間。因此本論文提出兩種方法來解決此一問題。第一種針對聲學處理設法縮小搜尋空間,改善傳統的光束搜尋法(Beam Search)固定光束寬的缺點,而提出一種能隨時間而動態調整光束寬的作法。字辨識率可達48.94%,辨識時間為9.93 sec。第二種針對語言處理設法縮小搜尋空間,在以詞為單位的辨識之前,先行用極快的方法,偵測哪些時間點是可能的詞和詞交接處。在這些時間點上才作語言處理的計算,來達到縮小搜尋空間的目的。字辨識率可達47.87%,平均辨識時間為8.54 sec。最後此兩種方法結合,可得到最佳的結果。字辨識率達48.94%,平均辨識時間為7.13 sec。

High recognition rate and quick response time are two fundamental requests in continuous speech recognition. In this thesis, we study the way to speedup the recognition time while retain the same recognition rate.
In this thesis, we apply one-pass Viterbi algorithm to recognizing Mandarin sentences. We choose the word as the recognition unit and integrate word bigram into Viterbi algorithm. In the test environment of Pentium-450M Hz, our recognition rate is 47.87% and average recognition time is 13.4 sec for 20 sentences.
Although the accuracy of this method is good, but the search space is very large. In acoustic processing, the search space is related to the vocabulary size. In linguistic processing, the search space is related to the square of vocabulary size. Such a large search space will increase recognition time seriously. Therefore we present two methods to solve this problem. The first method is the dynamic beam search which adjust beam width according to the current time to reduce search space in acoustic processing. In this method, the recognition rate is 48.94% and the average recognition time is 9.93 sec. The second method tries to reduce search space in linguistic processing. Before Viterbi search, we apply some fast algorithms to detect frames which could be the boundaries between words. Then, we apply the bigram model just in these frames. The recognition rate of this method is 47.87% and the average time is 8.54sec. Finally, we integrate these two methods and have the recognition rate, 48.94% and the average time, 7.13 sec.

第一章 緒論 3
1.1 研究動機 5
1.2 中文單音節語音的特性 6
1.3 中文連續語音的特性 6
1.4 語言模型在中文連續語音辨識上的應用7
1.5 本論文所採用的研究方法與主要成果 8
第二章 語音辨認的基本技術 9
2.1 語音處理與辨認的基本概念 9
2.2 語音特徵簡介 10
2.2.1 RC(Real Cepstrum) 11
2.2.2 MFCC(Mel-Frequency Cepstral Coefficients)12
第三章 中文連續語音辨認系統建置 14
3.1 訓練聲學模型 14
3.2 辨識單位的選擇 15
3.3 訓練語言模型 15
3.3.1 語言模型在語音辨識的角色 15
3.3.2 訓練過程 16
3.4 辨識方法的選擇 17
3.4.1 不含語言模型的維特比演算法 18
3.4.2 包含語言模型的維特比演算法 21
3.4.3 詞雙連文法快速計算法 23
第四章 音框過濾法 25
4.1 基本概念 25
4.2 利用短時波包找詞與詞交接處 27
4.3 以音節為單位的維特比找詞與詞交接處31
第五章 動態光束搜尋法 34
5.1 傳統光束搜尋法 34
5.2 動態光束搜尋法 38
第六章 結合音框過濾法與動態光束搜尋法46
第七章 結論 48
參考資料 49

[1] Q. Zhou, W. Chou, "An approach to continuous speech recognition based on layered self-adjusting decoding graph," ICASSP-97. Vol.3. pp.1779-1782, 1997.
[2] D. B. Paul, "Algorithms for an optimal A* search and linearizing the search in the stack decoding," in Proc ICASSP-91,pp.693-696,1991.
[3] R. Haeb-Umbach,H.Ney, "Improvements in Time-Synchronous Beam Search for 10,000-Word Continuous Speech Recognition," IEEE Trans. On Speech and Audio Processing,Vol. 2,pp. 353-356,April 1994.
[4] V.Steinbiss,G.-H.Tran and H.Ney, "Improvements in Beam Search," ICSLP-94, Yokohama,Japan,Vol.4,pp.2143-2146,1994.
[5] B.Gold and R.P.Lippmann, "A Neural Network for Isolated Word Recognition," ICASS-88,pp.44-47,1988.
[6] Hsin-Min wang, et al, "Complete Recognition of Continuous Mandarin Speech for Chinese Language with Very Large Vocabulary using Limited Training Data," IEEE trans. On Speech and Audio Processing, Vol.5,No.2,MaRCH-97,pp.195-200,1997.
[7] H.Ney, "The use of a one-stage dynamic programming algorithm for connected word recognition," IEEE Trans. Acount., Speech, Signal Processing,vol.32,no.2,pp263-271,Apr,1984.
[8] Patel, S. "An O( ) Viterbi algorithm," Acoustics, Speech, and Signal Processing, ICASSP-97, Volume: 3, pp. 1795 -1798 ,1997.
[9] 梁建安. "大字彙國語連續語音辨認的進一步研究," 台灣大學碩士論文.

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
系統版面圖檔 系統版面圖檔