跳到主要內容

臺灣博碩士論文加值系統

(54.173.214.227) 您好!臺灣時間:2022/01/29 15:34
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:林威成
研究生(外文):Wei-Cheng Lin
論文名稱:使用遞迴式類神經網路之語音段切割
論文名稱(外文):RNN-based Segmentation for Speech Recognition
指導教授:王逸如王逸如引用關係
指導教授(外文):Yih-Ru Wang
學位類別:碩士
校院名稱:國立交通大學
系所名稱:電信工程系
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2002
畢業學年度:90
語文別:中文
論文頁數:54
中文關鍵詞:遞迴式類神經網路切割多層式類神經網路有限狀態機隱藏式馬可夫模型
外文關鍵詞:recurrent neural networksegmentationMLPFSMHMM
相關次數:
  • 被引用被引用:4
  • 點閱點閱:689
  • 評分評分:
  • 下載下載:233
  • 收藏至我的研究室書目清單書目收藏:1
在本論文中,主要針對連續語音的預切割系統,進行研究與分析。在此提出以遞迴式類神經網路結合有限狀態機的基本架構,對連續語音做粗分類與細分類,以供不同目的的後級處理器使用。在粗分類方面,我們將連續語音分為靜音與語音兩部分,由實驗結果可知,能得到正確的靜音與語音邊界。在細分類方面,我們將語音分為聲母、韻母、韻尾鼻音、靜音與聲母-韻母間的轉換狀態,在實作的過程中,我們發現對於音節耦合處,預切割無法有效的處理。因此我們對產生連音的情形做統計與分析,並建立連音模型,使得後級的音節辨認系統可以運用這些資訊以得到辨認率的提升。最後,對於韻律片語邊界的偵測,我們提出高斯混和模型與多層神經元的類神經網路兩種方法,也可以得到不錯的辨識結果。
In this thesis, the recurrent neural network (RNN) and finite state machine (FSM) were used to construct a pre-segmentation unit in speech processing system. A RNN pre-segment network was used to classify the input speech into silence, initial, final and nasal. Two speech databases, MAT-2000 and TCC-300, were used to examine the effectiveness of the RNN pre-segment network. And the FSM’s were used in second stage to constraint the segmentation result according to the phonetic structure of Mandarin speech. First, a FSM was used to classify the input signal into silence/speech. And another FSM was used to segment the signal into silence, initial, initial/final transition, final, nasal, silence. The performance of above two RNN-FSM segmentation schemes was carefully examined by experiments. Finally, beside the sentence and syllable boundaries, the prosodic boundaries of speech was also be detected by using a statistical method and MLP neural network.
第一章 緒論 1
1.1 研究動機 1
1.2 中文語音的性質 2
1.3 章節概要 4
第二章 語音辨認的基本技術與遞迴式類神經網路的基本架構 5
2.1 語音特徵參數 5
2.2 隱藏式馬可夫模型 6
2.3 連續音的預切割網路 7
2.4 遞迴式類神經網路的基本架構 8
第三章 使用遞迴式類神經網路之連續語音預切割系統 12
3.1 電話線語料庫 12
3.2 麥克風語料庫 13
3.3 遞迴式類神經網路基本實驗 14
3.4 有限狀態機用於初級的語音段判斷 19
3.4.1 初級語音判斷與隱藏式馬可夫模型切割的比較與分析 23
3.4.2 初級語音判斷與人工切割的比較與分析 25
3.5 有限狀態機用於音節的語音段判斷 27
3.5.1 音節的語音段判斷之結果分析 31
3.6 連音模型的建立與實驗結果 34
第四章 韻律片語邊界之偵測 36
4.1 使用混合式高斯模型與RNN-FSM的切割做韻律邊界之偵測 36
4.1.1 模型的建立與測試 37
4.2 使用混合式高斯模型與HMM的切割做韻律邊界之偵測 40
4.3 使用類神經網路偵測韻律邊界 41
第五章 結論與未來展望 43
5.1 結論 43
5.2 未來展望 44
參考文獻 45
附錄 47
[1] Lawrence Rabiner and Bing-Hwang Juang, ”Fundamentals of Speech Recognition”, Prentice Hall, 1993.
[2] S. Haykin, “Neural Networks, A Comprehensive Foundation”, Prentice Hall, 1994.
[3] Yuan-Fu Liao and Sin-Horng Chen, “An MRNN-based Method for Continuous Mandarin Speech Recognition”, Proc. IEEE Intern. Conf. on Acoust., Speech and ans Signal Process.(ICASSP), Vol.2, pp.1121-1124, 1998.
[4] James A. Freeman and David M. Skapura, “Neural Networks, Algorithms, Applications, and Programming Techniques”, Addison Wesley, 1991.
[5] 廖元甫,”使用遞迴類神經網路作中文單字音辨認”,國立交通大學碩士論文,民國八十二年六月。
[6] 游山銳,”使用遞迴式類神經網路之語音辨認前處理”,國立交通大學碩士論文,民國八十九年六月。
[7] 吳瑞彬,”不特定語者國語連續語音音節辨認”,國立交通大學碩士論文,民國八十五年六月。
[8] 蔡忠安,”語者調適和正規化技術在語音辨認之初步研究”,國立交通大學碩士論文,民國八十七年六月。
[9] Dempster, A., Laird, N., Rubin, D., “Maximum likelihood from incomplete data via the EM algorithm”, Journal of Royal Statistical Society 39, 1-38, 1977.
[10] S. E. Levinson, L. R. Rabiner, and M. M. Sondhi, “An Introduction to the Application of the Theory of Probabilistic Function of a Markov Process to Automatic Speech Recognition”, The Bell System Technical Journal, Vol.62, No. 4, April 1983.
[11] 呂儲仰,”國語連續音節辨認系統之改進與分析”,國立交通大學碩士論文,民國九十一年六月。
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top