跳到主要內容

臺灣博碩士論文加值系統

(35.172.136.29) 您好!臺灣時間:2021/07/26 20:58
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:張友駿
研究生(外文):Yio-Jun Zhang
論文名稱:基於類神經網路之中文語音屬性偵測器
論文名稱(外文):A Neural Network based Mandarin Speech Attribute Detection
指導教授:王逸如王逸如引用關係
指導教授(外文):Yi-Ru Wang
學位類別:碩士
校院名稱:國立交通大學
系所名稱:電信工程系所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
畢業學年度:96
語文別:中文
論文頁數:65
中文關鍵詞:偵測器語音屬性
外文關鍵詞:DetectorSpeech Attribute
相關次數:
  • 被引用被引用:0
  • 點閱點閱:184
  • 評分評分:
  • 下載下載:4
  • 收藏至我的研究室書目清單書目收藏:0
新世代的自動語音辨識技術架構是一個以知識為基礎(knowledge-based),加上資料驅動(data-driven)的模式,其前端為語音屬性與事件偵測器群,藉由抽取不同的語音特徵參數去偵測某一時段中語音的屬性及事件,尋找任何可以提供語音辨識的線索,提供給後級作語音事件及知識整合後,作證據確認及決策,以其能夠突破目前語音辨識的能力與技術。
本論文基於此概念,首先由於中文語料庫並無精確的音素切割位置,因此我們從中文音節的切割位置起始對語料庫作自動切割以求得音素的初始切割位置,接著以Segmental Kmeans Segmentation Algorithm自動調整音素的切割位置,並以此切割位置製作中文發音方法偵測器。首先訓練線性的混合高斯模型偵測器,接著訓練非線性的多層感知機模型偵測器,之後以segment-based的概念在偵測過程中加入狀態轉移機率(State transition probability)來對於中文發音方法進行偵測實驗,最後引入信任度量測(Confidence measure)來對偵測結果可靠的程度作量化的評比,提供語音資訊傳給後級辨識器當參考依據。最後再對各架構語音屬性偵測器以及信任度量測作效能與錯誤分析
Next generation ASR system is a knowledge-based and data-driven paradigm. It’s front-end is the bank of speech attribute and event detectors, and it’s function is to detect the speech attributes and events in the speech signal. By organizing the outputs of front-end and knowledge, it would be sent to next stage to make evidence verified and decision. It would be expected to exceed the current state-of-the-art HMM-based ASR.
Based on the concept, firstly, because there is no manual labeling for Mandarin corpus ,we start with syllable labeling and then forced-align the corpus to get initial phone labeling. Then we use Segmental Kmeans Segmentation Algorithm to automatically refine phone labeling and use this phone labeling to train Mandarin attribute detector. First, we train linear GMM based detector and then train nonlinear MLP based detector. Then based on concept of segment-based ,we add state transition probability to MLP based detector to examine Mandarin speech detection. Secondly, we use confidence measure to evaluate the result of attribute detection, providing confident speech information to recognizer for reference. Finally, we would make error analysis and performance evaluation of different Mandarin speech attribute detectors and confidence measure.
中文摘要 …..I
英文摘要 …...II
誌謝 .........III
目錄 ….......IV
表目錄 …..VI
圖目錄 …..........VII
第一章 緒論 .......1
1.1 研究動機 1
1.2 研究方向 2
1.3 章節概要 2
第二章 以音框為基礎的中文發音方法貝氏偵測器之初步建立 ...3
2.1 中文音節標記檔的訂正 .........3
2.2 中文音素切割位置的取得 .......6
2.3 中文語音屬性偵測器之初步建立 ...........................14
2.3.1 高斯混合模型 ..............15
2.3.2 貝氏偵測器架構 ..........16
2.3.3 中文發音方法偵測器之偵測效能 ................17
第三章 進階中文語音屬性偵測器之建立 .....................19
3.1以MLP模型為基礎發音方法貝氏偵測器之製作 ..19
3.1.1 MLP模型偵測器架構 ..19
3.1.2 MLP模型偵測器之偵測效能 ........................20
3.2 MLP模型為基礎加上狀態轉移機率的發音方法偵測 ............25
3.2.1整合狀態轉移機率的偵測架構 .....................25
3.2.2整合狀態轉移機率的偵測效能 .....................26
3.3以frame-based MLP偵測器為基礎之階層式信任度量測 ........34
3.3.1階層式信任度量測架構 .................... ........... 34
3.3.2階層式信任度量測效能 ................................ 36
第四章 中文發音方法偵測器的效能的分析與討論 ..........39
4.1中文發音方法偵測器對於各發音方法之偵測錯誤分析 .........39
4.1.1 MLP偵測器容易偵測錯誤的發音方法類別 39
4.1.2 MLP偵測器加入轉移機率容易偵測錯誤的發音方法類別 ....41
4.2中文發音方法偵測器對於各音素之偵測錯誤分析 43
4.2.1 MLP偵測器容易偵測錯誤的音素類別 ........43
4.2.2 MLP偵測器加入轉移機率容易偵測錯誤的音素類別....45
4.3中文連續語音當中連音現象造成屬性偵測錯誤的分析 ...49
4.4音素邊界附近屬性偵測錯誤對整體偵測錯誤率的影響 ...51
4.5信任度量測錯誤的統計與分析 .......................54
第五章 結論與未來展望 ....................58
5.1 結論 .......58
5.2 未來展望 ..........................59
參考文獻 ..............60
附錄一 加入轉移機率MLP偵測器等錯誤率下音段長度分佈 ...62
附錄二 中文音素分類及漢拼、注音對照表 ................65
【1】 C.-H. Lee, “From knowledge-ignorant to knowledge-rich modeling:A new speech research paradigm for next generation automatic speech recognition”
Proc. ICSLP2004, Keynote speech, 2004
【2】 Sérgio Paulo , Luís C. Oliveira ,“Automatic Phonetic Alignment and Its Confidence Measures”, Advances in Natural Language Processing,Vol.3230, pages 36-44,2004.
【3】 Jinsong Zhang, Keikichi Hirose “Tone nucleus modeling for Chinese lexical tone recognition” , Speech Communication 42(2004) pages447-466.
【4】 王小川,“語音訊號處理”,全華科技圖書,中華民國九十三年三月。
【5】 許見徨,“中文語音屬性偵測之研究”,交通大學電信工程所,中華民國九十六年八月。
【6】 C.-H. Lee, “A Study on Separation between Acoustic Models and Its Applications,” Proc. ICASSP2005
【7】 S. Young, G. Evermann, M. Gales, T. Hain, D. Kershaw, G. Moore, J. Odell, D. Ollason, D. Povey,V. Valtchev, P. Woodland, ”The HTK Book (for HTK Version 3.3)”, Cambridge University, 2005
【8】 R. P. Lippmann, L C. Kukolich, and E. Singer, “LNKnet: Neural Network, Machine Learning, and Statistical Software for Pattern Classification”, Lincoln Laboratory Journal, vol. 6, pp. 249-268, 1993.
【9】 Erhan Mengusoglu, Christophe Ris,” Use of Acoustic Prior Information for Confidence Measure in ASR application ”,TCT Lab , Mons , Belgium , Eurospeech 2001-Scandinavia.
【10】 Bilmes J.A., "A Gentle Tutorial of the EM algorithm and its application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models", ICSI-Technical Report-97-021, 1997.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top