(3.238.186.43) 您好!臺灣時間:2021/03/02 09:30
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

我願授權國圖
: 
twitterline
研究生:潘奕誠
論文名稱:大字彙中文連續語音辨認之一段式及以詞圖為基礎之搜尋演算法
論文名稱(外文):One-Pass and Word-graph-based Search Algorithms for Large Vocabulary Continuous Mandarin Speech
指導教授:李琳山李琳山引用關係
學位類別:碩士
校院名稱:國立臺灣大學
系所名稱:資訊工程學研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2002
畢業學年度:90
語文別:中文
論文頁數:110
中文關鍵詞:語音搜尋演算法詞圖語言模型聲學模型人工智慧發音變異
相關次數:
  • 被引用被引用:5
  • 點閱點閱:178
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:17
  • 收藏至我的研究室書目清單書目收藏:0
摘要
國語連續語音辨認對於中文世界中人與網路的介面而言是一項相當重要的技術,因為連續語音是人類最自然的表達方式,且不需經由太多的訓練與練習。因此本論文主要的研究目標,即是發展出適合大字彙中文連續語音辨認的搜尋演算法,使其能達到快速精確的目的。
本論文可大致分為三個部分,第一個部分我們就一段式以詞為條件的搜尋演算法作詳細的探討,並對相關係數作實驗分析。程式安排上,我們先建構詞樹,並對語音取樣取好特徵向量,進入搜尋引擎以時間同步的方式先作維特比搜尋,經由削除法則將剩下的假設狀態作語言模型重結合的動作,再經由第二次的削除法則將剩下的詞尾作詞樹拷貝動作轉移出新的假設狀態,以此進行到最後一個音框,最後可得到最佳搜尋路徑,即最佳詞串。在參數調整上,我們調了三個參數,分別是語言模型比重,光束寬度,及語言模型平滑化的方法。另外我們也對加快策略作了分析,分別為預查語言模型與間隔時間作詞尾延展。在記憶體的節省上我們也引入了回溯指標削除的方法來有效控制記憶體的膨脹速度。最後我們與兩段式演算法作比較,也發現本論文中所提出的一段式以詞為條件的演算法在辨認率上確實優於單純的兩段式演算法。
第二部份為根據第一部份演算法作進一步延伸產生了詞圖建構演算法,並據以做為精緻型兩段式演算法的根基,也發現如此可以大幅縮簡計算時間且辨認率也不會下降太多。
第三部份介紹兩種增進辨識率的方法,分別為發音變異模型與詞遺失處罰模型,實驗數據也顯示,這兩種方法確實有提昇辨識率的功效。
摘要 3
緒論 5
1.1研究動機 5
1.2連續語音的特性 7
1.3本論文研究主題的背景 9
1.4本論文所採用的研究方法與主要成果 11
1.5章節大要 11
第二章 搜尋演算法的基本技術及相關研究 12
2.0 搜尋在大字彙連續語音中所扮演的角色 12
2.1傳統的搜尋演算法 14
2.2 總結 29
第三章 大字彙連續語音的搜尋技術 30
3.0概述 30
3.1一段式(One-Pass)以詞為條件的(Word — Conditioned)搜尋演算法 31
3.2一段式(One-Pass)以時間為條件的(Time - Conditioned)搜尋演算法 44
3.3以時間為條件與以詞為條件兩演算法的比較 49
3.4結論 53
第四章 一段式以詞為條件搜尋法的初步程式設計,問題處理及實驗結果 54
4.0 概論 54
4.1 實驗環境 55
4.2 實驗中所用來存取假設狀態的資料結構 57
4.3 時間同步削除(Time synchronous pruning) 60
4.4 預查語言模型(Language Model Look-Ahead) 62
4.5 聲學模型分數與語言模型分數的比重(weight) 65
4.6 回溯指標的削除(Pruning of Backtrace-Pointer) 70
4.7 加快搜尋的方法 71
4.8 不同的光束寬度對搜尋時間及辨識率的影響 72
4.9 不同的語言模型所帶來的影響 73
4.10 與兩段式搜尋法作比較 79
4.11 總結實驗結果 82
4.12 結論 83
第五章 詞圖(Word Graph)建構演算法 84
5.0 概論 84
5.1 詞圖的詳述(specification) 85
5.2 詞對近似(Word pair approximation) 87
5.3 產生詞圖的演算法 90
5.4 詞圖的削除(Word graph pruning) 93
5.5 詞圖的重計分(Word graph rescoring) 94
5.6 實驗結果 95
5.7 結論 96
第六章 其它增進辨識率的技術 97
6.0 概論 97
6.1 發音變異(pronunciation Variation) 98
6.2 實驗結果 102
6.3 詞遺失處罰(Word Deletion Penalty) 104
6.4 結論 107
第七章 結論與展望 108
7.1 結論 108
7.2 展望 109
參考文獻 111
參考文獻
[1] C.H.Lee,et al. ,“A Frame-Synchronous Network Search Algorithm for Connected Word Recognition”,IEEE Trans.on Acoustics,Speech,and Signal Processing,Vol 37 NO.11,pp. 1649-1658,Nov,1989.
[2] H.Ney,et al., “Large Vocabulary Continuous Speech Recognition of Wall Street Journal Data”,IEEE,1994.
[3] H.Ney ,et al., “Dynamic Programming Search for Continuous Speech Recogniton”,IEEE Signal Processing Magzine,pp. 64-83,Sep,1999.
[4] H.Ney ,et al., “Extensions to the Word Graph Method For Large Vocabulary Continuous Speech Recognition”,IEEE,1999.
[5] H.Ney ,et al., “Data Driven Search Organization for Continuous Speech Recognition”,IEEE Trans,on Signal Processing,Vol.40,No.2,Feb,1992
[6] H.Ney ,et al., “Progress in Dynamic Programming Search for LVCSR”,IEEE Proceeding,Vol.88,No.8,pp1224-1240,Aug,2000.
[7] S.Ortmanns,et al., “The-Time-Conditioned Approach in Dynammic Programming Search for LVCSR”,IEEE Trans.on Speech and Audio Processing,Vol.8,No.6,pp.676-687,Nov,2000.
[8] S.Ortmanns,et al., “A Word Graph Algorithm for Large vocabulary Continuous Speech Recognition”,Computer Speech and Language(1997) II,pp.43-72.
[9] Mike Schuster, “Memory-efficient LVCSR Search Using a One-Pass Stack Decoder”,Computer Speech and Language(2000)14,pp.47-77.
[10] X.Huang,et al., “Spoken Language Processing”,Microsoft Research,2002,全華科技圖書
[11] 謝宏昀, “以單一階段整合聲學,語言學和音韻學的及大字彙國語連續語音辨認架構”,國立台灣大學碩士論文,中華民國八十五年六月
[12] 何泰軒, “極大字彙中文連續語音的快速精確辨認法之研究” ,國立台灣大學碩士論文,中華民國八十四年六月.
[13] Kneser,R.and H.Ney, “Improved Backing-off for N-gram Language Language Modeling”in Proc. Of the IEEE Int.Conf.on Acoustics,Speech and Signal Processing 1995,Detroit,MI,pp.181-184.
[14] 陳柏琳, “中文語音資訊檢索-以音節為基礎之索引特徵,統計是檢索模型及進一步技術”,國立台灣大學博士論文,中華民國九十年五月.
[15] Helmer Strik*,Catia Cucchiarini, “Modeling Pronunciation Variation for ASR: A Survey of the Literature”,Speech Communicaton 29(1999),pp.225-246.
[16] Ming-yi Tsai, Fu-chiang Chou,Lin_shan Lee“Improved Pronunciation Modeling By Inverse Word Frequence and Pronunciation Entropy”ASRU 2001.
[17] Lawrence Rabiner,Biing-Hwang Juang, “Fundamentals of Speech Recognition”,pp.395-409,華通書坊.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
1. 單文經(1998):評介二種多元評量:真實評量與實作評量。北縣教育,25,46-52。
2. 張清濱(1996):多元化的教學評量。研習資訊,13(3),1-10。
3. 桂怡芬(1996):紙筆與實作的互補:我的實作評量經驗。教育資料與研究,13,25-37。
4. 林清江(1998):當前教育改革的方向。文教新潮,3(4),2-8。
5. 吳璧純(1996):從變異與選擇建構論的觀點看別類評量。教育研究,49,46-61。
6. 吳毓瑩(1996):評量的蛻變與突破--從哲學思潮與效度理論思考起。教育資料與研究,13,2-15。
7. 吳清山(1998):解嚴以後教育改革運動之探究。教育資料集刊,32,261-275。
8. 鄭富森(1997):NATD的簡介與章程及二者之評論。測驗統計簡訊,20,1。
9. 鄭富森(1999):教學評量之省思與改進之道。教師天地,99,88(4),18-24。
10. 劉湘川(1999):多元化評量系統簡介。北縣教育,25,38-45。
11. 簡茂發(1999):多元化評量之理念與方法。教師天地,99,88(4),11-17。
12. 蘇義翔(1998):實作評量的理論與啟示。測驗與輔導,149,3099-3102。
13. 1. 王嘉龍,〈從教育部發起「全國兒童閱讀週」活動--談家庭親子閱讀活動〉,《全國新書資訊月刊》,2001.3,頁8-10。
14. 5. 吳進安,〈提高生活素質,減低文化失調〉,《幼獅月刊》,59卷第3期,1984.3,頁61-63。
15. 6. 吳進安,〈提高生活素質,減低文化失調〉,《幼獅月刊》,59卷第3期,1984.3,頁61-63。
 
系統版面圖檔 系統版面圖檔