跳到主要內容

臺灣博碩士論文加值系統

(3.236.225.157) 您好!臺灣時間:2022/08/16 00:26
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:邱建宏
研究生(外文):Jian-Hong Qiu
論文名稱:具有調適功能的關鍵詞辨認系統
論文名稱(外文):The Adaptive Keyword Spotting System
指導教授:王小川王小川引用關係
指導教授(外文):Hsiao-Chuan Wang
學位類別:碩士
校院名稱:國立清華大學
系所名稱:電機工程學系
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2002
畢業學年度:90
語文別:中文
論文頁數:94
中文關鍵詞:語者調適關鍵詞語音辨識
外文關鍵詞:Speaker AdaptiveKeyword
相關次數:
  • 被引用被引用:0
  • 點閱點閱:135
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:2
在語音辨識領域中,關鍵詞辨認主要是針對特定應用場合,設定特定關鍵詞,使用者只需透過特定關鍵詞即能使系統為使用者服務。由於大多數關鍵詞辨認系統的服務對象設定於大眾,對於聲音特殊的使用者可能系統無法容易辨認出使用者對系統下達的指令,因此本論文提出在關鍵詞辨認系統中加入語者調適功能,對於腔調特殊或說話習慣特殊的使用者可以藉由語者調適的技術來調整聲學模型,並利用此模型作關鍵詞辨認能得到不錯的辨識效果。本論文研究方向主要是針對通道效應、關鍵詞辨認及語者調適作初步研究。
在電話通道效應方面,由於電話的濾波效應以及通道雜訊會影響辨識率,因此本論文分別用CMS、SBR和SM等方法來作補償,其音節正確率可以提升約2~6%。
在關鍵詞辨認方面,會因使用者的說話習慣或系統的音節模型不夠完善而形成音節的取代錯誤、刪除錯誤及插入錯誤而造成關鍵詞被隱藏。加入關鍵詞精鍊萃取法後,可以將隱藏在這些錯誤中的關鍵詞擷取出來。在多關鍵詞實驗中,加入關鍵詞精鍊萃取其關鍵詞正確率從72.7%提升至81.9%。
在語者調適方面,採用貝氏調適法(MAP)和最大相似度線性回歸法(MLLR)兩種方法作比較。兩種方法皆使用40句調適語料,在批次及監督式的調適環境下作MAP和MLLR調適,實驗結果關鍵詞正確率分別為93.18%和89.55%。
最後在微軟視窗2000環境下,利用電話介面卡在電話網路上建構一套具有調適功能的關鍵詞辨認系統,模擬醫院語音預約掛號作為實際測試,以驗證其實用性。

目錄…
圖目錄
表目錄
第一章 緒論
1.1 研究動機
1.2 電話語音之特性
1.3 關鍵詞辨認之特性
1.4 相關研究
1.5 研究方向
1.6 章節概要
第二章 語音辨認的基本技術
2.1 語音特徵參數的萃取
2.2 隱藏式馬可夫模型
2.3 連續語音的辨認方法
2.4 通道效應補償
2.4.1 倒頻譜平均值消去法
3.2.1 訊號偏移消除法
3.2.1 統計式對應法
第三章 中文關鍵詞辨認
3.1 雙層辨認架構
3.2 關鍵詞之分類設計
3.3 關鍵詞之精鍊萃取法
3.3.1 取代的處理
3.3.2 刪除的處理
3.3.3 插入的處理
第四章 語者調適
4.1 語者調適功能的建立
4.2 貝氏調適法
4.3 最大相似度線性回歸法
4.3.1 MLLR回歸矩陣的估算
4.3.2 使輔助函數為最大值
第五章 實驗結果與討論
5.1 語音資料庫簡介
5.2 基本模型的建立與實驗
【實驗5.1】基礎模型實驗
5.3 通道效應補償實驗
【實驗5.2】倒頻譜平均值消去法
【實驗5.3】訊號偏移消除法
【實驗5.4】統計式對應法
5.4 關鍵詞辨認實驗
【實驗5.5】關鍵詞辨認基礎實驗
【實驗5.6】關鍵詞精鍊萃取實驗
【實驗5.7】關鍵詞比對實驗
5.5 語者調適實驗
【實驗5.8】貝氏調適法(MAP)實驗
【實驗5.9】最大相似度線性回歸法(MLLR)實驗
第六章 即時展示系統的製作
6.1 系統架構
6.2 系統介面說明及操作程序
第七章 結論
參考文獻

【1】J.G. Wilpon, L.R. Rabiner, C.H. Lee, E.R. Goldmn, “Automatic recognition of keyword in unconstrained speech using hidden Markov models”, IEEE Trans. Acoustic, Speech, Signal Proc.,vol.38, no.11 pp.1870-1878, NOV 1990
【2】C.H. Wu, “Subsyllable-based discriminative segmental Baysian network for Mandarin speech keyword spotting”,IEE Proceedings- Vision, Image and Signal Processing, Volume:144 Issue:2 ,April 1997
【3】Mokbel, C.,Monne, J. and Jouvet, “On-line adaptation of a speech recognizer to variation in telephone line conditions”, Proc. EuroSpeech, 1993.
【4】Mazin G. Rahim, Biing-Hwang Juang, “Signal Bias Removel by Maximum Likelihood Estimation for Roust Telephone Speech Recognition”, IEEE Trans. ASSP. Jan 1996.
【5】Ananth Sankar, Chin-Hui Lee, “Stochastic Matching for Roust Speech Recognition”, IEEE Signal Processing Letters, VOL.1, NO.8, Auguest 1994.
【6】Hermansky, H., Morgan, N., Bayya, A. and Kohn, P., “Compensation for the effect of the communication channel in auditory-like analysis of speech(RASTA-PLP)”,Proc. EuroSpeech, 1991.
【7】Acero, A. and Stern, R.M., “Environmental robustness in automatic speech recognition”, Proc. IEEE International Conf. On Acoustic, Speech and Signal Processing, 1999.
【8】杜勇賜,”口語國語中關鍵詞擷取技術之初步研究 ”,國立台灣大學碩士論文,1996
【9】陳志豪,”利用411音填充模型之關鍵詞辨認系統 ”,國立交通大學碩士論文,1998
【10】詹豐懋,”利用國語411音間之混淆量測之關鍵詞辨認方法 ”,國立交通大學碩士論文,1999
【11】林家賢,”以音節格狀搜尋法作中文語音關鍵詞之辨認 ”,國立清華大學碩士論文,2000
【12】鄭漢銘,”關鍵詞辨認系統的研製 ”,國立清華大學碩士論文,1999
【13】鍾慧真,”關鍵詞語音辨認方法之改進 ”,國立清華大學碩士論文,1999
【14】簡忠弘,”關鍵詞辨認系統的研究與實現 ”,國立清華大學碩士論文,1997
【15】陳科旭,”使用右文相關聲韻母模式之國語關鍵詞辨認 ”,國立交通大學碩士論文,2000
【16】Anastaskos T., McDonough J., Schwartz R. & Makhoul J., “A Compact Model for Speaker Adaptive Training”, ICSLP, 1996.
【17】Anastasakos T., McDonough J., Schwartz R. & Makhoul J., “A Compact Model for Speaker Adaptive Training A Maxium likelihood Approach to Speaker Normalization”, ICSAAP, 1997.
【18】Jean-Luc Gauvain, Chin-Hui Lee, “Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Marko Chains”, IEEE Transactions on Speech and Audio Processing, 1994.
【19】Koichi Shioda, Chin-Hui Lee, “Structural MAP Speaker Adaptation Using Hierarchical Priors”, Proc. IEEE Workshop on Speech Recognition and Understanding”, 1997.
【20】C.J. Leggetter, P.C. Woodland, “Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Density Hidden Markov Models”, Computer Speech and Language, 1995.
【21】Masahiro Tonomura, Tetsui Kosaka, Shoichi Matunaga, “Speaker Adaptation Based on Transfer Vector Field Smoothing Using Maximum a Posteriori Probability Estimation”, Compuster Speech and Language, 1996.
【22】R. Kuhn, P. Nguyen, J.C. Junqua, R. Boman, N. Niedzielski, S. Fincke, K. Field, and M. Contolini, “Fast Speaker Adaptation in Eigenvoices Space”, ICSLP, 1999.
【23】Zuoying Wang, Feng Liu, “Speaker Adaptation Using Maximum Likelihood Model Interpolation”, ASRU, 1999.
【24】謝華君,”電話網路上國語連續音節辨認的初步研究 ”,國立清華大學碩士論文,1997
【25】徐志文,”國語關鍵詞擷取與發音確認之研究 ”,國立台灣大學碩士論文,2000
【26】H. Ney,”The use of a one stage dynamic programming algorithm for connected word recognition”,IEEE Trans. Acoustic, Speech, Signal Proc., vol.32, no.2, April 1984
【27】劉倚南,”具有強韌性及友善對話結構的辦公室電話語音轉接系統 ”,國立成功大學碩士論文,2000

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top