跳到主要內容

臺灣博碩士論文加值系統

(18.97.14.87) 您好!臺灣時間:2025/03/18 12:16
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:陳冠廷
研究生(外文):Kuan-Ting Chen
論文名稱:以樹狀結構有效使用調適語料之語者調適技術
論文名稱(外文):Tree-Structured Speaker Adaptation Approach for Efficient Use of Adaptation Data
指導教授:李琳山李琳山引用關係
指導教授(外文):Lin-Shan Lee
學位類別:碩士
校院名稱:國立臺灣大學
系所名稱:電信工程學研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:1999
畢業學年度:87
語文別:中文
論文頁數:152
中文關鍵詞:語音辨識語者調適隱藏式馬可夫模型樹狀結構參數共享
外文關鍵詞:speech recognitionspeaker adaptationhidden Markov modeltree structureparameter sharing
相關次數:
  • 被引用被引用:3
  • 點閱點閱:188
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:1
要達成讓語者調適技術富有彈性、具實用價值的目標,如何克服當調適語料量不足時必須快速提昇調適效果、而當語料量上升時又要使調適後模型辨識率能穩定增加的難題,是一個重要的關鍵。我們認為,要解決這個難題,一個關鍵的因素即在於參數共享複雜度以及參數估測自由度的控制上。
為了達成彈性化的架構,本論文採行的解決方案,是將整套聲學模型內所有的高斯混合成分 (Gaussian mixture component) ,透過由上而下分群的方式,建立為一組樹狀結構 (tree structure),讓整套模型在進行調適時,能根據語料量的不同,動態決定模型內每一高斯密度應該利用的參數共享群集。初步實驗顯示,這樣的調適架構(我們以TreeSA簡稱之)可以在快速調適上發揮一定程度的功能。
本論文主要的努力分為兩個方向,第一個方向是針對樹狀結構本身進行改良。我們首先嘗試以車諾夫距離 (Chernoff distance)代替離散度(divergence),作為分群時高斯密度間距離量測的標準,並以增加樹狀結構層數的方法,讓樹狀結構具備更多小範圍的群集,希望可以增加調適時共享的精密度。實驗結果顯示,這樣的作法對TreeSA調適效果的改善有一定的幫助。另外,針對分群演算法中,群集密度的計算方式,我們提出了一種訓練語料再利用的作法。我們修改群集密度的計算方式,改用加權平均的概念,讓在訓練語料裡較常出現的高斯密度可以主導節點分裂的方向。經過實驗,我們發現這樣的作法可以讓建構出來的樹狀結構所發揮的調適效果再作提昇。
此外,我們也考慮了藉著在子空間上分群的方法,來提昇樹狀結構對高斯密度特性的掌握程度。從實驗結果來看,當改用子空間分群的方法來建構樹狀結構時,對應的TreeSA可以在10句語料的調適後達成75.69%的辨識率,比起原來在整個模型空間上進行分群的調適架構再提昇了3.34%。
本論文第二個方向則是針對調適技術本身進行改善。我們嘗試利用MLLR來取代偏移向量的估測,將原本TreeSA所用的偏移向量補償法,以MLLR的回歸轉換來代替。實驗結果顯示,使用MLLR的確可以讓平均值向量的估測更加精準,但是此時共享複雜度的最佳決定方式變得比較難以控制。
接下來,我們考慮了不匹配機率密度函數 (mismatch pdf)的觀念,在進行TreeSA時,先行引進一個將差值(difference) 對高斯密度共變異矩陣進行正規化(normalization)的步驟,希望可以改善各高斯密度共變異矩陣特性的不同所帶來的偏移向量估測誤差。從實驗來看,這樣的作法可以讓原來的TreeSA有小幅的提昇。
最後,我們探討了一個以樹狀結構為基礎,且能適當合併先前知識,以達成最大後機率估測的語者調適技術SMAP。SMAP的實驗結果顯示,它能夠兼收貝氏調適法和以轉換為基礎之調適法的特長,在少量調適語料時,利用參數共享迅速提昇調適效果,而當語料量漸增時,它特有的結構化貝氏估測法也能穩定地將辨識率再作提昇。以實驗結果來看,同樣是利用樹狀結構Cher9s的語者調適法,當語料量達10句時,SMAP可以達成77.44%的辨識率,優於原始TreeSA的75.69%和MAP的72.18%;再以30句調適語料的實驗結果來看,SMAP可以達到79.95%的辨識率,也比MAP的77.03%和 原始TreeSA的77.86%來得優秀。因此我們可以說,SMAP已經相當程度地達成我們對彈性化語者調適技術的要求。
第一章 緒論 1
1.1 研究動機 1
1.2 研究方向及目的 2
1.3 本論文之研究方法與主要成果 6
1.4 論文架構 10
第二章 國語語音辨識及語者調適技術簡介 11
2.1 國語語音辨識相關基礎 11
2.1.1 語音聲學辨識系統架構 11
2.1.2 隱藏式馬可夫模型簡介 13
2.2 語者調適技術之分類 14
2.3 彈性化語者調適技術之問題與挑戰 16
2.4 本論文研究之語者調適方法 19
2.4.1 貝氏調適法 19
2.4.2 利用樹狀結構高斯密度之語者調適 21
2.4.3 最大相似度線性回歸法 24
2.5 本章結論 25
第三章 實驗系統架構與基礎實驗 27
3.1 實驗架構 27
3.1.1 特徵參數擷取 27
3.1.2 聲學模型架構 28
3.1.3 初始模型 28
3.1.4 調適語料及測試語料 29
3.1.5 辨識率之計算 30
3.1.6 實驗之流程與討論 30
3.2 基礎實驗 31
3.2.1 語者特定模型之基礎實驗 31
3.2.2 貝氏調適法之基礎實驗 34
3.3 本章結論 43
第四章 利用樹狀結構高斯密度之語者調適法 44
4.1 以樹狀結構為基礎之語者調適法 44
4.1.1 原理簡介 44
4.1.2 樹狀結構的建立方式 48
4.2 初步實驗 52
4.3 樹狀結構建立方式的改良 63
4.3.1 採用車諾夫距離作為距離量測方式 63
4.3.2 增加樹狀結構之層數 70
4.3.3 訓練語料的再利用 77
4.3.4 本節結論 86
4.4 以子空間為基礎的樹狀結構 90
4.5 本章結論 102
第五章 利用樹狀結構的語者調適技術之改良 105
5.1 原始技術之缺失 105
5.2 語者調適模型與初始模型之合併 107
5.3 最大相似度線性回歸法與樹狀結構高斯密度的整合 115
5.4 不匹配機率密度函數概念的引進 123
5.5 結構化最大後機率估測法 130
5.6 本章結論 142
第六章 結論及展望 144
6.1 結論 144
6.2 展望 148
參考文獻 150
【1】 L.R. Rabiner, Biing-Hwang Juang, "Fundamentals of Speech Recognition", Prentice Hall Co. Ltd., 1983
【2】 Jean-Luc Gauvain, Chin-Hui Lee, "Maximum a Posteriori Estimaiton for Multivariate Gaussian Mixture Observations of Markov Chains", IEEE Transactions on Speech and Audio Processing, 1984
【3】 Chin-Hui Lee, Chih-Heng Lin, Biing-Hwang Juang, "A Study on Speaker Adaptation of Continuous Density HMM Parameters", Proc. 1990 ICASSP
【4】 C. J. Leggetter, P. C. Woodland, "Speaker Adaptation of HMMs Using Linear Regression", CUED / F-INFENG / TR.181, 1994
【5】 C. J. Leggetter, P. C. Woodland, "Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Density Hidden Markov Models", Computer Speech and Language, 1995
【6】 M. J. F. Gales, P. C. Woodland, "Mean and Variance Adaptation within the MLLR Framework", Computer Speech and Language, 1996
【7】 M. J. F. Gales, "The Generation and Use of Regression Class Trees for MLLR Adaptation", CUED / F-INFENG / TR263, 1996
【8】 Masahiro Tonomura, Tetsuo Kosaka, Shoichi Matsunaga, "Speaker Adaptation Based on Transfer Vector Field Smoothing Using Maximum a Posteriori Probability Estimation", Computer Speech and Language, 1996
【9】 S. E. Johnson, P. C. Woodland, "Speaker Clustering Using Direct Maximisation of the MLLR-Adapted Likelihood", Proc. ICSLP, 1998
【10】 Ashvin Kannan, Sanjeev Khudanpua, "Tree-Structured Models of Parameter Dependence for Rapid Adaptation n Large Vocabulary Conversational Speech Recognition", Proc. ICASSP, 1999
【11】 Vassilios Digalakis, Leonardo Neumeyer, "Speaker Adaptation Using
Combined Transformation and Bayesian Methods", Proc. ICASSP, 1995
【12】 Takao Watanabe, Koichi Shinoda, Keizaburo Takagi, Eiko Yamada, "Speech Recognition Using Tree-Structured Probability Density Function", Proc. ICSLP, 1994
【13】Koichi Shinoda, Takao Watanabe, "Speaker Adaptation with Autonomous Control Using Tree Structure", Proc. EuroSpeech, 1995
【14】Koichi Shinoda, Takao Watanabe, "Speaker Adaptation with Autonomous Model Complexity Control by MDL Principle", Proc. ICASSP, 1996
【15】Koichi Shinoda, Chin-Hui Lee, "Structural MAP Speaker Adaptation Using Hierarchical Priors", Proc. IEEE Workshop on Speech Recognition and Understanding, 1997
【16】Koichi Shinoda, Chin-Hui Lee, "Unsupervised Adaptation Using Structural Bayes Approach", Proc. ICASSP, 1998
【17】Masahiro Tonomura, Tetsuo Kosaka, Shoichi Matsunaga, Akito Monden, "Speaker Adaptation Fitting Training Data Size and Contents", Proc. EuroSpeech, 1995
【18】沈家麟, 「國語聽寫機之進一步技術與金聲三號視窗95實用版」, 國立台灣大學電機工程學研究所博士論文, 中華民國八十五年十二月
【19】王新民, 「極大字彙國語連續語音辨認:金聲三號(工作站版)」, 國立台灣大學電機工程學研究所博士論 文, 中華民國八十四年七月
【20】陸康瑋, 「國語語音辨認中語者調適技術之研究」, 國立台灣大學電機工程學研究所碩士論文, 中華民國八十 四年六月
【21】曾國裕, 「國語語音辨認之快速語者調適技術之研究」, 國立台灣大學電機工程學研究所碩士輪文, 中華民國 八十七年六月
【22】梁伯宇, 「國語語音辨識之聲學模型研究」, 國立台灣大學電機工程學研究所碩士論文,中華民國八十七年 六月
【23】陳偉鵬, 「國語語音辨認中使用狀態整合之改良式聲學模型」, 國立台灣大學電機工程學研究所碩士論文, 中 華民國八十五年六月
【24】謝宏昀, 「以單一階段整合聲學、語言學和音韻學的極大字彙國語連續語音辨認架構」, 國立台灣大學電機 工程學研究所碩士論文, 中華民國八十五年六月
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top