跳到主要內容

臺灣博碩士論文加值系統

(44.222.64.76) 您好!臺灣時間:2024/06/17 10:24
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:張立邦
研究生(外文):Li-Pang Chang
論文名稱:應用貝氏資訊準則在語者切割和最適混合數決定之研究
論文名稱(外文):Research of applying Bayesian Information Criterion for Speaker Segmentation and Selection of Optimum Mixture Component
指導教授:李鴻璋李鴻璋引用關係劉艾華劉艾華引用關係
指導教授(外文):Hung-Chang LeeAy-Hwa Andy Liou
學位類別:碩士
校院名稱:淡江大學
系所名稱:資訊管理學系
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2003
畢業學年度:91
語文別:中文
論文頁數:37
中文關鍵詞:模型選擇理論貝氏資訊準則高斯混合模型適應性混合數
外文關鍵詞:Model Selection TheoryBayesian Information CriterionGaussian Mixture ModelAdaptive Mixture Component
相關次數:
  • 被引用被引用:1
  • 點閱點閱:455
  • 評分評分:
  • 下載下載:39
  • 收藏至我的研究室書目清單書目收藏:0
本篇論文主要在討論貝氏資訊準則(Bayesian Information Criterion; BIC)在語者切割(Speaker Segmentation)和決定高斯混合模型(Gaussian Mixture Model)的最適混合數(Optimum Mixture Component)兩個領域上的應用。第一部分介紹以貝氏資訊準則為基礎的語者切割演算法,觀察不同的視窗大小、不同的取樣頻率和不同的特徵維度對切割效果的影響,經實驗中發現視窗大小設為4秒、語料的取樣頻率設為10K Hz,以及採用13維的梅爾倒頻譜係數(Mel Frequency Cepstrum Coefficient)在短時間的語料下可以獲得較佳的偵測效果。之後再將貝氏偵測法與Tritshler[3]、Zhou[4]和Cettolo[5]所提出的三種改良方式做效果評估,在本實驗中顯示貝氏偵測法比Zhou的方法更能獲得好的偵測結果,而Tritshler和Cettolo的方法雖未能改良貝氏偵測法的偵測結果,但在平均執行時間上則較快。
在第二部分討論高斯混合模型中最適混合數決定的議題,我們應用貝氏資訊準則來決定最適混合數,並且提出適應性混合數(Adaptive Mixture Component)設定的概念,這種概念是基於各關鍵詞語料所呈現的統計分佈並不相同,因此應該針對其統計分佈來建立相對應的關鍵詞模型,此外透過關鍵詞不重覆的假設,我們提出以高斯混合模型為基礎的關鍵詞辨認法,並以此辨認法來檢驗適應性混合數設定的假說。最後實驗顯示以適應性混合數設定所得的辨認率可達9成以上,與採用固定混合數(Fixed Mixture Component)的方式最佳的情況相比雖未大幅超越,然而兩者的辨認結果差異往往不到2%,且由於適應性混合數所產生的總混合數較固定混合數還要少,因此運算速度較快,另外適應性混合數的設定方式可以不需人工介入來設定,所以仍然可以做為混合數設定的一種既好且快的選擇。
In this paper, we study on applying Bayesian Information Criterion (BIC) for speaker segmentation and selection of optimum model order of Gaussian Mixture Model (GMM). In the former part, we introduce the BIC-based speaker segmentation algorithm and explore the segmentation effects in window sizes, sampling rates and dimensions of voice feature. The experiment results reveal that when we set window size at 4 seconds, sampling rate at 10K Hz and 13 feature dimensions of Mel Frequency Cepstrum Coefficient, we can get better segmentation effects. After that we compare BIC-based segmentation method with the improved methods proposed by Tritshler[3], Zhou[4] and Cettolo[5]. We found BIC-based segmentation method is better than Zhou’s. Trishler’s and Cettolo’s effects are the same as BIC-based method, except they have less computation time.
In the second part, we discuss how to select the optimum mixture component of Gaussian Mixture Model. We also apply Bayesian Information Criterion to select optimum mixture component of Gaussian Mixture Model. In addition, we introduce the concept of Adaptive Mixture Component. This concept is derived from the difference of statistical distribution of speech keyword corpus. We should construct the corresponding keyword model based on this kind of difference. Moreover, speech keywords are rarely to be repeated. We propose GMM based speech keyword recognition method under this hypothesis. We use this recognition method to test Adaptive Mixture Component. Finally, we find the experiment reflect the recognition rates always upper 90% when applying Adaptive Mixture Component. Although, the results are not better than the optimum results caused among different Fixed Model Order settings, they differs only less than 2%. However, the total mixture components of Gaussian Mixture Model produced by Adaptive Mixture Component are much less than total mixture components produced by optimum Fixed Mixture Component setting. The means that we use less computation time when applying Adaptive Mixture Component. Besides, BIC-based selection method is setting-free method. As a result, we can view the BIC-based selection method along with the proposed Adaptive Mixture Component is a good, fast, and automatic method in Gaussian Mixture Model.
第一章、 緒論
1.1 研究背景………………………………………………………1
1.2 研究目標………………………………………………………2
1.3 研究成果………………………………………………………3
1.4 章節概要………………………………………………………4
第二章、 語音特特參數擷取……………………………………………5
第三章、 貝氏偵測法
3.1 模型選擇理論…………………………………………………9
3.2 貝氏偵測法……………………………………………………10
3.3 貝氏偵測法的改進……………………………………………11
第四章、 貝氏偵測法的評估實驗
4.1 實驗說明………………………………………………………14
4.2 不同視窗大小的實驗…………………………………………15
4.3 不同取樣頻率的實驗…………………………………………16
4.4 不同特徵維度的實驗…………………………………………17
4.5 貝氏偵測改進法的實驗………………………………………18
第五章、 貝氏混合數設定法
5.1 高斯混合模型…………………………………………………19
5.2 適應性混合數設定法…………………………………………23
5.3 以高斯混合模型為基礎的關鍵詞辨認法……………………24
第六章、 關鍵詞辨認法實驗
6.1 實驗說明………………………………………………………26
6.2 不同特徵維度與不同混合數的實驗…………………………26
6.3 不同的訓練語料長度與混合數對辨認率的實驗……………27
6.4 訓練語料長度不等對辨認率影響的實驗……………………29
6.5 關鍵詞內容長度不等對辨認率影響的實驗…………………29
6.6 關鍵詞內容與訓練語料長度不等對辨認率影響的實驗……30
第七章、 結論與展望……………………………………………………31
參考文獻………………………………………………………………… 34
附錄:貝氏資訊準則的推導…………………………………………… 36
[1] 李俊毅,“語音評分”,民國91年,國立清華大學碩士論文
[2] 詹順凱,“在多語者環境下之語者分割與語言辨認研究”,民國91年,國立清華大學碩士論文
[3] 鍾偉仁,“語者辨認與驗證之初步研究”,民國89年,國立台灣大學碩士論文
[4] Alain Tritschler and Ramesh Gopinath, “Improved speaker segmentation and segments clustering using the Bayesian Information Criterion,” Eurospeech 1999, Budapest, Hungary
[5] B. Zhou and J.H.L. Hansen, “Unsupervised Audio Stream Segmentation and Clustering Via The Bayesian Information Criterion,” ICSLP 2000
[6] D. A. Reynolds and Richard C. Rose, “Robust text-independent speaker identification using Gaussian Mixture Speaker Models,” IEEE Transactions on Speech and Audio Processing, Vol 3, No. 1, January 1995
[7] D. A. Reynolds, T. F. Quatieri and R. B. Dunn, “Speaker vertification using Gaussian Mixture Models,” Digital Signal Processing, Vol. 10, 2000
[8] Gideon Schwarz, “Estimating the dimension of a model,” The annals of Statistics 1978, Vol. 6, No. 2, p461-464
[9] Jean-Francois Bonastre, Perrine Delacourt, Corinne Fredouille, Teva Merlin and Christian Wellekens, “A speaker tracking system based on speaker turn detection for NIST evaluation,” ICASSP 2000
[10] Jelih-weih Hung, Hsin-min Wang and Lin-shan Lee, “Automatic Metric-based Speech Segmentation for Broadcast News via Principal Component Analysis”, ICSLP 2000
[11] Mauro Cettolo and Marcello Federico, “Model Selection criteria for acoustic Segmentation,” ISCA ITRW ASR, Paris France, September 2000
[12] Scoot Shaobing Chen and P.S. Gopalakrishnan, “Speaker, environment and channel change detection and clustering via the Bayesian Information Criterion,” in DARPA speech recognition workshop, 1998
[13] S. Wegmann, P. Zhan and L. Gillick, “Progress in broadcast news transcription at Dragon System,” ICASSP 1999
[14] Xuedong Huang and Alex Acero and Hsiao-Wuen Hon, “Spoken language processing,” Prentice Hall, 2001
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
1. 71. 劉典嚴(2002),「不可逆擋制度化的轉型式領導風潮」,品質月刊:26-29。
2. 70. 鄭伯壎,周麗芳,樊景立(2000),「家長式領導 : 三元模式的建構與測量」,本土心理學研究第14期:3-64。
3. 69. 鄭伯壎(2003),「台灣的組織行為研究:過去、現在、及未來」,應用心理研究第19期:35-87。
4. 63. 張淑姿(2001),「21世紀領導人的新能力-魅力領導」,塑膠資訊53期:56-64。
5. 59. 黃麗華(1995),「由老子的無為哲學談高階主管的領導智慧」,松商學報第3期:111-120。
6. 51. 郭登聰(1997),「民間力量與政府之間關係研討:一個內在結構的思考」,社區發展季刊第78期:65-72。
7. 47. 陳庚金(1997),「領導的策略與方法」,人事月刊第24卷第1期:8-14。
8. 45. 陳文隆(2002),「從領導特質驅動以領導風格經營」,品質月刊38卷:36-39。
9. 44. 唐永泰(2001),「魅力領導與追隨者效能影響之探討」,中國行政評論第10卷第2期:167-204。
10. 43. 翁慧敏(2001),「新多元時代人力資源發展策略-淺談『無疆界』領導理論」,人事月刊第32卷第3期:23-27。
11. 39. 卓春英(1995),「社會團體應有的社會責任」,社會福利:31-32。
12. 37. 吳志正(1994),「企業領導人之個人特質、領導型態、績效評估之相關性研究(上)」,人事月刊:25-32。
13. 36. 周珮儀(1998),「從社會型態的發展談領導權力的變遷」,人文及社會學科教學通訊8卷6期:111-121。
14. 30. 林振春(1997),「領導觀量表的編製及其在成人教育上的應用」,社會教育學刊26期:129-150。
15. 26. 林水波(1997),「領導者的廣結善緣角色」,人事行政第120期:7-13。