跳到主要內容

臺灣博碩士論文加值系統

(54.172.135.8) 您好!臺灣時間:2022/01/18 14:45
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:吳政麟
研究生(外文):Cheng-Lin Wu
論文名稱:基於語者及方言屬性作自動分群之研究
論文名稱(外文):Automatic utterance clustering based on speaker and dialect attributes
指導教授:張文輝
指導教授(外文):Wen-Whei Chang
學位類別:碩士
校院名稱:國立交通大學
系所名稱:電信工程系
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2002
畢業學年度:90
語文別:中文
論文頁數:52
中文關鍵詞:語者分群方言分群高斯混合模型BBN音調音素
外文關鍵詞:Speaker clusteringDialect clusteringGMMBBNprosodyphoneme
相關次數:
  • 被引用被引用:0
  • 點閱點閱:259
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:1
本論文之研究目的在於發展一種不特定詞彙之自動語句分群系統,特別是針對構音與韻律兩大聲學特性之整合,以期提供一具體可行的中文口語資料檢索方法。研究主題可依分群對象區分為兩部份,第一部份是探討不特定語者數目的語者分群系統,同時正確偵測出未知語者數目下的最佳分群數目。第二部份是針對台灣境內的三種主要方言-北京話、客家話與河洛話進行方言分群。根據實驗結果顯示,藉由訓練完成之高斯混合模型計算出之語句間距,成功整合構音與韻律特徵於提昇自動語句分群之正確率。
As a part of multilingual spoken language system, reliable techniques are needed to cluster various utterances in order to classify and index large speech database. This work is aimed to develop an automatic utterance clustering algorithm that takes context-independent utterances as input and outputs the identity of a speaker or a dialect. The system has been trained to cluster fifty speakers or three Chinese dialects (Mandarin, Holo, and Hakka), but could be easily extended to include more speakers or dialects as well. It is well-known that dialects or speakers differ from each other with respect to their typical sequential statistics of phonemes and pitch contours. By integrating phonetic and prosodic information through Gaussian Mixture Models (GMM), we reported the benefits of a new hybrid clustering system that is capable of achieving higher accuracy rates.
中文摘要…………………………………………………………………i
英文摘要 ………………………………………………………………ii
誌謝 …………………………………………………………………iii
目錄……………………………………………………………………iv
圖目錄 …………………………………………………………………vi
表目錄 ………………………………………………………………viii
第一章 緒論……………………………………………………………1
1.1 研究動機………………………………………………………1
1.2 研究方向………………………………………………………1
1.3 章節概要………………………………………………………2
第二章 語音參數擷取…………………………………………………3
2.1 構音特徵參數…………………………………………………3
2.2 韻律特徵參數…………………………………………………5
2.2.1 音高輪廓抽取………………………………………………7
2.2.2 離散正規轉換………………………………………………8
第三章 分群演算法……………………………………………………12
3.1 階梯式分群法………………………………………………12
3.2 語句間距……………………………………………………13
3.3 叢集間距……………………………………………………15
3.4 樹狀圖的建構………………………………………………16
3.5 樹狀圖的層級切割…………………………………………17
第四章 自動語者分群…………………………………………………21
4.1 高斯混合模型………………………………………………21
4.1.1 模型敘述………………………………………………22
4.1.2 模型訓練………………………………………………23
4.1.2.1 二元分裂法……………………………………24
4.1.2.2 期望值最大化演算……………………………24
4.2 結合構音與韻律訊息之自動語者分群…………………………26
4.3 語者分群實驗結果………………………………………………26
第五章 中國方言的分群處理…………………………………………32
5.1 中國方言特性………………………………………………32
5.2 實驗結果……………………………………………………37
第六章 結論與未來展望………………………………………………44
參考文獻………………………………………………………………46
圖目錄
圖2.1 梅爾刻度的三角帶通濾波器…………………………………4
圖2.2 頻率刻度的三角帶通濾波器…………………………………5
圖 2.3 北京話的四種聲調……………………………………………6
圖 2.4 河洛話的七種聲調……………………………………………6
圖 2.5 客家話的六種聲調……………………………………………7
圖 2.6 原始語音之音高輪廓…………………………………………10
圖 2.7 離散正規轉換後重建之音高輪廓……………………………10
圖 2.8 構音與韻律特徵參數計算……………………………………11
圖 3.1 階梯式分群流程圖……………………………………………13
圖 3.2 構音與韻律訊息的語句間距計算……………………………15
圖 3.4收斂樹狀圖……………………………………………………17
圖 3.5發散樹狀圖……………………………………………………17
圖 3.6鄰近純度估計法………………………………………………20
圖 4.1高斯混合模型示意圖…………………………………………23
圖 4.2 GMM訓練結果…………………………………………………25
圖 4.3 構音特徵參數的叢集間距比較………………………………28
圖 4.4韻律特徵參數的叢集間距比較………………………………29
圖 4.5 整合構音與韻律訊息於已知群數的語者分群結果…………30
圖 4.6在未知群數下採用BBN評比值的語者分群結果……………31
圖 5.1 以北京話為準之CE語句間距分佈…………………………38
圖 5.2 以河洛話為準之CE語句間距分佈…………………………39
圖 5.3 以客家話為準之CE語句間距分佈…………………………39
圖 5.4構音特徵參數的叢集間距比較………………………………40
圖 5.5韻律特徵參數的叢集間距比較………………………………41
圖 5.6 整合CE語句間距之權值結果………………………………42
圖 5.7 整合構音與韻律訊息於已知群數的方言分群結果…………43
圖 6.1語句分群系統流程圖…………………………………………45
表目錄
表 2.1 北京話、河洛話與客家話之聲調分類…………………………6
表 4.1 交大與成大語料庫原始錄音環境……………………………27
表 4.2 交大語料庫統計表……………………………………………27
表 4.3 成大語料庫統計表……………………………………………27
表 4.4在未知群數下採用BBN評比值的語者分群結果……………30
表 5.1 單字音結構……………………………………………………32
表 5.2 北京話聲母……………………………………………………33
表 5.3 河洛話聲母……………………………………………………33
表 5.4 客家話聲母……………………………………………………33
表 5.5 北京話韻母……………………………………………………34
表 5.6 河洛話韻母……………………………………………………34
表 5.7 客家話韻母……………………………………………………35
表 5.8 語料庫錄製環境說明…………………………………………37
表 5.9 語者的年齡分佈………………………………………………38
表 5.10 語者的生長地點.……………………………………………38
[1] 蔡偉和,「語言辨識與檢索在中文口語處理之研究」,國立交通大學博士論文,民國九十年。
[2] 蔡偉和,「不特定語者之中國方言自動辨識」,國立交通大學碩士論文,民國八十六年。
[3] 吳瑞彬,「不特定語者國語連續音節辨認」,國立交通大學碩士論文,民國八十五年。
[4] S. H. Chen, and Y. R. Wang, “Vector Quantization of Pitch Information in Mandarin Speech”, IEEE Transaction on communications, vol. 38, No. 9, September 1990.
[5] A. Solomonoff, A. Mielke, M. Schmidt, and H. Gish, “Clustering Speakers By Their Voices”, Acoustics, Speech and Signal Processing, 1998. Proceedings of the 1998 IEEE International Conference on , Volume: 2 , 1998
[6] D. A. Reynolds, and R. C. Rose, “Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models”, IEEE Transactions on Speech and Audio Processing, vol. 3, No. 1, January 1995.
[7] Dempster, A.P., Laird, N.M., and Rubin, D.B., (1977), “Maximum likelihood from incomplete data via EM algorithm,” J. Royal Stat. Soc., 39 pp. 1-38.
[8] L. R. Rabiner, J. G. Wilpon, and B. H. Juang, “A segmental K-means training procedure for connected word recognition based on whole word reference patterns”, AT&T Technical Journal, vol. 65, No. 3, pp.22-31, May 1986.
[9] 吳金娥、姚榮松,「國音及語言運用」,三民書局,民國八十二年。
[10] 鄭良偉、鄭謝淑娟,「台灣福建話的語音結構及標音法」,學生書局,民國八十三年。
[11] 董忠司,「『臺灣客家語概論』講授資料彙編」,台灣語文學會,民國八十五年。
[12] 彭德修,「客家話發音字典」,南天出版社,民國八十五年。
[13] S. E. Johnson, “Who Spoke When? — Automatic Segmentation And Clustering for Determining Speaker Turns”, Proc. Eurospeech’99.
[14] S. E. Johnson, and P. C. Woodland, “Speaker Clustering Using Direct Maximization of the MLLR-ADAPTED Likelihood”, ICSLP. 1998.
[15] M. Naito, L. Deng, and Y. Sagisaka, “Speaker Clustering For Speech Recognition Using The Parameters Characterizing Vocal-Tract Dimensions”, Acoustics, Speech and Signal Processing, 1998. Proceedings of the 1998 IEEE International Conference on, Volume: 2, 1998.
[16] S. S. Chen, and P. S. Gopalakrishnan, “Clustering Via The Bayesian Information Criterion with Applications In Speech Recognition”, Acoustics, Speech and Signal Processing, 1998. Proceedings of the 1998 IEEE International Conference on , Volume: 2 , 1998.
[17] S. S. Chen, and P. S. Gopalakrishnan, “Speaker, Environment And Channel Change Detection And Clustering Via The Bayesian Information Criterion”, DARPA Broadcast News Transcription and Understanding Workshop, Landsdowne, VA, 1998.
[18] D. A. Reynolds, E. Singer, B. A. Carlson, G. C. O’Leary, J. J. McLaughlin, and M. A. Zissman. “Blind Clustering of Speech Utterances Based on Speaker and Language Characteristics”, Proc. ICSLP''98 Vol. 7 pp. 3193-3196.
[20] L. Rabiner, and B. H. Juang, “Fundamentals of Speech Recognition”.
[21] 楊萬興,「語者調適在台灣方言之辨識研究」,交通大學碩士論文,民國八十八年。
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top