跳到主要內容

臺灣博碩士論文加值系統

(34.204.181.91) 您好!臺灣時間:2023/09/28 01:57
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:詹順凱
研究生(外文):Shung Kai Chan
論文名稱:在多語者環境下之語者分割與語言辨認研究
論文名稱(外文):Speaker Segmentation and Language Identification in Multi-Speaker Environment
指導教授:王小川王小川引用關係
指導教授(外文):Prof. Hsiao-Chuan Wang
學位類別:碩士
校院名稱:國立清華大學
系所名稱:電機工程學系
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2002
畢業學年度:90
語文別:中文
論文頁數:59
中文關鍵詞:語者分割語言辨認
外文關鍵詞:Speaker SegmentationLanguage Identification
相關次數:
  • 被引用被引用:1
  • 點閱點閱:291
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:1
在本論文中,利用貝氏資訊法則與語音段分群的觀念,提出快速聲學轉換點偵測法,以建立更可靠與正確的語者分割。語言辨識部份,本論文規劃為中文、日文與英文,三種語言的辨認機制,語言模型採高斯混合模型。經由語者分割後將輸入語音區分為數個語音段,對每一語音段作語言之最大概似法估測,辨認該語音段的語言。
實驗中,本論文所提出的快速聲學轉換點偵測法,與過去論文所提出之可變長度聲學轉換點偵測法比較,所需時間約為可變長度聲學轉換點偵測法19%,大量的減少偵測時間。而正確性與可靠度也優於可變長度聲學轉換點偵測法。另外實驗中也比較不同的取樣頻率與特徵參數,對偵測聲學轉換點的可靠度與正確性進行分析。
語言辨識實驗部份,將測試句切割成不同長度的語音段,進行語言辨認。實驗結果顯示,必需有一定的長度以上的語音信號段,才能正確的辨識出該語音段屬於何種語言。觀察各種語言間辨識錯誤的情形,日文辨識成英文的比例最高,中文辨識成日文則最低,若能夠掌握各種語言間的特性,必能提高語言辨識的正確性與可靠度。
未來尚待努力的方向,多語者環境下之語者分割部份,還有提高正確率與可靠性的空間,未來希望可以得到更好的方式,提高系統正確率與可靠性。特徵參數抽取在本論文中採用梅爾刻度式倒頻譜係數與特徵參數分析,未來希望可以得到一組完全將語者資訊與語音資訊分離的特徵參數,以提高系統的正確性與可靠度。本論文語言辨識的機制,只是完成一個雛形,未來可考慮更多語言的特性,使得語言辨識率提高。
摘要
誌謝
目錄
表目錄
圖目錄
第一章緒論
1.1研究動機
1.2語者辨別與語言辨識
1.3聲學轉換點偵測
1.4 章節概要
第二章 語者分割
2.1 特徵參數抽取
2.1-1預強調處理
2.1-2音框化處理
2.1-3加窗處理
2.1-4參數抽取
2.1-5 差分化
2.2 聲學轉換點偵測
2.2-1 貝氏資訊準則
2.2-2利用貝氏資訊準則進行聲學轉換點偵測
2.2-3貝氏資訊準則進行聲學轉換點偵測之改進
2.2-4 廣義概似比
2.3語音段分群
2.4 快速聲學轉換點偵測法
2.5 主成份分析
第三章語言辨識
3.1高斯混合模型
3.2 期望與最大化演算法
3.3最大概似法
3.4 LBG二值分裂演算法
3.5語言辨識系統
第四章 實驗設計、數據與討論
4.1語音資料庫
4.2 實驗一:比較可變長度聲學轉換點偵測與快速聲學轉換點偵測
4.3 實驗二:比較不同的取樣頻率對聲學轉換點偵測法的影響
4.4 實驗三:主成分分析對聲學轉換點偵測法的影響
4.5 實驗四:語言模型內部與外部測試
第五章 結論與未來展望
參考文獻
[1]F. Kubala et al.,“The 1996 BBN Byblos Hub-4 transcription system”, Proceedings of the Speech Recognition Workshop, pp 90-93, 1997
[2]R. Bakis et al., “Transcription of broadcast news shows with the IBM large vocabulary speech recognition system ”, Proceedings of the Speech Recognition Workshop, pp 67-72, 1997
[3]H. Gish, M.-H Siu, R. Rohlicek, “Segregation of speakers for speech recognition and speaker identification”, IEEE Signal Processing Magazine, pp 18-32, Oct. 1991
[4]J.F. Bonastre, P. Delacourt, C. Fredouille,” A Speaker Tracking System Based On Speaker Turn Detection For NIST Evaluation”, ICASSP2000.
[5]John R. Deller, Jr., John G. Proakis, John H.L. Hansen, “Discrete-Time Processing of Speech Signals”, 1987.
[6]Douglas O’Shaughnessy , “SPEECH COMMUNICATION Human and Machine”, 2nd ,2000.
[7]G. Schwarz, “Estimating the dimension of a model”, The Annals of Statistics, vol. 6, pp 461-464, 1978
[8]S. Chen and P. Gopalakrishnan, “Speaker, environment and channel change detection and clustering via the Bayesian information criterion”, in DARPA speech recognition workshop, 1998
[9]B. Zhou, J.H.L. Hansen “Unsupervised Audio Stream Segmentation and Clustering Via The Bayesian Information Criterion ”, ICSLP 2000
[10]T.W.Anderson , “An Introduction To Multivariate Statistical Analysis” 2nd 1984
[11]A. Tritschler, R. Gopinath, “Improved Speaker Segmentation and Segments Clustering Using The Bayesian Information Criterion ”, Eurospeech 1999
[12]J.F. Bonastre, P. Delacourt, C. Fredouille,” A Speaker Tracking System Based On Speaker Turn Detection For NIST Evaluation”, ICASSP2000.
[13]S. Haykin “NEURAL NETWORK A COMPREHENSIVE FOUNDATION”, 2nd , PRENTICAL HALL, 2000
[14]M. Nishida, Y. Ariki, “Speaker Recognition By Separating Phonetic and Speaker Space”, EuroSpeech, 2001
[15]H. Gish, N. Schmidt, R. Schwartz, ”Text-independent speaker identification”, IEEE Signal Processing Magazine, pp18-21, Oct. 1994
[16]鄭志民, “基於高斯混合模型之語者辨認”, 電機工程研究所,國立清華大學,中華民國八十九年六月
[17]T.K. Moon, “The Expectation Maximization Algorithm”, IEEE Signal Processing Magazine, pp47-59, Nov. 1996
[18]Y. Linde, A. Buzo, R.M. Gray, “An Algorithm for the Vector Quantizer Design”, IEEE Transaction on Communication, Vol. 28, no. 4, pp. 84-59, Jan. 1980
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top