研究生(外文):Long-Cheng Wang
論文名稱(外文):A Design of Multi-Session, Text Independent, TV-Recorded Audio-Video Database for Speaker Recognition
指導教授(外文):Chih-Chien Chen
外文關鍵詞:Speaker recognitionText independentVector quantizationGaussian mixture modelMel-frequency cepstrum coefficients
A four-session text independent, TV-recorded audio-video database for speaker recognition is collected in this thesis. The speaker data is used to verify the applicability of a design methodology based on Mel-frequency cepstrum coefficients and Gaussian mixture model. Both single-session and multi-session problems are discussed in the thesis. Experimental results indicate that 90% correct rate can be achieved for a single-session 3000-speaker corpus while only 67% correct rate can be obtained for a two-session 800-speaker dataset. The performance of a multi-session speaker recognition system is greatly reduced due to the variability incurred in the recording environment, speakers’ recording mood and other unknown factors. How to increase the system performance under multi-session conditions becomes a challenging task in the future. And the establishment of such a multi-session large-scale speaker database does indeed play an indispensable role in this task.
論文摘要 1
致謝 2
目錄 3
圖目錄 5
表目錄 6

第一章 緒論
1-1 研究動機 7
1-2 語者辨識概論 7
1-3 研究方法 9
1-4 章節概要 10

第二章 語音訊號處理與特徵參數萃取
2-1 語音訊號處理 11
2-2 音框能量與越零率 13
2-2-1音框能量量測 13
2-2-2越零率 13
2-2-3端點偵測 13
2-3 聲音特徵參數萃取 14
2-3-1倒頻譜係數 16
2-3-2梅爾倒頻譜係數 19

第三章 電視影音資料庫
3-1 動機 22
3-2 電視影音資料庫內容 22
3-3 電視影音資料庫建立流程 23
3-3-1語者影音檔的蒐 24
3-3-2語者聲音原始檔的擷取 25
3-3-3語者聲音原始檔的處理 27
3-4 電視影音資料庫使用說明 27

第四章 高斯混合模型為基礎的語者辨識
4-1 模型描述 29
4-2 模型解釋 30
4-3 向量量化與參數初始化 31
4-4 最佳可能性估測法 35
4-5 期望值最大化演算法 35
4-6 語者指認 40

第五章 語者辨識實驗
5-1 高斯混合模型在電視影音與TIMIT資料庫之辨識實驗 41
5-2 同一個語者同時段與不同時段不特定語句辨識實驗 42
5-3 中量語者不同時段與大量語者同時段不特定語句辨識實驗43
5-3-1中量語者不同時段辨識 43
5-3-2大量語者同時段辨識 44
5-4 調整語者模型之系統設計於不同時段語者辨識實驗 45

第六章 結論及未來展望
6-1結論 47
6-2未來展望 47
參考文獻 49
