研究生(外文):Chun-chi Chen
論文名稱(外文):A Design of Multi-session Text-independent Digital Camcorder Audio-Video Database for Speaker Recognition
指導教授(外文):Chih-Chien Chen
外文關鍵詞:Speaker RecognitionAutomatic Speech Recognition SystemText-to-Speech SystemBiometrics
In this thesis, an audio-video database for speaker recognition is constructed using a digital camcorder. Motion pictures of fifteen hundred speakers are recorded in three different sessions in the database. For each speaker, 20 still images per session are also derived from the video data. It is hoped that this database can provide an appropriate training and testing mechanism for person identification using both voice and face features.
誌謝辭 I
論文摘要 II
目錄 III
圖目錄 V
第一章 緒論 1
1-1研究動機與目的 1
1-2 語者辨識概論 2
1-3 章節概要 5
第二章 語音處理相關技術之研究 6
2-1 語音處理相關領域 6
2-2 語音辨識相關技術 9
2-2-1 端點偵測(Endpoint Detection) 9
2-2-2 能量(Energy) 10
2-2-3 越零率(Zero Crossing Rate) 10
2-2-4 最大相似比(Maximum Likelihood Rate, MLR)11
2-3 視窗函數(Window Function) 12
2-4 特徵萃取(Feature Extraction) 13
2-4-1 線性預估編碼(Linear Predictive Coding, LPC)14
2-4-2梅爾倒頻譜係數(Mel-Frequency Cepstrum Coefficients, MFCC)16
第三章 國內、外語者辨識用影音資料庫19
3-1 國內語音資料庫 19
3-1-1國語語音資料庫MAT-160 19
3-1-2國語語音資料庫MAT-400 19
3-1-3國語語音資料庫MAT-2500 20
3-1-4麥克風語料庫 TCC-300Edu 20
3-1-5國語連續數字語音資料庫 21
3-1-6中文廣播新聞語料庫 MATBN 22
3-2 國外語音資料庫 23
3-2-1 TIMIT語音資料庫 23
3-2-2 NTIMIT語音資料庫 25
3-2-3 CTIMIT語音資料庫 26
3-2-4 NIST標準對話電話語音資料庫 26
3-2-5 AVTIMIT影音資料庫 27
3-2-6 VidTIMIT影音資料庫 27
第四章 實驗設計、數據及討論 28
4-1 資料庫建立之參數設計 28
4-2 實驗結果 30
第五章 結論與展望 33
5-1 結論 33
5-2 未來展望 33
參考文獻 35
