|
本論文利用聲學的觀念及統計的數學模式,發展出一套不特定語句的語者 辨識系統。系統的辨識過程可分為如下兩大階段:第一階段是根據聲學觀 念所建立的長時域頻譜特徵萃取部份:將輸入端所輸入的語者語料轉換成 長時域頻譜(Long Term Average Spectrum),並利用卡氏轉換(Karhunen Loeve Transform,KLT)的轉換方式,將語者的長時域頻譜語料矩陣轉化為 資料維度較低的正規化轉換矩陣(Transformation Matrice),並求出語者 轉換矩陣的平均值(Mean)和共變異數矩陣(Covariance Matrice)做為代表 每位語者和其他語者可分辨的獨特個人特徵。第二階段是屬於語者辨識部 份:利用統計數學模式中的二次方分類器(Quadratic Classifier)觀念, 將測試語者經前述第一階段所處理過的轉換矩陣之個人語音特徵,依其在 統計空間上的群集特性,加以分群分類,由此便可辨識出正確的語者。經 卡氏轉換過後的語音樣本資料可以大大地減低樣本維度,而使得代表語者 特性的語音特徵資料量大幅度縮小,除了可以在辨識階段節省大量的系統 計算資源外,樣版語者資料庫的大小也不須佔用太多的系統儲存空間;而 依統計觀念所設計的分類器,除了可以評量在統計空間中各語者特徵的幾 何距離外,並且同時把語者語音特徵頻譜間的頻譜變異性也加以考慮,因 此可以提高語者辨識的正確率。
|