|
在本論文中,我們完成一套以音素為單元的語者調適國語單音辨識系統。 在此系統中,分為語音辨識及語者調適兩個部份。 本系統在辨識方面, 首先以音節分割演算法,將語音訊號分成聲母和韻母兩個部份, 進而區 分成三個區段(聲母一個區段,韻母兩個區段),然後針對每一個區段, 建立一分段式拜式網路(Segmental Bayesain Network)。相較於傳統的 HMM演算法,本方法在未降低辨識率的情況下,訓練時間較少,且辨識速 度較快。 在調適方面,語者調適技術的困難處,在如何利用少量的語音 資料來調適語音參考碼本,以提昇系統整體的辨識率。本系統使用GPD Generalized Probabilistic Descent)演算法。 從408個中文單音中,經 過分類、歸納, 選出76個具代表性的單音以作為調適的基礎音,再將其 分割成音素單元,針對38個韻母預處理碼本,以及相對應之408個單音參 考碼本進行調適。 此外,在線上辨識時亦可隨時以漸進學習的方式,以 使用者當時的輸入語音來作系統的調適。在實驗方面,我們以八個成年男 子將中文408個單音各唸兩遍,將其中五個人(共十組)的語音資料取出 ,建立出一套不特定語者之韻母預處理碼本及單音參考碼本, 另外三個 人(共六組)之語音資料,則留作實驗測試之用。經過實驗後(76音調適 ),整體408音的平均辨識率,前二名由原先的46.5%提昇為72.7%,前五 名由原先的69.8%提昇為82.4%。
|