自從電腦進入人類生活領域以來,用語音直接和電腦溝通一直是人類的理想,也是科 學家們極欲解決的一項課題,因此對於自然流利且邊疆發音的語音的辨認則變成科學 家們必須面對的問題。 去幾年已經有一些人在這方面提出了許多解決的方法并且被證實在少量字匯(如數字 字)及有文法限制的中型數量字匯方面,已經可以達到很好的效果,而連續數字的辨 認技術可以在語音撥號系統、自動資料輸入、個人密碼輸入等許多方面廣泛的應用, 對於國語的連接式數字的辨認問題,本文使用了一個音框同步的綱路解碼法則,我們 將連續發音的一串數字以一個文法的綱路來加以表示,在這個文法綱路中,我們分別 提供數字和周圍靜音兩個不同的路徑,而周圍靜音的能量也被拿來當成辨認的特征, 使得數字和周圍的靜音可以較容易被分辨出來,我們分別將十個數字和周圍靜音總共 建立了十一個參考樣本,而每一個參考樣本則是一個整個字的隱藏式馬可夫模型,對 於這些樣本的建立,本文提出了一個以向量量化為基礎的訓練方法,使用這個方法我 們可以在一個步驟中就可以得到每個參考樣本的狀態的數目、參考樣本的結構、以及 不同參考樣本之間狀態的相關性,由於不同的參考樣本可以擁有相同的狀態,所以我 們這個系統只需要使用比較少的訓練語料就可以訓練出所需要的參考模型。 這個辨認系統是由四個男人的一百句長度由二個字到七個字的國語連續數字串作語者 相關的測試,經模擬的結果,得知效果良好。
|