中文語音的研究雖然在這幾年當中已有各方面的突破,但是語音辨識的研 究仍有許多的問題有待進一步克服,因為傳統的辨識技術有許多令人不滿 意的地方,如動態時間校正(DTW)其辨識時間過長,另外隱藏式馬可夫模 型(HMM)在訓練階段時需要大量的訓練語料且模型訓練的演算法複雜度很 高,所以在許多的因素下造成訓練困難度高及訓練時間長,至於類神經網 路(ANN)則是一種新的嘗試,但是仍然有其限制無法一舉解決訓練階段和 辨識階段的諸多瓶頸。在面對過去的語音辨識技術時,可以看出問題的關 鍵在於無論是動態時間校正或是隱藏式馬可夫模型,語音特徵的表示都是 以音框(Frame- Based)為單位,而後再以此建立語音模型(Speech Model) ,所以造成了字音(Word)的模型參數量過大,另外此種模型的另一項缺點 是字音在進行辨識時最佳路徑的搜尋(時軸調整)相當費時。為了使辨識系 統能克服以上的缺失達成如下的優越性:(1)充分的表現出國語音節結構 、(2)少量的訓練音節數和短的訓練時間、(3)辨識時間短和少量的記憶體 需求,所以針對特徵萃取(Feature Extraction)和樣板比對(Template Matching)這兩方面提出了新方法,在這個方法裡我們使用了子字區分解( Subword Decomposition)和卡式轉換(KLT)來建立和掌握聲韻母音段頻譜 的時變結構,完成子字區的模型參數表示(Subword-Based Representation),同時根據中文語音的結構特性,對中文獨立字音提出 聲韻母兩段式的辨識架構,避開了最佳路徑搜尋相當費時的困擾。所以吾 人將試作的辨識系統架構在486個人電腦上,首先在訓練階段完成了聲韻 兩段式碼簿,然後以接近即時的方式進行辨識,達到前五名候選音節辨識 正確率約90%。
|