以往用於國語單音節辨認可得到較高辨認率的方法,如連續隱藏式馬可夫模型,往往 需負擔極大的運算量。因此本論文在追求快速辨認的動機之下,建立分段機率模型做 為國語單音節辨認的基礎。經過探討發現分段機率模型實可視為一種特殊的連續隱藏 式馬可夫模型或者是向量量化模型。 基於此模型,我們先以第一聲為對象開始初步的實驗,尋求描述國語單音節適當的分 段機率模型形態,接著我們將研究的範圍延伸至國語所有的聲調音節,在這過程之間 我們並提出加強聲母與韻尾的方法,和探討刪除低能量音框後對辨認率的影響。我們 也提出了一種結合瞬時特徵與動態特徵的二段辨認架構,使得在增進辨認率的同時, 幾乎不降低辨認的速度。 實驗結果顯示分段機率模型結合我們所提出的改進方法之後很適合用來辨認國語單音 節,本論文中得到最好的結果是:所有聲調在共用同一個模型之下,可對各個聲調的 音節達到平均96.01%的辨認率。且對這種可得到高辨認率的模型形態,我們又提出快 速辨認演算法,使原本就具備快速性質的分段機率模型,辨認速度又提升16至26倍, 在工作站(SPARC STATION 2)比對辨認一個音約需0.28秒的CPU時間(約比隱藏式馬可 夫模型快 70至150倍)。最後我們進行分段機率模型效能評估的工作,發現不論是在 模型訓練時的難易度、模型所佔的記憶空間、辨認速度或者是在辨認率各方面都甚為 優異,這使得在個人電腦上利用此模型配置一個即時辨認的系統深具可行性。
|