一、研究背景 語音辨認已發展很多年了,但目前仍局限於傳統的Dynamic Time Warping(DTW) 及 Hidden-Markov Model(HMM) 兩種方法。找尋新的辨認方法及應用VLSI技術一直是 研究語音辨認者所追求的目標。 二、研究方法 在本論文中,我們應用具有解決最佳化問題的特性之霍普菲爾德(Hopfield)神經網 路,來解決語音辨認中如何求出兩組樣本(pattern) 之間類似度的問題。此網路在 結構上具重覆性及規則性,並且每一個處理單元的構造都非常簡單。此外當我們在利 用華爾恕轉換拮取語音特徵時可以發現因為相差所產生的問題。並且提出一個一般性 的證明來說明可容忍相差大小和華爾恕轉換級數(order) 之間的關係。 三、結果與討論 我們簡單的應用一個單音且特定語者的語音辨認系統來比較傳統的DTW 與神經網路的 優劣。結果顯示神經網路不但在構造上優於DTW 更在辨認率上稍優於DTW 。雖然這需 要更多的實驗來驗證孰劣,但整體來看,神經網路的優點較多。 四、重要成果簡述 1.提出一個新的訓練(Training)方法。 2.提出一種新的語音辨認方法,不但在辨認率上令人滿意,而且在結構上非常適合 VLSI的製造。 3.證明華爾恕轉換相差與級數間的關係。
|