一、研究目的:在國內,中文語音之研究已有好幾年之歷史,但前幾年均僅限於少量 字彙之研究,且辨認率不高。近幾年來已趨向大量字彙且辨認率高之研究。但對於中 文速續字音,則均未有具體成果,而連續字音又是人類最自然之說話方式。所以本研 究針對連續字音之特性,設計一中文連續數字之辨認系統。 二、研究方法:1:連續數字之斷字方法:根據能量的觀點,利用類神經網路中之多 層認知網路(Multi-layer Perception Net)之倒傳遞訓練法(Back-propogation T -raining Algorithm)找出連續數字中,字與字之間的邊界(Boundary)。 2:辨認方法:利用快速傅利葉轉換(FFT ),將上述斷出之數字之特徵(Feature )抽出,再次利用類神經網路中之多層認知網路(Multi-layer Perception Net)之 倒傳遞訓練法(Back-propogation Training Algorithm )求出正確之答案(0-9 )。 三、結果與檢討:1:斷字部分:利用類神經網路所求得字與字之間的邊界,結果相 當令人滿意,在找出輸入之語音中,到底包含幾個數字之正確率達95%以上。 2:辨認部分:將單字斷出後,經端點檢測(End_point Detection ),特徵拮取( Feature Extraction)後,送入神經網路中,亦有不錯之辨認率。 四、重要成果簡述:1:我們利用類神經網路中之多層認知網路(Multi-layer Per- ception Net )來完成斷字及辨認兩部分,經實驗證明,此方法在辨認率及架構上令 人滿意,同時此種網路在架構上具有規則性和並行處理之功能,這些優點使得這種網 路更適合硬體之實現。 2.若將此套連續數字之辨認系統,再加以修正,即可建立一套由語音所控制之自動 撥號系統。
|