|
在使用漢字系統的國家中,輸入問題一直是電腦化的一大障礙,以國內為例,鍵盤輸 入法恐不下一百餘種,至今仍不斷有新法推出,但整體而言,此等方法終嫌不夠直捷 ,有很多人想到以光學中文文字識別 (Optical Chinese Character Recognition , OCCR) 作為終極解決方法,以其與傳統手寫中文直接相關連故也。 OCCR發展至今,已有相當成果;在辨識成功率上,吾人發現誤判的情形總是集中在少 數幾個字上,即混淆字集(Confusion Set) ,於是我們以為若能將辨識分為兩階段, 當在前階段辨識發現有字屬於混淆字集時,即進入第二階段,對此等字作更進一步之 辨識,如此,雖然犧牲了稍許辨識速率,但可提高辨識成功率。 近年來,隱藏式馬可夫模型(Hidden Markov Model, HMM)被大量應用於語音識別上, 且獲得相當良好的成果。漢字字形其歪斜變形的情形與語音訊號相類似,如非線性偏 移、一字多模版…等,在本質上都是統計性的,故應可將HMM 應用於OCCR上,在此領 域尚有很多地方值得研究,本文探討將離散式(Discrete)HMM 應用於混淆字集的辨識 上,提出適合HMM 的特徵抽取法則,包括點字形矩陣、筆畫方向矩陣等,並找出影響 辨識的各項因素,以供未來更進一步之研究。 參考文獻: B. S. Jeng, "A Study on Optical Chinese Character Recognition", Journal of Telecommunication Laboratories, Vol.20, pp. 1-26, No.1, March 1990.
|