關鍵詞辨認是語音辨認中一項較特別的技術,雖然我們希望以自然的說話 方式輸入語音,但在某些特定應用中,卻不須要對整段語句作辨認,只要 辨認出其中某些詞,就能達到使用者的目的。本研究即探討關鍵詞辨認 (Keyword Spotting) 的方法,找出適合國語語音特性的辨認方法,以期 能更有效標定特定詞之所在,加以辨認。本研究所採用的方法,是以隱藏 式馬可夫模型 (Hidden Markov Mod- el) 技術,建立各關鍵詞之語音模 型,而對於非關鍵詞的語音模型,則另建填充音模型(filler model)來 代表。若填充模型是以針對特別任務所錄製的語料訓練而成,則可達到 近90%的辨識率。若以常見非關鍵詞語句之單音節組成填充模型,亦可達 到相同的效果。我們亦嘗試以國語的全部音節當作填充模型,此時僅需考 慮關鍵詞的分數即可,其實也可視為沒有填充模型的存在。在經過語者調 適之後,辨識率可達83%。本研究建構了一個四問四答的展示系統,以驗 證實際應用關鍵詞辨認的可能性,使用減少觀測機率計算量的方法,可在 僅犧牲一點辨識率的狀況下,加快關鍵詞辨認的速度。本論文第二章將會 把目前處理語音辨識問題的方法及基本理論做一概括性的描述,詳細解說 本論文用來解決關鍵詞辨認所使用的方法,並對目前關鍵詞辨認發展的現 況大略的介紹。第三、四章則是敘述針對特定應用系統和不特定應用系統 兩種不同狀況與方法的實驗結果。第五章將針對實際應用面臨的問題提出 改進與調整的作法,並描述一個展示系統的設計。最後第六章是結論。
|