|
在本論文中,我們製作一套以詞為發音單元之中文文句翻語音系統(W- TTS )。本系統乃利用碼本激發線性預測(Code-Excited Linear Piedection:簡稱CELP)語音編碼技術高壓縮率之特性,提出了以詞為基本 發音單元的方法,以提高中文文句翻語音之自然度。同時,我們提出了一 種與錄音者相關之隨機碼本(Stochastic Code Book )修改方式以取代 FS1016 CELP中之通用隨機碼本(FS1016 CELP Stochastic Code Book )以 降低搜尋碼本數並提高聲音品質。在文句翻語音系統的發音單元製作方面 ,我們錄製 1636 個中文單音(包括了中文的一,二,三,四,輕聲),此 外錄製了經人工揀出最常出現詞約 5000 個,錄製完後以碼本激發線性預 測編碼(CELP)將所有語音資料編碼儲存,經 CELP 編碼後的檔案大小約為 原來的1/13.3。為評估本系統效能,我們另外建立一套以單音節為主的中 文文句翻語音系統(S-TTS),以實驗比較兩套系統在可辨度( intelligibility),可理解度 (comprehensibility) ,以及自然度( naturalness)上的表現。測試對象為資訊所學生約 24 人。實驗結果S- TTS在可辨度方面達92.0%,標準差為3.9,可理解度達74.4%標準差9.8, 自然度達7.7分標準差0.52,而W-TTS系統在這三項考量上為可辨度 達95.1%,標準差3.6,可理解度達82.2%,標準差14.9,自然度達8.5分, 標準差0.58。結果顯示在這三項考量下,W-TTS 表現比 S-TTS 還要好。
|