跳到主要內容

臺灣博碩士論文加值系統

(216.73.216.42) 您好!臺灣時間:2025/10/01 12:48
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:莊欣中
研究生(外文):Chuang,Hsin-Chung
論文名稱:以CELP為基礎之文句翻語音中韻律訊息產生與調整之研究
論文名稱(外文):A Study on the Generation and Adjustment of Prosodic Information for CELP-based Text-to-Speech Conversion
指導教授:吳宗憲吳宗憲引用關係
指導教授(外文):Chung-Hsien Wu
學位類別:碩士
校院名稱:國立成功大學
系所名稱:資訊及電子工程研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:1995
畢業學年度:83
語文別:中文
論文頁數:51
中文關鍵詞:文句翻語音碼本激發線性預測韻律訊息拜氏網路
外文關鍵詞:text-to-speechCELPprosodic informationBayesian network
相關次數:
  • 被引用被引用:0
  • 點閱點閱:180
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
本論文所製作的文句翻語音系統,主要是以 408 個國語單音音節,配合
聲調(tone)的變化,做為基本的語音合成單元,所以我們預先錄製了
1410 個由女性發聲的國語單音(含四聲及輕聲),為了降低語音資料所
佔的龐大記憶體空間,利用碼本激發線性預測語音編碼技術 (CELP)高壓
縮率及其合成音質幾近原音之特性,將語音資料編碼後儲存。此外,對於
基本的語音合成單元而言,其語音特性是固定的,可是在組成句子時,隨
著前後連接音節的不同,及語意與句型結構等影響,我們必須調整這些單
音的語音特性,因此,在本論文中,我們提出了一套韻律訊息產生及調整
的方法,分析並記憶人類說話之方式,以產生韻律變化訊息,供韻律調整
模組對語音合成器中所產生的激發源脈衝 (excitation pulse) 加以調整
,以期使得輸出的合成語音更為自然、流利。首先,我們對於所收集的語
料庫中的各個單音,分析其基週變化特性,藉由向量量化之觀念,歸納出
十二組基週軌跡 (pitch contour) 參考樣本,以代表對應於四聲及輕聲
的音高週期之變化,並藉由一拜氏網路 (Bayesian Network) 機率統計模
型,對連續語音資料加以分析,以描述文句與語音韻律變化之關係,並在
語音合成過程中,決定一適當的基週參考樣本以供作韻律上的調整。經
過 20 位測試者評估之後,在平均可辨度方面達到 96.65%的正確率,而
在自然度方面,評分在等級「可」以上的滿意程度則佔了 84.31%。

In this thesis, a CELP-based text-to-speech conversion system
is presented. We take 1410 Mandarin Chinese monosyllables as
the basic synthetic units in this system. The Code Excited
Linear Prediction (CELP) algorithm is applied to our speech
synthesizer for high compression rate and good speech quality.
In order to improve the naturalness of the synthetic speech, a
method for prosodic modification is proposed to replace the
traditional rule-based approach for pronunciation. At first, a
total of 12 representative pitch contour patterns are defined
for the behavior of four lexical tones and a neutral tone in
Mandarin Chinese. By the observation, it appears that the
acoustic properties of a syllable may be affected by the
different concatenation condition in a sentence. Consequently,
a Bayesian network is employed to model the relation between
fluctuation of pitch contour and linguistic features. This
network is trained by a set of sentence utterance and provides
appropriate prosodic information for adjusting the synthetic
speech in the synthesis process. The synthetic speech has been
tested on 20 subjects. The results indicated that the average
correct rate is 96.65% for intelligibility, and the ratio for
the mean opinion score above "fair" level is 84.31% for
naturalness.

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top