(3.227.0.150) 您好!臺灣時間:2021/05/08 08:38
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

我願授權國圖
: 
twitterline
研究生:鄭元傑
研究生(外文):Yuan-Jie Zheng
論文名稱:具語者調適功能之電話號碼語音合成系統
論文名稱(外文):A Telephone Number Text-to-Speech System With Speaker Adaptation
指導教授:余明興余明興引用關係
指導教授(外文):Ming-Shing Yu
學位類別:碩士
校院名稱:國立中興大學
系所名稱:應用數學系
學門:數學及統計學門
學類:數學學類
論文種類:學術論文
論文出版年:2001
畢業學年度:89
語文別:中文
論文頁數:56
中文關鍵詞:文句翻語音系統韻律訊息音長音量語者調適電話號碼
外文關鍵詞:Text-to-SpeechTTSProsodyDurationEnergySpeaker AdaptationTelephone Number
相關次數:
  • 被引用被引用:0
  • 點閱點閱:81
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:1
在本篇論文中,我們發展了一套具有語者調適功能的國語電話號碼語音合成系統。由我們所錄製的連續音檔,使用階層式的統計方法,分析相關的參數來做韻律訊息的預估,其中我們所考慮的參數有前音、後音、段落與音節數,利用階層式的統計方法來做音長音量及停頓的預估。在我們的內部測試部分,音長平均誤差24ms、音量平均誤差1.83dB,在外部測試部分,音長平均誤差45ms、音量平均誤差2.22dB,
另外我們實驗了目前語音合成上很少討論到的語者調適,希望在韻律預估上,能錄製較少的訓練資料再由另一語者的韻律訊息,經過計算來預估其韻律訊息。在我們的實驗中,由5句(52個音節)電話號碼所求得的韻律,其音長的平均誤差44ms,音量的平均誤差2.26dB;由10句(107個音節)電話號碼所求得的韻律,其音長的平均誤差35ms,音量的平均誤差2.03dB;由20句(253個音節)電話號碼所求得的韻律,其音長的平均誤差29ms,音量的平均誤差1.99dB。

In this thesis, We developed a Mandarin telephone number text-to-speech system with speaker adaptation. We use some parameters to predict prosody in a hierarchical way. The parameters of prosody include the numbers before and after the target number, segment information, and the number of syllables. We use the above parameters predict duration, volume, and pause. For the duration production model, the average errors of inside test and outside test are 24ms and 45ms, respectively. For volume production model, the average errors of inside test and outside test are 1.83dB and 2.22dB, respectively.
In addition, we test speaker adaptation in our text-to-speech system, We try to use a speaker’s prosody to predict that of someone else who has only few training data. In our test, the average errors in duration is 44ms and the average errors in volume is 2.26dB with 5 sentences(52 syllables) in the training data; the average errors in duration is 35ms and the average errors in volume is 2.03dB with 10 sentences(107 syllables) in the training data; and the average errors in duration is 29ms and the average errors in volume is 1.99dB with 20 sentences(253 syllables) in the training data.

第一章 簡介………………………………………………………………1
§ 1.1 研究動機……………………………………………………………1
§ 1.2 語音合成簡介………………………………………………………2
§ 1.3 本論文使用的方法 ……………………………………………3
§ 1.4 章節大要……………………………………………………………4
第二章 系統架構…………………………………………………………5
§ 2.1 系統基本架構……………………………………………………5
§ 2.2 系統應用範圍及系統資料庫……………………………………6
§ 2.3 訊號處理基本架構………………………………………………8
第三章 資料蒐集
§ 3.1 電話號碼蒐集與選取………………………………………………9
§ 3.2 錄音資料說明………………………………………………………12
第四章 合成法…………………………………………………………14
§ 4.1 韻律預估………………………………………………………14
§ 4.1.1 音長的預估………………………………………………………16
§ 4.1.2 音量的預估………………………………………………………29
§ 4.1.3 停頓的預估………………………………………………………35
§ 4.2 訊號處理………………………………………………………37
第五章 語者調適………………………………………………………38
§ 5.1 語者調適方法說明…………………………………………………38
§ 5.2 語者調適方法比較…………………………………………………42
第六章 實驗與結果……………………………………………………47
§ 6.1 音長的內部與外部測試……………………………………………47
§ 6.2 音量的內部與外部測試……………………………………………49
§ 6.3 語者調適實驗………………………………………………………50
第七章 結論……………………………………………………………53
參考文獻……………………………………………………………………55
附表目錄
表3.1 所錄的電話號碼種類與句子數量。…………………………………9
表3.2所錄製的106句台灣區內電話。………………………………………12
表3.3所錄製的81句國際電話。……………………………………………13
表4.1 發音音節與前音的音長關係統計表。………………………………17
表4.2 發音音節與後一個音的音長關係統計表。…………………………18
表4.3 發音音節與段落的音長關係統計表。………………………………19
表4.4 方法2所用的各單音平均音長。……………………………………22
表4.5 方法3所用的同一段中各單音平均音長(ms)。……………………22
表4.6 方法4中整句的平均音長。…………………………………………23
表4.7 方法5中的參數1的Ratio值。………………………………………24
表4.8 方法5中的參數2的Ratio值。………………………………………24
表4.9 方法5中的參數3的Ratio值。………………………………………25
表4.10 比較5種預估音長方式結果。………………………………………27
表4.11 說明資料稀疏時如何預估韻律參數之舉例。……………………28
表4.12對資料稀疏時韻律參數的3種預估方法的表現。…………………28
表4.13 音量預估的誤差結果。……………………………………………30
表4.14 發音音節與前音的音量關係統計表。……………………………31
表4.15 發音音節與後音的音量關係統計表。……………………………32
表4.16 發音音節與段落的音量關係統計表。……………………………33
表4.17 增加韻律參數(音節數量)的誤差比較。………………………35
表4.18 停頓連接所增加的靜音音長。……………………………………36
表5.1 語者甲的韻律參數。………………………………………………39
表5.2 語者乙的韻律參數。………………………………………………39
表5.3 隨機取不同數量的句子做語者調適的音長結果。………………41
表5.4 隨機取不同數量的句子做語者調適的音量長結果。……………41
表5.5 方法1中0到9各單音迴歸係數。….………………………………42
表5.6 方法2中0到9各單音迴歸係數。……………………………………43
表5.7 方法3中0到9各單音迴歸係數。……………………………………43
表5.8 方法4中0到9各單音迴歸係數。……………………………………44
表5.9 隨機取5、10、15、20句做語者調適。……………………………45
表5.10 將表5.8取平均值。…………………………………………………46
表6.1發音0到9音長內部測試結果。………………………………………47
表6.2 發音0到9音長外部測試結果。………………………………………48
表6.3發音0到9音量內部測試結果。………………………………………49
表6.4發音0到9音量外部測試結果。………………………………………49
表6.5語者調適音長的內、外部測試。……………………………………50
表6.6語者調適音量的內、外部測試。……………………………………50
表6.7語者調適實驗評分結果。……………………………………………51
表6.8語者調適實驗相似度評判。…………………………………………52
附圖目錄
圖2.1 TTS基本架構圖。………………………………………………………5
圖2.2 訓練(Training)架構圖。…………………………………………6
圖2.3 測試(Testing)架構圖。……………………………………………7
圖2.4 訊號處理架構圖。……………………………………………………8

【1】任文采,「國語文句翻語音系統中單音音長預估模式之研究」,
中興大學應用數學研究所碩士論文,1997。
【2】林義証,「發展一套適合於電腦輔助教學之中文語音合成系
統」,中興大學應用數學研究所碩士論文,1994。
【3】紀旺松,「時域上之基週波形調變方法研究」,中興大學應用
數學研究所碩士論文,1998。
【4】許聞廉,「語音辨識及語音合成」,計算中心通訊第 14 卷 07
期 ,1998。
【5】陳志祥,「國語連續語音連音型態之初步研究」,中興大學應
用數學研究所碩士論文,1995。
【6】楊仲捷,「基於 VQ/HMM 之國語語音合成基週軌跡產生之
研究」,台灣科技大學電機工程系碩士論文。
【7】潘能煌,「中文文句翻語音系統之音量與音調韻律研究」,中
興大學應用數學研究所碩士論文,1998。
【8】Thierry Dutoit, 「A Short Introduction to Text-to-Speech
Synthesis」,http://tcts.fpms.ac.be/synthesis/introtts.html
,1999。
【9】F. Malfrere, T. Dutoit and P. Mertens, 「Automatic
Prosody Generation Using Suprasegmental Unit Selection」,
Proceedings of the Third ESCA Workshop on Speech
Synthesis, pp. 323-328, December 1998。
【10】John Goldsmith, 「Dealing with Prosody in a Text-to-
Speech System」, International Journal of Speech
Technology 3, pp. 51-63, 1999。
【11】Lin-Shan Lee, Chiu-Yu Tseng and Ming Ouh-Young, 「The
Synthesis Rules in a Chinese Text-to-Speech System」, IEEE
Trans. Acoustic, Speech and Signal Processing 37,pp. 1309-
1320,1989。
【12】Shih-Yu Shen, Jesse Wu and Hsin-Chuan Lin, 「An
Acoustical Study of Syllable of Mandarin Speech」,
International journal of technology 3, pp27-34, 1999。
【13】Alexandros Potamianos and Petros Maragos, 「Speech
Analysis and Synthesis Using an AM-FM Modulation Model」,
Speech Communication 28, pp. 195-209, 1999。
【14】Chen Xiaoxia and Zu Yiqing, 「What Factors Affect
Consonant Duration In Continuous Speech?」, The
Proceedings of the Conference on Phonetics of the Languages
in China, pp. 29-32, 1999
【15】Li-chiung Yang, 「Contextual Effects on Syllable
Duration」,Third ESCA/COSCOSDA International Workshop on
Speech Synthesis, 1998。

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊
 
系統版面圖檔 系統版面圖檔