跳到主要內容

臺灣博碩士論文加值系統

(216.73.216.62) 您好!臺灣時間:2025/11/17 07:28
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:吳佩穎
研究生(外文):Pei-Ying Wu
論文名稱:以語料庫為基礎之中文文句翻語音系統中合成單元之選取
論文名稱(外文):Unit Selection for Corpus-based Mandarin TTS System
指導教授:陳信宏陳信宏引用關係
指導教授(外文):Sin-Horng Chen
學位類別:碩士
校院名稱:國立交通大學
系所名稱:電信工程系所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2005
畢業學年度:93
語文別:中文
論文頁數:59
中文關鍵詞:中文文句轉語音系統合成單元的選取大型語料庫
外文關鍵詞:Corpus-basedTTSunit selectioncost function
相關次數:
  • 被引用被引用:3
  • 點閱點閱:268
  • 評分評分:
  • 下載下載:31
  • 收藏至我的研究室書目清單書目收藏:2
文字轉語音系統中所使用的合成單元已經從小量的合成音庫,演變為以大型語料庫為基礎的合成音庫。在本論文中,設計了一套以Corpus-based為基礎的中文文句翻語音合成系統,這種作法通常會遇到兩項問題:如何有效率地去大型語料庫中找出所有可能的候選合成單元?如何解決合成單元間相串接時韻律差異的問題?本論文提出以連續相關比對法選取所有可能的候選合成單元,主要是依據在同一句子中其前後中文字位置標記與詞段位置標記是否具備有連續性和相關性的特性來作比對,接下來,再利用我們提出的cost function選取出具有與合成目標最相近之語音及韻律特徵的合成單元,最後將選出之最佳合成單元作串接輸出成為合成語音。
為了瞭解本套合成系統之語音品質狀況,我們利用主觀式評估方式,進行自然度MOS測試,並且進一步對合成語音作結果分析,探討合成語音出現不佳狀況時可能的影響因素。由實驗結果可知,本論文提出之方法,在合成語音的自然度上,會有不錯的表現。
Synthesis units in Text-to-Speech system have developed from base syllable to waveform units of variable lengths. A set of corpus-based text-to-speech synthesis technologies for Mandarin Chinese usually comprises two main problems to solve:How to find all possible candidates in speech corpora effectively? How to select appropriate synthesis unit to concatenate? Firstly, the thesis presents a continuous-correlative comparison method to solve searching candidates’ problem. Secondly, cost function is used to find the appropriate synthesis unit retrieved from the corpus and concatenated to produce the output speech.
Finally, we use a subjective test called Mean Opinion Scores (MOS) to test whether our synthesized speech is natural or not. The assessment indicates our Corpus-based Mandarin TTS System indeed significantly improve the naturalness of synthesized speech quality. Besides, we also analyze synthesized speech to give advices in the future works.
【1】 V. Kraft, “Does the Resulting Speech Quality Improvement Make a Sophisticated Concatenation of Time-Domain Synthesis Units Worthwhile?” Proceedings of the Second ESCA/IEEE Workshop on Speech Synthesis, New Paltz, NY, pp65-68.
【2】 王小川教授,”語音信號處理”
【3】 陳鳳儀, 蔡碧芳, 陳克健, 黃居仁, “中文句結構樹資料庫(Sinica Treebank)的構建”,中央研究院資訊所、中央研究院研究所。
【4】 Klatt, D. H. (1987) Review of text-to-speech conversion for English. J. Acoust. Soc. Amer, 82(3), pp.737-793.
【5】 Hamon, C., E. Moulines, and F. Charpentier (1989), “A diphone synthesis based on time-domain prosodic modifications of speech” in Proc. ICASSP, pp.238-241.
【6】 Chen, S.H., S.H. Hwang and Y. R. Wang(1998), “An RNN-based prosodic information Synthesizer for Mandarin text-to-speech,” IEEE Trans. On Speech and Audio Processing, Vol. 6, NO. 3, pp.226-239.
【7】 Chen, J. H. (1998) A Study on Synthesis Unit Selection and Prosodic Information Generation in a Chinese Text-to-Speech. Ph.D. Dissertation. National Cheng Kung University, Tainan, Taiwan, R.O.C.
【8】 Shih, C. L.and R. Sproat (1996), “Issues in text-to-speech conversion for Mandarin” in Computational Linguistics and Chinese Language Processing, vol. 1, Aug. 1996, pp.37-86.
【9】 Iwahashi, N. and Y. Sagisaka (1995), “Spech segment network approach for optimization of synthesis unit set,” Computer Speech and Language, pp.335-352.
【10】 Chiou, H. B., H. C. Wang, and Y. C. Chang (1991), “Synthesis of Mandarin speech based on hybrid concatenation,” Computer Processing of Chinese and Oriental Languages, Vol. 5, No. 3/4, pp. 217-231.
【11】 Chou, F. C. and C. Y. Tseng (1998),”Corpus-based Mandarin speech synthesis with contextual syllabic units based on phonetic properties” in Pro. ICASSP, pp.893-896.
【12】 林立峰,”中文TTS系統與音合成之改進”,國立交通大學碩士論文,民國九十三年六月。
【13】 The HTK Book (for HTK Version 3.2)
【14】 魯弘茂,”中文語音合成技術之實作與分析”,國立交通大學碩士論文,民國九十一年六月。
【15】 江振宇,”中文斷詞器之改進”, 國立交通大學碩士論文,民國九十三年六月。
【16】 W.J. Wang, W.N. Campbell, N. Iwahashi, and Y. Sagisaka, “Tree-based unit selection in speech synthesis,” in Proc. Of the Int’l Conf. on Aoustics, Speech, and Signal Processing, Vol. II, pp.191-194, 1993.
【17】 A.J. Hunt and A.W. Black, “Unit selection in a concatenative speech synthesis system using a larger speech databse,” in Proc. ICASSP, Atlanta, 373-376, 1996.
【18】 H. Peng, Y. Zhao, and M. Chu, “Perpetually optimizing the cost function for unit selection in a TTS system with one single run of MOS evaluation,” in Proc. ICSLP, Denver, USA, 2002.
【19】 T. Toda, H. Kawai, M. Tsuzaki, and K. Shikano, “Unit Selection Algorithm for Japanese Speech Synthesis Based on Both Phoneme Unit and Diphone Unit,” in Proc. of IEEE-ICASSP 2002, pp.465-468, May 2002.
【20】 Chou, F. C., C. Y. Tseng, and L. S. Lee, “A Set of Corpus-Based Text-to-Speech Synthesis Technologies for Mandarin Chinese” in Pro. ICASSP, Vol. 10, pp.481-494, 2002.
【21】 Min Chu and Hu Peng, “An Objective Measure for Estimating MOS of Synthesized Speech” in EuroSpeech 2001.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top