跳到主要內容

臺灣博碩士論文加值系統

(216.73.216.62) 您好!臺灣時間:2025/11/17 07:28
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:洪國興
研究生(外文):Kuo-Hsing Hung
論文名稱:以語料庫為基礎之中文文句翻語音系統實現
論文名稱(外文):An Implementation of Corpus-based Mandarin TTS System
指導教授:陳信宏陳信宏引用關係
指導教授(外文):Sin-Horng Chen
學位類別:碩士
校院名稱:國立交通大學
系所名稱:電信工程系所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2006
畢業學年度:95
語文別:中文
論文頁數:89
中文關鍵詞:語音合成以語料庫為基礎合成單元挑選
外文關鍵詞:Text-to-SpeechCorpus-basedUnit Selection
相關次數:
  • 被引用被引用:5
  • 點閱點閱:265
  • 評分評分:
  • 下載下載:40
  • 收藏至我的研究室書目清單書目收藏:0
文字轉語音系統中所使用的語料庫已由小量只提供有限基本音節的方式,演變為以大型語料庫為基礎的語料庫。在本論文中,實作了一套以語料庫為基礎之中文文句翻語音系統,除了整合既有合成系統中之文字分析器、韻律訊息產生器與波形合成器外,我們特地設計一個合成單元的選擇機制來解決以語料庫為基礎的合成系統會遇到的兩大問題,如何有效率地由大量語料中搜尋到可用之合成單元?以及如何挑選一個最佳的合成單元連接方式。本實作中,在不損害音質的前提下,針對搜尋效率改進了前人提出的連續相關比對法,也以更加嚴密的方式重新定義了用來挑選合成單元的cost function。
最後,為了此系統使用上的方便性,我們設計了一套圖形化使用者介面。在此介面上,使用者直接輸入文字,然後可依賴系統自動合成語音,或者以其意願選擇合成單元。
Synthesis units in Mandarin Text-to-Speech system have migrated from small inventory of base-syllables to a large corpus. In this thesis, a corpus-based Mandarin Text-to-Speech system is implemented. Besides integrating the present text analyzer and the prosodic information generator, the study emphasizes on designing a unit-selection algorithm to solve the two main problems of searching all possible synthesis unit candidates in a huge corpus efficiently and selecting an appropriate unit sequence. We improve the efficiency of the continuous-correlative comparison method without decreasing the quality of the synthesis waveforms. Also we re-define the cost function used in the unit selection.
Finally, for users’ convenience, we design a graphical user interface for this system. The user can directly type his input text, and get the synthesis waveform and some intermediate information automatically.
目錄

中文摘要 ……………………………………………………………………………...I
英文摘要 …………………………………………………………………………….II
誌謝 …………………………………………………………………………………III
目錄 …………………………………………………………………………………IV
表目錄 …………………………………………………………………………….VIII
圖目錄 ………………………………………………………………………………IX
第一章 緒論 ..............................................................................................................1
1.1 研究動機 ......................................................................................................1
1.2 研究方向 ......................................................................................................1
1.3 章節概要 ......................................................................................................2
第二章 適合用於語音合成之大型語料庫之設計與語音合成系統資料庫建置 ..3
2.1 適合用於語音合成之大型語料庫之設計 ...................................................3
2.1.1 適用於語音合成之大型語料庫條件 ................................................3
2.1.2 大型語料庫之資料來源 ....................................................................4
2.1.3 文字內容之萃取 ................................................................................5
2.1.4 錄製音檔 ............................................................................................7
2.2 語音合成系統之文字資料庫建置 ...............................................................7
2.2.1 補充詞典中缺乏的詞類 ....................................................................8
2.2.2 長詞化為短詞組合 ............................................................................8
2.2.3 標記詞綴 ..........................................................................................11
2.2.4 標記中文姓氏 ..................................................................................13
2.2.5 定量複合詞的特別處理 ..................................................................13
2.3 語音合成系統之語音參數資料庫建置 .....................................................14
2.3.1 切割資訊的求取 ..............................................................................14
2.3.2 切割資訊的修正 ..............................................................................17
2.3.3 求取語料庫的能量資訊 ..................................................................18
2.3.4 求取語料庫的音高軌跡資訊 ..........................................................19
2.4 語音合成系統資料庫建置總結 .................................................................21
第三章 以語料庫為基礎之語音合成系統架構 ....................................................22
3.1 構想流程圖與系統架構 .............................................................................22
3.1.1 以語料庫為基礎之語音合成系統構想流程圖 ..............................22
3.1.2 以語料庫為基礎之語音合成系統架構圖 ......................................23
3.2 文字分析器說明 .........................................................................................24
3.3 韻律訊息產生器說明 .................................................................................25
3.4 搜尋單元說明 .............................................................................................25
3.4.1 搜尋單元功能說明 ..........................................................................25
3.4.2 搜尋單元實作 ..................................................................................27
3.4.2.1 字元位置表格(character location table)實作 .......................27
3.4.2.2 工作表格(working table)實作 ..............................................28
3.4.2.3 詞串候選表格(word sequence candidate table)實作 ...........28
3.4.3 搜尋單元改良 ..................................................................................29
3.4.3.1 單字詞字元位置表格實作 ...................................................29
3.4.3.2 單字詞額外比對 ...................................................................30
3.4.4 彌補語料庫未出現的中文字 ..........................................................31
3.4.4.1 如何判斷多字詞搜尋結果需要填補哪些位置 ...................32
3.4.4.2 彌補語料庫未出現的中文字,以前後詞綴填補 ................33
3.4.4.3 彌補語料庫未出現的中文字,以中文姓氏填補 .................33
3.4.4.4 彌補語料庫未出現的中文字,以同音單字詞替代 .............34
3.4.5 搜尋單元總結 ..................................................................................34
3.5 挑選單元說明 .............................................................................................36
3.5.1 挑選單元功能說明 ..........................................................................36
3.5.1.1 挑選單元之目的 ...................................................................36
3.5.1.2 影響合成音質的誤差因素 ...................................................36
3.5.2 挑選單元實作 ..................................................................................37
3.5.2.1 文獻回顧 ...............................................................................37
3.5.2.2 挑選合成單元之方式 ...........................................................39
3.5.3 合成單元目標差異(Target Cost) ......................................................40
3.5.3.1 前後文相關係數差異(Contextual Difference) ......................41
3.5.3.2 韻律參數差異(Prosodic Information Difference) .................42
3.5.4 合成單元間轉移差異(Transition Cost) ............................................43
3.5.4.1 合成單元間連接代價(Concatenation Cost) ..........................44
3.5.4.2 合成單元間連音效應評估(Co-articulation Cost) .................44
3.5.5 挑選單元總結 ..................................................................................45
3.6 波形合成器之說明 .....................................................................................47
3.6.1 於波形間穿插靜音後連接 ..............................................................47
3.6.2 波形能量調整 ..................................................................................47
3.6.3 句首淡入(fade-in)與句尾漸消(fade-out) .........................................48
3.7 以語料庫為基礎之語音合成系統總結 .....................................................49
第四章 系統設定與系統效能評估 ........................................................................50
4.1 系統設定 .....................................................................................................50
4.1.1 用於挑選單元之權重值與正規化參數設定 ..................................50
4.1.2 用於計算前後文相關係數差異之各項係數權重值設定 ..............52
4.1.3 用於計算連接代價之權重值設定 ..................................................53
4.1.4 用於評估連音效應之能量臨界值設定 ..........................................53
4.2 系統效能評估 .............................................................................................56
4.2.1 系統執行時所使用之記憶體大小 ..................................................56
4.2.2 合成目標句系統所需之時間 ..........................................................57
4.2.3 圖形化使用者輸出入介面 ..............................................................58
4.3 實驗結果與分析 .........................................................................................61
4.3.1 資料涵蓋率問題 ..............................................................................61
4.3.2 語料庫中切割位置不正確問題 ......................................................62
4.4 章節總結 .....................................................................................................63
第五章 結論與未來展望 ..........................................................................................64
5.1 結論 .............................................................................................................64
5.2 未來展望 .....................................................................................................65
參考文獻 ....................................................................................................................66
附錄一 國語411基本音節總音表 ...........................................................................68
附錄二 Treebank語料庫統計數據 ..........................................................................78
附錄三 詞綴清單與統計數據 ..................................................................................79
附錄四 音節相關前後文變數向量分類方式與統計數據 ......................................84
附錄五 中文姓氏清單與統計數據 ..........................................................................86
附錄六 挑選單元中各變數之統計數據 ..................................................................88

表目錄

表2-1-1:語料庫詞長分佈表格 ...................................................................................5
表2-2-1:標記短詞組合後之語料庫詞長分佈表 .....................................................10
表2-2-2:標記詞綴後之語料庫詞長分佈表 .............................................................12
表3-1-1:系統中各模組之功能一覽表 .....................................................................24
表3-3-1:The RMSEs of the five synthesized prosody parameters. ………................25
表3-4-1:連續相關比對法中,搜尋過程的三種狀況及對應動作 ...........................26
表3-4-2:字元位置表格格式 .....................................................................................27
表3-4-3:工作表格格式 .............................................................................................28
表3-4-4:詞串候選表格格式 .....................................................................................28
表3-4-5:單字詞字元位置表格格式 .........................................................................30
表4-1-1:前後文相關係數差異之權重值定義 .........................................................53
表4-2-1:合成系統各項資料列表 .............................................................................56
表A 國語411基本音節總音表 ..............................................................................68
表C.1 前詞綴清單 ..................................................................................................79
表C.2 後詞綴清單 ..................................................................................................81
表D.1 前一音節結尾類型分類表 ..........................................................................84
表D.2 後一音節開頭類型分類表 ..........................................................................84
表D.3 前一音節音調分類表 ..................................................................................85
表D.4 後一音節音調分類表 ..................................................................................85
表D.5 位於詞中的位置分類表 ..............................................................................85
表E 中文姓氏清單 .................................................................................................86


圖目錄

圖2-1-1:一個中文文句結構樹圖形表示的例子 .......................................................4
圖2-1-2:語料庫詞長分佈圖 .......................................................................................5
圖2-3-1:The flowchart of creating a HMM prototype model .................................15
圖2-3-2:The flowchart of training a HMM model .....................................................16
圖2-3-3:相鄰音框重疊部分示意圖 .........................................................................17
圖2-3-4:一個以wavesurfer軟體求取音高的例子 ..................................................19
圖3-1-1:語音合成系統流程圖 .................................................................................23
圖3-4-1:連續相關比對法流程圖 .............................................................................31
圖3-4-2:填補前的搜尋結果示意圖 .........................................................................32
圖3-4-3:已標記須填補位置的搜尋結果示意圖 .....................................................33
圖3-4-4:搜尋單元流程圖 .........................................................................................35
圖3-5-1:Tradeoff between unit and transition costs. ..................................................37
圖3-6-1:淡入(fade in)與漸消(fade out)示意圖 .......................................................48
圖4-1-1:The cumulative distribution function of Pitch-Mean Difference .................51
圖4-1-2:音節邊緣平均能量(3frames)統計圖 ........................................................54
圖4-1-3:音節邊緣平均能量(3frames)累加分佈函數圖 ........................................54
圖4-2-1:多句目標句之合成流程示意圖 .................................................................57
圖4-2-2:合成系統之使用者介面外觀 .....................................................................59
圖4-2-3:利用手動修改斷詞結果的範例 .................................................................60
圖4-3-1:語料庫對詞典涵蓋率 .................................................................................64
圖F.1: The cumulative distribution function of Duration Difference .........................88
圖F.2: The cumulative distribution function of Power Difference .............................89
圖F.3: The cumulative distribution function of Contextual Difference ......................89
參考文獻

【1】 吳佩穎,“以語料庫為基礎之中文文句翻語音系統中合成單元之選取”,國立交通大學碩士論文,民國九十四年七月。
【2】 Chou, F. C., C. Y. Tseng, and L. S. Lee, “A Set of Corpus-Based Tex-to-Speech Synthesis Technologies for Mandarin Chinese” in Pro. ICASSP, Vol. 10, pp.481-494, 2002.
【3】 陳鳳儀,蔡碧芳,陳克健,黃居仁,“中文句結構樹資料庫(Sinica Treebank)的構建”,中央研究院資訊所、中央研究院研究所。
【4】 The HTK Book (for HTK Version 3.2.1)
【5】 林立峰,“中文TTS系統與音合成之改進”,國立交通大學碩士論文,民國九十三年六月。
【6】 Wavesufer Homepage : http://www.speech.kth.se/wavesurfer/
【7】 Chen, S.H., S.H. Hwang and Y. R. Wang, "An RNN-based prosodic information Synthesizer for Mandarin text-to-speech", IEEE Trans. On Speech and Audio Processing, Vol. 6, NO. 3, pp.226-239, 1998.
【8】 S.H. Hwang, S.H. Chen, and Y.R. Wang, "A Mandarin Text-to-Speech system", in Proc. ICSLP-96, pp.1421-1424, Oct.1996.
【9】 江振宇,“中文斷詞器之改進”,國立交通大學碩士論文,民國九十三年七月。
【10】 黃紹華,“中文文句翻語音系統中韻律訊息產生器之研究”,國立交通大學博士論文,民國八十五年六月。
【11】 Jian Yu, Jianhua Tao and Xia Wang, "Pitch Prediction for Mandarin TTS with Mutual Prosodic Constraint", ISCSLP, 2006.
【12】 Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, “Spoken language processing: a guide to theory, algorithm, and system development”.
【13】 Blouin C., Rosec O., Bagshaw P., D'Alessandro C., "Concatenation cost calculation and optimisation for unit selection in TTS", IEEE 2002 Workshop on Speech Synthesis. Santa Monica, USA, September 11-13, 2002.
【14】 Erdem, C.; Beck, F.; Hirschfeld, D.; Hoege, H.; Hoffman R., 2002c. Robust unit selection based on syllable prosody parameters. IEEE 2002 Workshop on Speech Synthesis. Santa Monica, California USA.
【15】 Chu, M., Peng, H., Yang, H. and Chang, E., “Selecting non-uniform units from a very large corpus for concatenative speech synthesizer”, In Proceedings of ICASSP, Salt Lake City. 2001.
【16】 Alfas, F., Llora, X., Formiga, L., Sastry, K., Goldberg, DE, "EFFICIENT INTERACTIVE WEIGHT TUNING FOR TTS SYNTHESIS: REDUCING USER FATIGUE BY IMPROVING USER CONSISTENCY", 2006 ICASSP International Conference on Acoustics, Speech and Signal Processing (ICASSP06), vol. I, pp. 865-868, Maig, Toulouse (Franca).
【17】 H. Peng, Y. Zhao, and M. Chu, “Perpetually optimizing the cost function for unit selection in a TTS system with one single run of MOS evaluation”, in Proc. ICSLP, (Denver, USA), 2002.
【18】 R. Hoffmann et al., "A multilingual TTS system with less than 1 MByte footprint for embedded applications", Proc. ICASSP, Hong Kong, 2003.
【19】 Nakamura, S. et al., "The ATR Multilingual Speech-to-Speech Translation System", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 14, NO. 2, MARCH 2006.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top