跳到主要內容

臺灣博碩士論文加值系統

(3.235.56.11) 您好!臺灣時間:2021/07/29 09:24
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:鍾綸
研究生(外文):Lun Chung
論文名稱:用於語音合成的中文斷詞分析
論文名稱(外文):Analysis of Chinese Word Segmentation for Text-to-speech Synthesis
指導教授:張智星張智星引用關係
指導教授(外文):Jyh-Shing Roger Jang
學位類別:碩士
校院名稱:國立清華大學
系所名稱:資訊系統與應用研究所
學門:電算機學門
學類:系統設計學類
論文種類:學術論文
論文出版年:2004
畢業學年度:92
語文別:中文
論文頁數:44
中文關鍵詞:語音合成斷詞構詞
外文關鍵詞:Text-to-speechWord-segmentation
相關次數:
  • 被引用被引用:3
  • 點閱點閱:298
  • 評分評分:
  • 下載下載:72
  • 收藏至我的研究室書目清單書目收藏:7
聲音訊號處理(Audio Signal Processing) 近年成為資訊領域的另一研究焦點,無論是語音辨識或合成,都成為資訊生活化,以及改善人機介面的重要核心技術。以語音合成為例,為達成貼近自然人聲的遠程目標,如何讓機器學習、模擬人類說話的方式,如語調的變化、韻律節奏的起頓乃至文意的表達等,都是語音合成研究的重點。其中,斷詞在中文語音合成又極具影響。

在許多自然語言的研究和應用中,中文斷詞器都是不可少的前置處理。本文嘗試藉由語言學的基礎,建立一套適合中文語音合成的斷詞器。斷詞系統可略分兩大單元。其一的斷詞單元中,我們以長詞優先法(Longest Word First)及動態規劃演算法(Dynamic Programming)兩種方法,分別測試斷詞的結果。然而詞庫的匯集耗費相當地時間與人力,且龐大的詞庫對斷詞系統的整體效能更是一大負擔,考量中文構詞的特性,我們又加入構詞單元,其中包含定量複合詞構詞、疊詞構詞以及姓名構詞。

本文嘗試在語言與資訊兩大學門中做一初步整合。就現有斷詞方法來說,針對中文語音合成單一主題研究是第一次,在學科整合而言,我們期望這只是投石問路!
In this study, we have implemented a word-segmentation system for text-to-speech synthesis in Mandarin Chinese. The proposed word-segmentation system consists of several functional blocks that can be used to decompose a given sentence into natural "word units" for achieving natural prosody in text-to-speech synthesis. We propose two methods for basic word segmentation, including maximum matching algorithm based on longest word first, and dynamic programming based on word length and frequencies.

Moreover, we have applied other schemes to further improve the system's performance, including word construction based on determinative measure, reiterative patterns, and name entities. We also tried to expand the word database via mutual information of on-line news articles. The tone variations that are specific to Mandarin Chinese are also addressed.
章節目錄
摘  要 I
Abstract II
致  謝 V
章節目錄 VI
圖表目錄 VIII
第一章 緒論 - 1 -
1.1 研究主題及動機 - 1 -
1.2 中文斷詞系統簡介 - 2 -
1.3 章節概要 - 3 -
第二章 連讀變調 - 4 -
2.1 五度標記法 - 4 -
2.2 連讀變調 - 7 -
2.2.1 上聲變調 - 7 -
2.2.2 快速的陽平變調 - 9 -
2.3 「一、 不」變調 - 9 -
2.3.1 「一」的變調 - 9 -
2.3.2 「不」的變調 - 11 -
2.4 疑問句尾升調 - 11 -
第三章 中文語音合成的斷詞系統 - 14 -
3.1 資料庫介紹 - 14 -
3.1.1 詞庫與斷詞系統的關連 - 15 -
3.1.2 清大多媒體資訊檢索實驗室語文資料庫(MIR DB) - 15 -
3.1.3 中研院漢語平衡語料庫(Sinica Corpus 3.0) - 16 -
3.2 斷詞單元 - 18 -
3.2.1 長詞優先法 - 19 -
3.2.2 動態規劃演算法 - 21 -
3.3 構詞單元 - 23 -
3.3.1 定量複合詞構詞 - 23 -
3.3.2 疊詞構詞 - 25 -
3.3.3 姓名構詞 - 26 -
3.4 詞庫擴增 - 27 -
3.4.1 新聞資料庫簡介 - 27 -
3.4.2 姓名及一般詞資料庫的增加 - 27 -
第四章 實驗結果與分析 - 28 -
4.1 實驗資料庫及效能定義 - 28 -
4.2 長詞優先與動態規劃演算法的斷詞單元 - 29 -
4.3 定量複合詞的構詞單元 - 30 -
4.4 疊詞的構詞單元 - 31 -
4.5 姓名的構詞單元 - 32 -
4.6 語音合成用之斷詞系統整體效能分析 - 33 -
4.7 實驗錯誤分析 - 35 -
第五章 結論與未來展望 - 37 -
參考文獻 - 39 -
附錄一 定詞及量詞 - 41 -
附錄二 常用百家姓 - 44 -


圖表目錄

圖1-1 斷詞系統基本架構及斷詞流程示意圖 - 2 -
圖2-1 五度標記法 - 6 -
圖2-2 五度標記法的疑問句尾升調 - 12 -
圖3-1 斷詞單元中詞庫與斷詞演算法示意圖 - 15 -
圖3-2 長詞優先法示意圖 - 20 -
圖3-3 動態規劃演算法示意圖一 - 22 -
圖3-4 動態規劃演算法示意圖二 - 22 -

表 2-1 國語聲調表 - 6 -
表 2-2 疑問句尾升調 - 13 -
表3-1 清大多媒體資訊檢索實驗室語文資料庫(MIR DB)詞庫分佈 - 16 -
表3-2 中研院漢語平衡語料庫主題分佈 - 17 -
表3-3 中研院漢語平衡語料庫語式分佈 - 17 -
表3-4 中研院漢語平衡語料庫媒體分佈 - 17 -
表3-5 中研院漢語平衡語料庫(SINICA CORPUS 3.0)詞庫分佈 - 18 -
表3-6 修正後的清大多媒體資訊檢索實驗室語音資料庫(MIR DB)詞庫分佈 - 24 -
表3-7 修正後的中研院漢語平衡語料庫(SINICA CORPUS 3.0)詞庫分佈 - 25 -
表4-1 長詞優先與動態規劃演算法效能實驗分析 - 29 -
表4-2 加上定量複合詞構詞的斷詞系統效能實驗 - 30 -
表4-3 加上定量複合詞、疊詞構詞的斷詞系統效能實驗 - 31 -
表4-4 加上定量複合詞、疊詞與姓名構詞的斷詞系統效能實驗 - 32 -
表4-5 MIR實驗室語音資料庫在LONGEST WORD FIRST斷詞的各階段表現 - 34 -
表4-6 SINICA平衡語料庫在LONGEST WORD FIRST斷詞的各階段表現 - 34 -
表4-7 MIR實驗室語音資料庫在DYNAMIC PROGRAMMING斷詞的各階段表現 - 34 -
表4-8 SINICA平衡語料庫在DYNAMIC PROGRAMMING斷詞的各階段表現 - 35 -
1.張孝裕、葉德明,《中國語發音續篇》,台灣復文興業股份有限公司發行,2000年十月初版。ISBN 7-218-00010-8/G.108。
2.張琨,《漢語音韵史論文集》,聯經出版事業公司出版,民國七十六年八月初版。
3.汪壽明、潘文國,《漢語音韵學引論》,華東師範大學出版社出版發行,1992年8月初版。ISBN7-5617-0793-2/H.061。
4.孫玉文,《漢語變調構詞研究》,北京大學出版社出版,2000年6月初版。ISBN7-301-04459-3/H.0529。
5.郭錦桴,《漢語聲調語調闡要與探索》,北京語言學院出版社出版,1993年7月初版。ISBN7-5619-026-1/H.190。
6.聶敏熙,《多音字讀音規範手冊》,巴蜀書社出版發行,2001年7月三刷。ISBN7-80523-831-6/H.29。
7.吳宗濟,《現代漢語語音概要》,華語教學出版社出版,1992年初版。ISBN7-80052-137-0/H.131。
8.徐世榮,《現代漢語語音概要》,語文出版社出版,1993年10月初版。ISBN7-80006-679-7/H.152。
9.李東毅,《普通話正音知識》,語文出版社出版,1995年2月初版。ISBN7-80006-897-8/H.188。
10.金有景,《普通話語音常識》,北京出版社出版,1981年9月初版。
11.徐世榮,《普通話語音知識》,文字改革出版社出版,1980年10月初版。
12.張本楠、楊若薇,《普通話連讀因變》,商務印書館有限公司出版,2000年9月二刷。ISBN962-07-1219-6。
13.陳寶如,《普通話語音》,廣東人民出版社出版,1993年5月二刷。ISBN 7-218-00010-8/G.108。
14.謝明峰,<使用大量語料庫的中文語音合成系統實作>,國立清華大學資訊工程學系92學年碩士論文。
15.廖碩鵬,<中文語音辨識中語言模型的強化>,國立臺灣大學資訊工程學研究所91學年碩士論文。
16.朱怡霖,<中文斷詞與專有名詞辨識之研究>,國立臺灣大學資訊工程學研究所90學年碩士論文。
17.唐大任,<中文斷詞器之研究>,國立交通大學電信工程系90學年碩士論文。
18.鐘祥睿,<台語TTS系統之改進>,國立交通大學電信工程系90學年碩士論文。
19.黃居仁、陳克建<中央研究院平衡語料庫的內容與說明(修訂版)>,中央研究院資訊科學研究所中文詞知識庫小組,1998年8月。Technical Report No. 95-02/98-04。
20.Richard Sproat and Chilin Shin 〈A Statistical Method for Finding Word Boundaries in Chinese Text〉,《Computer Processing of Chinese & Oriental Languages》Vol. 4, No. 4, March 1990.
21.《國語辭典》,教育部國語推行委員會編錄,民國八十七年四月版。網路版URL: http://140.111.1.22/mandr/clc/dict/。
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
1. 李芝靜(民87),以價值澄清法由分析綜合高中學生入學動機輔導學生生涯探索之雛議。教育研究資訊,6(6),52-68。
2. 何英奇(民71),大學生價值結構之研究。教育心理學報,15,205-214。
3. 吳芝儀(民88),從建構論觀點探討當前台灣大學生的生涯價值。輔導季刊,35(1),42-54 。
4. 吳淑玲(民85),國中學生偶像崇拜與價值觀關係之研究(上)。教育資料文摘,37(3),166-190。
5. 吳清基(民85),創新理念﹘邁向十年國教篇。技術及職業教育月刊,34(08),2-5。
6. 吳瓊洳(民86),國中學生價值觀之研究。教育資料文摘,40(6),153-162。
7. 林義男(民67),我國國中學生價值取向之研究。輔導學報,1,291-343。
8. 金樹人(民76),價值問卷在生計輔導上的應用。諮商與輔導,6,21-22。
9. 金樹人、許宏彬(民87),國中學生生涯建構系統之結構分析。教育心理學報,30(2),59-99。
10. 高強華(民89),青少年的價值選擇與價值教育。學生輔導,70,14-25。
11. 張奉箴(民78),概論價值。教育文粹,18,6-11。
12. 陳芳萍(民85),價值澄清式法治教學對國中生法治知識與態度之實驗研究。公民訓育學報,5,393-416。
13. 陳肇男、吳就君、李叔佩(民73),師大新生之價值體系及其短期演變。師大學報,29,289-319。
14. 劉玲君(民87),青少年生活態度與價值觀指標調查研究。學生輔導,54,146-158
15. 簡茂發、何榮桂、張景媛(民87),國中學生價值觀量表編製報告。台北:教育心理學報。30(2),17-32。