跳到主要內容

臺灣博碩士論文加值系統

(44.220.247.152) 您好!臺灣時間:2024/09/15 09:42
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:朱孝國
研究生(外文):Hsiao-Kuo Chu
論文名稱:以自由軟體進行語音實驗
論文名稱(外文):Speech Experimentations Using Free Software
指導教授:洪朝貴洪朝貴引用關係
指導教授(外文):Chao-Kuei Hung
學位類別:碩士
校院名稱:朝陽科技大學
系所名稱:資訊管理系碩士班
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2005
畢業學年度:94
語文別:中文
論文頁數:80
中文關鍵詞:特定領域語音合成Festival
外文關鍵詞:Festivallimited domainSpeech Synthesis
相關次數:
  • 被引用被引用:4
  • 點閱點閱:750
  • 評分評分:
  • 下載下載:92
  • 收藏至我的研究室書目清單書目收藏:4
自從多媒體型態的全球資訊網席捲全球後,開啟人們對於軟體應用多樣性的需求; 而語音之於系統整合的重要性更是與日遽增。語音可應用於許多產業,例如鐵路訂票系統、銀行的存款語音查詢系統、醫院的電腦語音掛號系統等皆是; 但坊間普遍多與韌體作結合,價格與技術的門檻過高,在搭配應用程式的解決方案又多是在Windows平臺上而沒有跨平台的透通性。本研究試圖降低此建置門檻,讓更多非資訊產業可以享用既存,但鮮為人知的語音科技。

想要降低建置的門檻,自由軟體是最佳選擇; 英國愛丁堡大學的Festival系統針對語音合成(Speech Synthesize)提供了通用性的架構,從範例、模組到 API 都可利用 Scheme 直譯式命令驅動之,並且有美式英語、英式英語、西班牙語等版本。因此我們選擇了英語系的語音合成軟體巨擘「Festival」作為我們瞭解國語語音的基石。

完整的語音合成系統必須針對所有的字詞甚至是符號發聲; 但某些語音的應用上卻只需發出部份且固定的字詞而無需每個字都能發聲,例如 117 的報時台或預報天氣等系統,就僅需要特定領域(limited domain)的合成語音,而無須泛用型的合成語音。我們藉由 Festival 以語音訂票為範例,可為英文特定領域的語音應用提出一可行之解決方案。

透過理解 Festival 對於語音的架構方式,可有助於我們分析與定義未來國語語音所需的語音資料結構。藉著 Scheme 語言,我們可以自由取用其 API 來剖析結構,並將之繪製出來,打開語音資料結構的黑盒子,除了瞭解 Festival 的運作,並探討其中文化的可能性。

語音的另一大應用為語音辨識(Speech Recognition); 而國語語音之於英語語音有一個很大的不同,就在於國語語音有清楚的四聲會影響語者想表達的意義; 我們嘗試將語音轉成數位化的資訊,以類神經網路(Artifical Neural Network,ANN)中的倒傳遞網路(Back Propagation Network,BPN)架構,作為瞭解國語語音的四聲辨識的切入點。

在語音研究相關的領域知識大多為專利權所把持,要想在國語語音的技術上找到開放源碼(Open Source)、無版權爭議; 甚或是創造一個語音研究的自由發展環境,目前還付之闕如。就自由軟體的精神來看,研究應踩在巨人的肩膀上、借力使力,不要重複前人所做的努力; 故本研究分別以「特定領域的合成語音」、「語音資料結構剖析」與「國語語音的四聲辨識」等三個議題,作為國內開放源碼的語音計畫之濫觴; 希望對於語音領域有興趣的研究者能藉以一窺堂奧。
WWW grows popular all over the world, and stimulates people''s demand to the software. In particular, the speech component in systems is increasingly important. The speech can be applied in various industries, including for example the booking system for railway, the inquiry system for banks, and the register system for hospitals. The commercial speech systems are typically integrated with the firmware. Both the price and technological barrier are too high. Moreover, such solutions are platform-dependent. This research attempts to reduce the barrier so as to benefit the broader society outside the information industry.

To reduce these barriers, Open Source Software is the best choice. Festival software of university of Edinburgh offers a general framework for building speech synthesis systems and include examples of various modules. It offers text-to-speech functionality through a number of APIs, a scheme command interpreter, and shell. It supports American English, British English, Spanish, etc. Therefore we choose Festival to help us understand the foundation of Mandarin Speech.

The general speech synthesis system need to include a huge vocabulary. However, some applications require the synthesis of only a relatively fixed set of sentences. Examples are the time inquiry service of 117 and the weather report system of 166. Such systems need the speech synthesis in a limited domain instead of over the general vocabulary. We demonstrate that Festival can be very useful in such situations with an example of the ticket-booking system.

We also study Festival''s data structure in order to facilitate future research of its application in mandarin speech synthesis. We use the Scheme language to call its API to understand its data structures and draw diagrams.

The other direction of speech technology is speech recognition. There is a big difference between mandarin speech and English Speech. There are the distinct four tones in the mandarin speech. We focus on this distinction and use the Back Propagation Network in the Artificial Neural Network technology to resolve the four tones in mandarin speech recognition.

There are many patents in the speech technology. There is currently no free and open environment that offers source code for studying speech technology in mandarin. The free software idealism follows the spirit of science and emphasize the benefit of ``standing on the giant''s shoulder''. Therefore we study the three topics ``Limited Domain speech synthesis'', ``Speech data structure analyze'', and ``Mandarin speech''s four tone recognize''. We hope that this can serve as a beginning step for speech study in Mandarin using Open Source Software, and help future researchers to enter this field.
目錄
1. 緒論
1.1 研究動機與目的
1.2 研究流程與架構
2. 文獻探討
2.1 語音學
2.2 語音合成
2.3 類神經網路
3. 特定領域的合成語音
3.1 語音合成軟體的安裝
3.2 準備語音製作環境
3.3 特定領域
3.4 建立步驟
3.5 實驗結論
4. 語音資料結構剖析
4.1 產生Utterance物件
4.2 Utterance的結構
4.3 鍊結串列型的relations
4.4 樹狀型的relations
4.5 使用Festival 發出國語語音
4.6 實驗結論
5. 國語語音的四聲辨識
5.1 語料的選擇
5.2 語料波型特徵擷取
5.3 正規化處理
5.4 國語語音四聲的訓練過程
5.5 國語語音四聲的辨識過程
5.6 實驗結論
6. 結論與未來研究
參考文獻
附錄一 Festival使用簡介
附錄二 Scheme語言簡介
附錄三 訓練語料的特徵值
附錄四 辨識語料的特徵值
附錄五 國語四聲辨識擷取特徵值程式碼(sprec.c)
附錄六 國語四聲辨識BPN程式碼

表目錄
1. 聲母表(initial)
2. 韻母表(final)
3. 國內相關研究(Internal Research)
4. 國外相關研究(Oversea Research)
5. 特定領域-訂票句型通式
6. ticket.data
7. 語音結構拆解分析表
8. Festival 各階段產生之語音結構表
9. 語料表
10. 訓練語料的原始特徵值(20個音)
11. 訓練的四種參數設定
12. 訓練語料的特徵值(補零法處理)
13. 訓練語料的特徵值(內插法處理)
14. 辨識語料的特徵值(補零法處理)
15. 辨識語料的特徵值(內插法處理)

圖目錄
1. 頻率與振福示意圖
2. 語音合成歷年發展圖
3. 常用的語音合成法示意圖
4. 人腦運作示意圖
5. 類神經單元示意圖
6. 前向式架構圖
7. 回饋式架構圖
8. BPN網路架構圖
9. Utterance relations的組成
10. Word Relation的組成
11. Peter 同學社會關係的組成
12. 朋友關係的組成
13. Word relation資料結構示意圖
14. Syllable / SylStructure relation 資料結構示意圖
15. SylStructure relation範例細部說明圖
16. 補零法辨識結果圖
17. 內插法辨識結果圖
[1]朱孝國(2005,10月)。「低成本高彈性的特定領域語音合成實驗」。2005開放源碼國際研討會,台北。
[2]吳銘鈞(2003)。「以音節為基礎之語者識別」。清華大學碩士論文,新竹。
[3]李俊毅(2002)。「語音評分」。清華大學碩士論文,新竹。
[4]邵芳雯(1994)。「國語歌曲之合成」。交通大學碩士論文,新竹。
[5]洪朝貴、嚴春美、鄭爵儀(2002)。「利用音框技術的國語母音辨識」。2002開放源碼國際研討會,台北,第95-100頁。
[6]陳松琳(2002)。「以類神經網路為架構之語音辨識系統」。中山大學碩士論文,高雄。
[7]葉怡成(2003)。「類神經網路模式應用與實作」。儒林圖書,第1-16頁。
[8]臺灣師大國音教材編輯委員會(2001)。「國音學」。正中書局,第1-30頁。
[9]蔣昇倫(1997)。「經電話通道之國語連續411音節辨認」。交通大學碩士論文,新竹。
[10]蔣為文(2000)。「解構漢字的迷思」, http://www.de-han.org/hanji/chuliau/hanjibesu.htm.
[11]Alan Black , Lenzo, K. (2000), “Building Voices in the Festival Speech Synthesis System, ” DRAFT (updated2003)
[12]Alan Black. , Lenzo, K. (2000), “Limited Domain Synthesis,” ICSLP2000, Beijing, China.
[13]Alan Black. , Lenzo, K. (2004), “Multilingual Text-to-Speech Synthesis,” ICASSP 2004, Montreal, Canada.
[14]Alan Black (1997), “Festival Speech Synthesis System,” http://www.speech.cs.cmu.edu/comp.speech/Section5/Synth/festival.html
[15]Thierry Dutoit (1999), “A Short Introduction to Text-to-Speech Synthesis,”
[16]H/Mariam, S., Kishore, S., Black, A., Kumar, R., , Sangal, R. (2004), “Unit Selection Voice for Amharic Using Festvox,” 5th ISCA Speech Synthesis Workshop, Pittsburgh, PA., pp. 103-107.
[17]B. H. Juang , L. Rabiner (1993), “Fundamentals of speech recognition,” Prentice Hall, pp. 97-117.
[18]K. R. Farrell, R. J. Mammone, , K. T. Assaleh (1994), “Speaker recognition using neural networks and conventional classifiers,” IEEE Trans. on Speech and AudionProcessing, Volume 2 , pp. 194-205.
[19]Langner B. ,Black A. (2004), “Creating A Database Of Speech In Noise For Unit Selection Synthesis,” 5th ISCA Speech Synthesis Workshop, Pittsburgh, PA., pp. 229-230.
[20]Sami Lemmetty (1999), “Review of Speech Synthesis Technology,” http://www.acoustics.hut.fi/~slemmett/dippa/.
[21]M. W. Macon, L. Jensen-Link, J. Oliverio, M. Clements , E. B. George (1993), “Discrete-Time Processing of Speech Signals,” Prentice Hall, pp. 236-250.
[22]E.S Morais , F. Violaro , P.A Barbosa (1998), “Prosodic speech modifications using pitch-synchronous time-frequency interpolation,” Telecommunications Symposium, 1998. ITS ''98 Proceedings. SBT/IEEE International, Volume 1 , pp. 225-230.
[23]N. Deshmukh, A. Ganapathiraju, J. Picone(1999), “Hierarchical seaarch fo large vocabulary conversational speech recognition,” IEEE Signal Processing Magazine, pp. 84-107.
[24]J. Oglesby, J. S. Mason (1990), “Optimization of neural models for speaker identification,” Proc. ICASSP, pp. 261-264.
[25]H. Valbret , E. Moulines , J.P. Tubach (1997), “Concatenation-based MIDI-to-singing voice synthesis,” 103rd Meeting of the Audio Engineering Society, New York.
[26]H. Valbret , E. Moulines , J.P. Tubach (1992), “Voice transformation using PSOLA technique,” Acoustics, Speech, and Signal Processing, 1992. ICASSP-92, pp. 145-148.
[27]G. Velius (1988), “Variants of cepstrum based speaker identify verification,” Proc. ICASSP, pp. 583-586.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top