跳到主要內容

臺灣博碩士論文加值系統

(44.220.247.152) 您好!臺灣時間:2024/09/15 09:39
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:李俊毅
研究生(外文):Chun-Yi Lee
論文名稱:語音評分
論文名稱(外文):Speech Evaluation
指導教授:張智星張智星引用關係
指導教授(外文):Jyh-Shing Roger Jang
學位類別:碩士
校院名稱:國立清華大學
系所名稱:資訊工程學系
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2002
畢業學年度:90
語文別:中文
論文頁數:55
中文關鍵詞:語音評分音量強度曲線基頻軌跡梅爾倒頻譜參數隱藏式馬可夫模型維特比演算法正交化展開柴比雪夫逼近
外文關鍵詞:Speech EvaluationMagnitudePitch ContourMel-Frequency Cepstral CoefficientsHidden Markov ModelViterbi AlgorithmOrthogonal ExpansionChebyshev Approximation
相關次數:
  • 被引用被引用:45
  • 點閱點閱:1083
  • 評分評分:
  • 下載下載:151
  • 收藏至我的研究室書目清單書目收藏:5
  語音評分乃是結合了許多音訊處理以及語音辨識技術的一門學問,本論文從定義評分所需的特徵參數開始,實驗許多可行的特徵比對方式,期許建立一套合理的語音評分系統。
  本論文包含兩個部分:第一部分為「利用標準語音資料的評分」,第二部分為「利用HMM及音高資料的評分」,分別從不同的觀點來對語音評分。
「利用標準語音資料的評分」,顧名思義我們可以想見這種評分方式將會有一個標準答案,亦即存在一標準語音,而測試的語音則要愈像此標準語音愈好,愈像者分數將會愈高;這部分所運用到的技術,包含特徵參數的擷取、圖樣比對方法的設計以及評分機制的建立等,其中特徵參數的部分我們是採用以下三個特徵,分別是音量強度曲線(Magnitude)、基頻軌跡(Pitch Contour)以及梅爾倒頻譜參數(Mel-Frequency Cepstral Coefficients);音量強度曲線代表聲音音量強弱的變化趨勢;基頻軌跡代表聲音音高的起伏;梅爾倒頻譜參數則是代表聲紋,即語音的內容。在評分方面,我們使用「動態時間扭曲」(dynamic time warping)來比較這三個特徵的相似程度。
「利用HMM及音高資料的評分」主要是提供另一種語音評分的方式,以預先訓練好的聲學模型及聲調模型當成標準答案,經由語音辨認技術的使用,找出測試語音跟模型間的差異程度,並配合評分機制給與評分;此部分包含許多目前語音辨識常運用到的技術,例如在聲音辨識方面包含了隱藏式馬可夫模型(Hidden Markov Model)、樹狀網路(Tree Net)及維特比演算法(Viterbi Algorithm)等;在聲調辨識方面則包含了諸如Orthogonal Expansion、Chebyshev Approximation、K-means分群法及分類器的設計等等。在評分方面,我們利用測試語音在所有可能的411個音的排名並配合聲調給予評分。
This thesis discusses several methods in speech evaluation, which is a study on computer evaluation of speech contents, fluency and intonation. It requires the techniques from audio signal processing and speech recognition. In order to develop an appropriate and consistent speech evaluation system, we define several useful speech features for our speech evaluation system and perform several experiments on feature matching methods. There are two parts in this thesis. The first one is “Evaluation using standard speech”, and the other is “Evaluation using HMM and pitch contour”.
“Evaluation using standard speech” is a method that evaluates the similarity between a test speech and the corresponding standard speech. We use various approaches for speech feature extraction, pattern matching, and similarity computation. In particular, we use magnitude contour, pitch contour, and mel-frequency cepstral coefficients as the features to generate a similarity score. Magnitude contours represent the variations in volume. Pitch contours represent the variations in pitches. Mel-frequency cepstral coefficients represent the contents of speech.
  “Evaluation using HMM and pitch contour” is another speech evaluation paradigm that does not require the existence of a standard speech. Alternatively, we evaluate a test speech based on its similarity to a hidden Markov models (HMM) and tone models. Viterbi decoding is used to segment each character in a continuous sentence. Then the score of each character is computed through the ranking of 411 possible syllables and a tone recognition system.
第1章 緒論 1
1.1 研究主題 1
1.2 語音評分系統簡介 2
1.3 本論文研究方向和主要成果 2
1.4 章節概要 2
第2章 利用標準語音資料的評分 4
2.1 評分系統簡介 4
2.2 特徵參數擷取 5
2.2.1 音量強度曲線 5
2.2.2 基頻軌跡 6
2.2.3 梅爾倒頻譜參數 9
2.3 特徵參數正規化 11
2.3.1 解決特徵參數長短不一的問題:Interpolation 11
2.3.2 解決麥克風差異性:Linear Scaling 11
2.3.3 解決個人音高差異性:Linear Shifting 12
2.3.4 解決未知的通道效應:Cepstral Mean Subtraction 13
2.3.5 語者正規化:Vocal Tract Length Normalization 13
2.4 圖樣比對方法設計 14
2.4.1 音量強度曲線比對方法 14
2.4.2 基頻軌跡比對方法 15
2.4.3 梅爾倒頻譜參數比對方法 16
2.5 相似度比對:DYNAMIC TIME WARPING 16
2.6 評分機制 20
2.7 評分參數調整 21
第3章 利用HMM及音高資料的評分 22
3.1 評分系統簡介 22
3.2 語音辨識 23
3.2.1 語音辨識流程 23
3.2.2 特徵參數擷取 23
3.2.3 聲音單元介紹 25
3.2.4 隱藏式馬可夫模型 26
3.2.5 語音辨識法則 28
3.2.6 樹狀網路 30
3.2.7 語音訊號的切割 31
3.3 聲調辨識 32
3.3.1 國語聲調簡介 32
3.3.2 聲調辨識流程 33
3.3.3 基頻軌跡參數化(一):Orthogonal Expansion 34
3.3.4 基頻軌跡間的距離估測 35
3.3.5 基頻軌跡參數化(二):Chebyshev Approximation 36
3.3.6 分群法則:K-means 38
3.3.7 分類法則 38
3.4 評分機制 40
第4章 結論與展望 42
附錄一:Orthogonal Expansion基底推導 43
參考文獻 47
【1】 J.D., J.G..P, J.H.L.H, Discrete-Time Processing of Speech Signals, Prentice Hall, 1993.
【2】T.W. Parsons, Voice and Speech Processing, McGraw-Hill, 1986.
【3】葉佳慧,“以音符及節拍為主的音樂檢索系統”, 清華大學碩士論文, 民國90年
【4】Lawrence Rabiner, B.H Juang, Fundamentals of speech recognition, Prentice Hall, 1993.
【5】J.-S. R. Jang, C.-T. Sun, and E. Mizutani, Neuro-Fuzzy and Soft Computing, Prentice Hall, 1996.
【6】 高名揚,“以聲音內容為主的音樂資料庫檢索系統的加速方法”, 清華大學碩士論文, 民國90年
【7】方士豪,“雜訊及通道環境下語音辨認技術之研究”, 台灣大學碩士論文, 民國90年
【8】JULIUS T. TOU, RAFAEL C. GONZALEZ, Pattern Recognition Principles, Addison-Wesley Publishing Company, 1974.
【9】呂道誠,“不特定語者、國台雙語大詞彙語音辨識之聲學模型研究”,長庚大學碩士論文,民國90年
【10】楊永泰,“隱藏式馬可夫模型應用於中文語音辨識之研究”, 中原大學碩士論文, 民國89年
【11】陳柏琳,“中文語音資訊檢索─以音節為基礎之索引特徵、統計式檢索模型及進一步技術”, 台灣大學博士論文, 民國90年
【12】Steven Young, The HTK Book version 3, Microsoft Corporation, 2000.
【13】莊向凱,“國語語音資料庫之標音系統”, 清華大學碩士論文, 民國88年
【14】徐光輝,“國語語音資料庫MAT-2000上的聲調辨認研究”, 清華大學碩士論文, 民國89年
【15】王逸如,“對基週軌跡做向量量化之線性預估語音編碼”, 交通大學碩士論文, 民國76年
【16】Press, William H., Numerical Recipes in C, The Art of Scientific Computing, Cambridge University Press, 1992.
【17】許文豪,“圖形辨識概述與實作”, 清華大學碩士論文, 民國89年
【18】蔣昇倫,“經電話通道之國語連續411音節辨認”, 交通大學碩士論文, 民國86年
【19】謝宏坤,“語音說明中搜尋任意定義之關鍵詞的研究”, 台灣科技大學碩士論文, 民國89年
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊