跳到主要內容

臺灣博碩士論文加值系統

(35.172.136.29) 您好!臺灣時間:2021/07/29 06:22
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:張凱鈞
研究生(外文):Kai-Jiun Chang
論文名稱:腦性麻痺患者的語音辨識暨介面開發
論文名稱(外文):Speech Recognition for the Patient of Cerebral Palsy and Interface Development
指導教授:劉震昌
指導教授(外文):Jen-Chang Liu
學位類別:碩士
校院名稱:國立暨南國際大學
系所名稱:資訊工程學系
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2007
畢業學年度:95
語文別:中文
論文頁數:108
中文關鍵詞:腦性麻痺強健母音子音
外文關鍵詞:Cerebral PalsyCPdHMM
相關次數:
  • 被引用被引用:3
  • 點閱點閱:140
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:2
腦性麻痺(Cerebral Palsy),是指大腦中的中樞神經系統,在發育成熟之前受到損傷或受到損傷或發生病變;導致其運動機能發生障礙,使得他們無法如同一般人那般使用鍵盤進行輸入,也無法持筆寫字,亦不能講話溝通。由於本校有一名學生也是腦性麻痺患者,上述的種種不便,讓他學習這方面受到相當大的限制。
某些論文探討發音障礙患者(Dysarthric Speaker)的語音辨識 [1][2][8],即使是重度的發音障礙患者,也能在逐步蒐集語音資料後,提升語音辨識率到讓人接受的程度。這個理論給了我們一個靈感:我們可以開發一套語音辨識系統讓他使用,並應用於輸入的部份。
本篇論文研究特定腦性麻痺患者的發聲,選出適合患者的語音辨識方式,尋找患者可以發出的強健(Robust)字彙,再針對這些強健字彙作後續處理。我們嘗試了一些方法,如動態時軸校正(Dynamic Time Warping,DTW)和離散式隱藏馬可夫模型(Discrete Hidden Markov Model,dHMM),使用梅爾倒頻係數(Mel-Frequency Cepstral Coefficients,MFCC)特徵,找出患者可以對哪些母音(Vowel)及子音(Consonant)做強健的發音。我們也做相關的語音分析,以評估受測者的發音能力。
最後,結合理論及實驗結果,設計出一套可讓患者方便使用的語音辨識系統。此系統對常輸入符號(英文字母、中文注音和數字符號)進行編碼,讓每個符號對應一種輸入碼,受測者可根據輸入碼來發音,組合出欲輸入的符號。另外也結合按鍵輔具,提升系統的便利性和效能。
The word “Cerebral Palsy” is used to describe a medical condition that affects control of the muscles. If someone has cerebral palsy, it means that he is not able to use some of the muscles in their body in the normal way. People, who have cerebral palsy, may not be able to walk, talk, eat or play in the same ways as most other people.
One student who has cerebral palsy is currently studying in our school, and he has problems communicating with others. He cannot use keyboard to type normally, cannot write with the pen, and cannot speak fluently.
Some of the papers analyze the speech recognition with Dysarthric speakers [1][2][8]. They found that the patients, including serious cerebral palsy sufferers, can have acceptable speech recognition results by collecting more voice samples. It gives us an idea: we can develop the speech recognition system for the student as input interface.
In this thesis, we explored the vocal ability of people who have cerebral palsy, looked for the robust vocabularies, and constructed a suitable speech recognition system.
We tried some methods of speech recognition, like Dynamic Time Warping and discrete hidden Markov model (dHMM), taking Mel-Frequency Cepstral Coefficients (MFCC) as features, to find robust vowels and robust consonants that people who have cerebral palsy can pronounce.
Finally, we combine theorems and experimental results to design the speech recognition system that is convenient for the cerebral palsy sufferer. The system encodes frequent Symbols to Morse code. Tester can pronounce based on Morse code table, and combines with Morse code to match the Symbol which he think. We can associate with other assistant to increase the convenience and performance of the system.
目錄
摘要 II
ABSTRACT III
第一章 導論 1
1.1 研究動機 1
1.2 研究目的 1
1.2.1 選擇適合的辨識方式 1
1.2.2 尋找清楚辨識的腦性麻痺字彙(Cerebral Palsy Word) [1] 1
1.2.3 開發便於腦性麻痺患者使用的語音辨識系統 2
1.3 過去相關研究 2
1.4 測試對象介紹及環境器材介紹 5
1.4.1 測試對象介紹 5
1.4.2 麥克風 6
1.4.3 電腦 7
1.4.4 環境 8
1.5 論文大綱 9
第二章 語音辨識系統開發流程 10
2.1 端點偵測(WORD DETECTION) 10
2.2 特徵萃取(FEATURE EXTRACTION) 11
2.2.1 梅爾倒頻係數 12
2.2.1.1 預強調(Pre-Emphasis) 12
2.2.1.2 加框(Flame Blocking, Windowing) 13
2.2.1.3 快速傅立葉轉換(Fast Fourier Transform,FFT) 14
2.2.1.4 三角帶通濾波器(Triangular Bandpass Filters) 15
2.2.1.5 離散餘弦轉換(Discrete Cosine Transform,DCT) 16
2.2.1.6 對數能量(Log Energy) 16
2.3 語音辨識(WORD RECOGNITION) 16
2.3.1 動態時軸校正 16
2.3.2 隱藏式馬可夫模型 18
2.3.2.1 隱藏式馬可夫模型的基本理論 18
2.3.2.2 離散式隱藏馬可夫模型的參數 20
2.3.2.3 離散式隱藏馬可夫模型的範例說明 20
2.3.2.4 離散式隱藏馬可夫模型的測試說明 21
2.3.3 實作參數選擇 22
2.3.3.1 特徵陣列參數選擇 22
2.3.3.2 離散隱藏式馬可夫模型參數選擇 22
第三章 CP字彙尋找 24
3.1 相關名詞釋義 24
3.2 中文的母音 25
3.3 動態時軸校正的實作 26
3.4 隱藏式馬可夫模型的實作 28
3.4.1 強健母音的篩選 31
3.4.2 強健基本音節的組成方式 32
3.4.3 強健基本音節的篩選1 34
3.4.4 強健基本音節的結果分析1 37
3.4.5 強健基本音節的篩選2 39
3.4.6 強健基本音節的結果分析2 39
3.4.7 雙母音的篩選 45
第四章 腦性痲痺患者的語音評估及分析 48
4.1 音高(PITCH)追蹤 48
4.2 發音速率測量 50
4.3 停頓測試 51
4.4 母音三角形(VOWEL TRIANGLE) [3][4] 52
4.5 頻譜分析 54
第五章 辨識系統開發 57
5.1 了解使用者本身以及使用之目的 57
5.2 設定其可用性 57
5.3 分析與設計 57
5.3.1 程式介面需求分析 57
5.3.2 程式內部流程設計 58
5.3.2.1 英文字母模型 59
5.3.2.2 數字符號模型 60
5.3.2.3 注音符號模型暨注音辨識判別模型 62
5.4 製作及測試 65
5.4.1 自動端點偵測及測試 65
5.4.2 訓練樣本數目對辨識率的影響 72
5.4.3 語音判斷流程 75
5.4.4 辨識系統介面製作 77
5.4.4.1 面板製作 77
5.4.4.2 工具程式Transfer 78
5.4.4.3 輔具 79
5.4 評估與實測結果 80
5.5.1 評估使用的情況 80
5.5.2 實測結果 81
5.5.3 語音模型對麥克風的的適用性 83
5.5.3 鍵盤輸入和語音輸入的時間測試 85
第六章 結論與未來方向 87
6.1 結論 87
6.2 未來的方向 87
參考文獻 88
附錄 程式流程解說 89

圖目錄
圖1.1 麥克風使用支架固定 7
圖1.2 測試環境:無人安靜的小型空房間 8
圖1.3 測試環境:略具噪音的辦公室 9

圖2.1 離散語音辨識統概念圖 10
圖2.2 倒頻譜圖形(上)及局部放大圖(下) 11
圖2.3 梅爾和頻率的函數圖形 12
圖2.4 原始語音波形(上)及經過預強調(下)的波形 [3] 13
圖2.5 漢明窗的函數圖形 [3] 14
圖2.6 一個訊框內的原始波形(左)及乘上漢明窗的函數圖形(右) [3] 14
圖2.7 三角帶通濾波器 [3] 15
圖2.8 動態時軸校正流程圖 17
圖2.9 計算兩個特徵陣列(TEST:: 257×431/REFERENCE: 257×350)的相似陣列,其大小為431×350 17
圖2.10 將以紅線標示出最佳路徑,其限制為:只能往右、往下及往斜下 18
圖2.11 隱藏式馬可夫語音模型的製作流程圖 18
圖2.12 由左至右的離散隱藏式馬可夫模型狀態轉移圖 19
圖2.13 簡化後的離散隱藏式馬可夫模型狀態轉移圖 19
圖2.14 離散隱藏式馬可夫模型範例 [7] 21
圖2.15 LOCAL CONSTRAINT的示意圖 [7] 21
圖2.16 樣本的參數變化對辨識率的影響 22
圖2.17 離散隱藏式馬可夫模型的參數變化對辨識率的影響 23

圖3.1 中文注音符號和國際音標符號的對照表 [3] 25
圖3.2 受測者A使用動態時軸校正進行母音辨識的結果 27
圖3.3 受測者A使用動態時軸校正進行數字辨識的結果 27
圖3.4 受測者B使用動態時軸校正進行母音辨識的結果 27
圖3.5 受測者B使用動態時軸校正進行數字辨識的結果 28
圖3.6 使用離散隱藏式馬可夫模型,受測者B對中文數字的辨識結果 29
圖3.7 受測者A的中文數字辨識結果 30
圖3.8 受測者A的母音辨識結果 30
圖3.9 摩斯智慧鍵盤 31
圖3.10 針對ㄧ和ㄩ做個別的辨識測試,檢查何者較強健 32
圖3.11 受測者A母音篩選後的結果 32
圖3.12 受測者A母音ㄚ(A)的尋找結果 34
圖3.13 受測者A母音ㄚ(A)的篩選結果 34
圖3.14 受測者A母音一(I)的尋找結果 35
圖3.15 受測者A母音一(I)的篩選結果 35
圖3.16 受測者A母音ㄨ(U)的尋找結果 36
圖3.17 受測者A母音ㄨ(U)的篩選結果 36
圖3.18 受測者A母音ㄛ(O)的尋找結果 37
圖3.19 受測者A母音ㄛ(O)的篩選結果 37
圖3.20 受測者A的21種基本音節的辨識率測試 39
圖3.21 受測者A所有音的辨識率都有50%以上辨識率的篩選結果 40
圖3.22 受測者A所有音的辨識率都有60%以上辨識率的篩選結果 40
圖3.23 受測者A所有音的辨識率都有70%以上辨識率的篩選結果 41
圖3.24 受測者A所有音的辨識率都有80%以上辨識率的篩選結果 41
圖3.25 受測者A新語音樣本的辨識結果 42
圖3.26 受測者A採用新的語音樣本,對七種音的辨識結果 43
圖3.27 受測者A採用舊的語音樣本,對七種字彙的辨識結果 43
圖3.28 受測者A混合新舊語音樣本,對七種音的辨識結果 44
圖3.29 消除I的辨識結果(左)和消除MA的辨識結果(右) 44
圖3.30 受測者A使用A、U、YA、MA、KI、GU實測的結果 (左) 以及使用A、U、YA、I、KI、GU實測的結果(右) 45
圖3.31 雙母音的辨識結果 46
圖3.32 雙母音篩選的結果 46
圖3.33 11種字彙的辨識結果 47

圖3.1 中文注音符號和國際音標符號的對照表 [3] 25
圖3.2 受測者A使用動態時軸校正進行母音辨識的結果 27
圖3.3 受測者A使用動態時軸校正進行數字辨識的結果 27
圖3.4 受測者B使用動態時軸校正進行母音辨識的結果 27
圖3.5 受測者B使用動態時軸校正進行數字辨識的結果 28
圖3.6 使用離散隱藏式馬可夫模型,受測者B對中文數字的辨識結果 29
圖3.7 受測者A的中文數字辨識結果 30
圖3.8 受測者A的母音辨識結果 30
圖3.9 摩斯智慧鍵盤 31
圖3.10 針對ㄧ和ㄩ做個別的辨識測試,檢查何者較強健 32
圖3.11 受測者A母音篩選後的結果 32
圖3.12 受測者A母音ㄚ(A)的尋找結果 34
圖3.13 受測者A母音ㄚ(A)的篩選結果 34
圖3.14 受測者A母音一(I)的尋找結果 35
圖3.15 受測者A母音一(I)的篩選結果 35
圖3.16 受測者A母音ㄨ(U)的尋找結果 36
圖3.17 受測者A母音ㄨ(U)的篩選結果 36
圖3.18 受測者A母音ㄛ(O)的尋找結果 37
圖3.19 受測者A母音ㄛ(O)的篩選結果 37
圖3.20 受測者A的21種基本音節的辨識率測試 39
圖3.21 受測者A所有音的辨識率都有50%以上辨識率的篩選結果 40
圖3.22 受測者A所有音的辨識率都有60%以上辨識率的篩選結果 40
圖3.23 受測者A所有音的辨識率都有70%以上辨識率的篩選結果 41
圖3.24 受測者A所有音的辨識率都有80%以上辨識率的篩選結果 41
圖3.25 受測者A新語音樣本的辨識結果 42
圖3.26 受測者A採用新的語音樣本,對七種音的辨識結果 43
圖3.27 受測者A採用舊的語音樣本,對七種字彙的辨識結果 43
圖3.28 受測者A混合新舊語音樣本,對七種音的辨識結果 44
圖3.29 消除I的辨識結果(左)和消除MA的辨識結果(右) 44
圖3.30 受測者A使用A、U、YA、MA、KI、GU實測的結果 (左) 以及使用A、U、YA、I、KI、GU實測的結果(右) 45
圖3.31 雙母音的辨識結果 46
圖3.32 雙母音篩選的結果 46
圖3.33 11種字彙的辨識結果 47

圖4.1 ADMF法的示意圖 48
圖4.2 各種腦性痲痺患者的平均音高、最常出現數和變異數圖形 [10] 49
圖4.3 受測者A的各字彙其對應平均音高(藍條)、最常出現數(紅條)和標準差(粉紅線);M代表整體的結果 49
圖4.4 受測者B的各字彙其對應平均音高(藍條)、最常出現數(紅條)和標準差(粉紅線) ;M代表整體的結果 50
圖4.5 發音速率測量結果 51
圖4.6 停頓測試的實驗結果 51
圖4.7 一般人和受測者A其母音的共振峰位置 52
圖4.8 受測者A的母音三角形;我們將剛剛找出的強健母音以紅圈標出來 53
圖4.9 一般人的母音三角形 [3] 53
圖4.10 受測者A的舌位倒梯型圖 54
圖4.11 一般人受測者的舌位倒梯型圖 [3] 54
圖4.12 受測者B的字彙YA的頻譜圖 55
圖4.13 受測者A的字彙YA的頻譜圖 55
圖4.14 受測者B的字彙U的頻譜圖 56
圖4.15 受測者A的字彙U的頻譜圖 56

圖5.1 結合語音辨識及摩斯鍵盤概念的流程圖 58
圖5.2 英文字母模型 59
圖5.3 英文字母暨注音符號編碼表 59
圖5.4 數字符號模型 60
圖5.5 數字符號編碼表1 61
圖5.6 數字符號編碼表2 61
圖5.7 注音符號模型 62
圖5.8 注音辨識判別模型 63
圖5.9 語音和摩斯碼的對應表 65
圖5.10 一般人的數字0之波形,及兩種ZCR曲線 66
圖5.11 一句話的波形、強度及過零率 [7] 67
圖5.12 中文數字7,平移前和平移後的過零率圖形及放大的波形圖 68
圖5.13 受測者的發音A之波形、強度及平移後的過零率曲線 69
圖5.14 自動端點偵測的流程圖 70
圖5.15 受測者B的數字七,及局部放大圖 70
圖5.16 一般人的數字七,先根據強度切出端點,再根據過零率對首音補償 71
圖5.17 受測者A分別使用手動切割端點和自動切割端點,對兩批語音資料做辨識的結果 72
圖5.18 受測者發音GO的波形,前面帶有一段雜音 72
圖5.19 以1辨識2的結果 73
圖5.20 以1、2辨識3的結果 73
圖5.21 以1、2、3辨識4的結果 74
圖5.22 以1、2、3、4辨識5的結果 74
圖5.23 以1、2、3、4、5辨識6的結果 75
圖5.24 系統的訊號擷取範例圖 76
圖5.25 語音判別流程 76
圖5.26 辨識系統外觀面板 78
圖5.27 TRANSFER轉換英文字母(左)以及數字符號(右)的結果 78
圖5.28 四鍵搖桿 79
圖5.29 觸動式液晶螢幕 79
圖5.30 裝設後的完成圖 80
圖5.31 桌上型電腦的實測結果(左)和筆記型電腦的實測結果(右) 82
圖5.32 疲勞狀況下,桌上型電腦的實測結果(左)和筆記型電腦的結果(右) 83
圖5.33 使用麥克風模型對耳麥測試樣本進行辨識的結果 84
圖5.34 使用耳麥模型對耳麥測試樣本進行辨識的結果 85
圖5.35 兩種六鍵鍵盤的速度測試 86
圖5.36 語音輸入時間結果 86

附錄圖1 GUI的前置工作流程圖 89
附錄圖2 初始化流程 89
附錄圖3 語音樣本訓練的流程圖 90
附錄圖4 語音辨識功能 91
附錄圖5 普通語音辨識 91
附錄圖6 其他辨識功能流程圖 92
附錄圖7 其他功能選擇 92
[1]J. R. Deller, J. R. Hsu, and L. J. Ferrier, “Encouraging Results in the Automated Recognition of Cerebral Palsy Speech,” IEEE Trans. Biomedical Engineering, 1988.
[2]F. Chen and A. Kostov, “Optimization of Dysarthric Speech Recognition,” IEEE Int’l Conf. Engineering in Medicine and Biology Society, 1997.
[3]王小川, “語音訊號處理,” Feb. 2005.
[4]王理嘉, and 林燾, “語音學教程,” Nov. 1995.
[5]J. R. Deller, J. R. John G. Proakis, and John H. L. Hansen “Discrete-Time Processing of Speech Signals,” 1993.
[6]C. Lee, D. Hyun, E. Choi, J. Go, and C. Lee, “Optimizing Feature Extraction for Speech Recognition,” IEEE Trans. on Speech and Audio Processing, Vol. 11, NO. 1, January 2003.
[7]張智星, “線上教材,音訊處理與辨識 (Audio Signal Processing and Recognition),”2007.
[8]L. J. Ferrier, H. C. Shane, H. F. Ballard, T. Carpenter, and A. Benoit “Dysarthric Speakers' Intelligibility and Speech Characteristics in Relation to Computer Speech Recognition,” Augmentative & Alternative Communication, Friday, July 09, 2004.
[9]鄭靜宜, “腦性麻痺說話者的國語聲調基本頻率(F0)型態與特性,” 國立臺南師範學院特殊教育學系特殊教育與復健學報, 2003.
[10]T. Magnuson, and M. Blomberg, “Acoustic Analysis of Dysarthric Speech and Some Implications for Automatic Speech Recognition,” KTH Computer Science and Communication, 2000.
[11]D. Ellis, “Dynamic Time Warp (DTW) in Matlab,” 2005
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top