跳到主要內容

臺灣博碩士論文加值系統

(44.192.92.49) 您好!臺灣時間:2023/06/10 13:20
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:王惟正
研究生(外文):Wei-Zheng Wang
論文名稱:國語語音訊號中發音偏誤類型之自動偵測
論文名稱(外文):Automatic Detection of Pronunciation Error Patterns from Speech Signals in Mandarin Chinese
指導教授:李琳山李琳山引用關係
學位類別:碩士
校院名稱:國立臺灣大學
系所名稱:資訊工程學研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2008
畢業學年度:96
語文別:中文
論文頁數:60
中文關鍵詞:語音訊號發音偏誤決策樹半督導式學習法
外文關鍵詞:speech signalpronunciation error patterndecision treesemi-supervised learning
相關次數:
  • 被引用被引用:2
  • 點閱點閱:288
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
由語音訊號中自動判斷發音正確性是一件相當不容易的事。本論文著力於如何利用電腦,自動分析國語語音訊號,偵測其中發音是否有所偏誤,及可能的偏誤類型。
本論文先定義出一組新的語音訊號特徵,並從語音訊號中抽取此特徵。用該特徵訓練分類器,以取代常被使用的聲音特徵組,亦即梅爾刻度倒頻譜係數。之後再使用分類與回歸決策樹做為分類器,可以依據此特徵組的各個參數,評估學習者的發音正確性。我們期望此種架構近似於一般專業人士評估發音正確性的思維。
偵測發音偏誤類型的最大困難之一,即是由專業人士標記的偏誤資料不易取得。針對此種標記資料稀少,未標記資料眾多的狀況,本論文引進機器學習領域中的半督導式學習法。此法除了使用標記資料的知識外,大量未標記資料的分佈狀況也將併入此學習法的分類考量。本論文嘗試利用此法擷取高可信度的偏誤音框,增加決策樹的訓練資料量。
第1章 導論 1
1.1. 研究動機 1
1.2. 研究主題相關背景 2
1.2.1. 以自動語音辨識為基準之發音評量 2
1.2.2. 高差異性聲學語音特徵訓練之分類器 3
1.3. 本論文之研究方法與主要結果 4
1.3.1. 本論文策略簡述 4
1.3.2. 主要實驗結果 6
1.4. 章節大要 6
第2章 背景知識 9
2.1. 多層感知器(Multilayer Perceptron) 9
2.2. 分類與回歸決策樹(Classification and Regression Tree) 12
2.3. 半督導式學習法(Semi-Supervised Learning) 15
2.4. 本章結論 18
第3章 偏誤音偵測 19
3.1. 實驗資料與架構 19
3.2. 音框正確率 22
3.3. 全音偵測之做法及效果 24
3.3.1. 偏誤音框得票率計算法及實驗 24
3.3.2. 偏誤音對數相似度比率(Log Likelihood Ratio)計算法及實驗 32
3.3.3. 全音偵測方法比較 38
3.3.4. 各音偏誤偵測效果評估方法與分析 41
3.4. 特定發音偏誤偵測 45
3.5. 本章結論 47
第4章 半督導式偏誤發音特徵音框擷取 49
4.1. 觀念與方法敘述 49
4.2. 實驗結果 50
4.2.1. 偏誤音框擷取結果 51
4.2.2. 強化決策樹偵測結果 53
4.3. 本章結論 54
第5章 結論與未來展望 57
5.1. 結論 57
5.2. 未來展望 57
【1】Witt, S.M., Use of speech recognition in Computer-assisted Language Learning, PhD thesis, Department of Engineering, University of Cambridge, 1999.
【2】Khiet Truong et al. “Automatic detection of frequent pronunciation errors made by L2-learners,” INTERSPEECH 2005.
【3】Kim, Y., Franco, H. and Neumeyer, L. “Automatic pronunciation scoring of specific phone segments for language instruction,” Proc. Eurospeech, Rhodes, Greece, 645-648, 1997.
【4】Weigelt, L.F., Sadoff, S.J. and Miller, J.D., “The plosive/fricative distinction: The voiceless case,” Journal of the Acoustical Society of America 87, 2729-2737, 1990.
【5】Xiaojin Zhu, “Semi-Supervised Learning with Graphs,” Ph.D. thesis, Carnegie Mellon University, 2005.
【6】Simon Haykin, “Neural Networks. A Comprehensive Foundation,” McMatster University.
【7】Breiman L., Friedman J. H., Olshen R. A., Stone, C.J. “Classification and Regression Trees,” Wadsworth. 1984.
【8】A. Blum and S. Chawla, “Learning from labeled and unlabeled data using graph mincuts.,” Proc. 18th International Conf. on Machine Learning, pp. 19-26, 2001.
【9】X. Zhu and Z. Ghahramani, “Learning from labeled and unlabeled data with label propagation,” Tech. Rep., CMU-CALD-02, 2002.
【10】Charles Elkan, “Naïve Bayesian Learning,” Department of Computer Science, Harvard University.
【11】Andrei Alexandrescu and Katrin Kirchhoff, “Graph-Based Learning For Phonetic Classification,” CS, EE, WA, ASRU 2007.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top