(3.237.20.246) 您好!臺灣時間:2021/04/16 07:16
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

我願授權國圖
: 
twitterline
研究生:向彥齊
研究生(外文):Siang Yan-Ci
論文名稱:以雲端為基礎的自動語音辨識在行動裝置的成效評估
論文名稱(外文):An Evaluation of Mobile Speech Recognition based on Cloud Computing
指導教授:許榮隆許榮隆引用關係
指導教授(外文):Jung-Lung Hsu
口試委員:王彥文劉鎮豪
口試委員(外文):Yen-Wen WangChen-Hao Liu
口試日期:2013-05-15
學位類別:碩士
校院名稱:開南大學
系所名稱:資訊管理學系
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2013
畢業學年度:101
語文別:中文
論文頁數:72
中文關鍵詞:語音辨識自動會議紀錄雲端運算
外文關鍵詞:speech recognitionautomatic meeting recordcloud computing
相關次數:
  • 被引用被引用:0
  • 點閱點閱:194
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
由於產業環境變革,功能性的專案編組日益頻繁,連帶地也使得小型會議的需求日增。會議的進行固然有助於協調、溝通,但是其前提均建立在有一良好的會議紀錄。因此快速且有效率地記錄會議內容實為一重要課題。本研究的目的為試圖就自動化會議紀錄的需求,配合行動裝置的應用,提出具體可行的架構,以期能夠協助使用者達到隨時存取的目的。本研究使用PocketSphinx的API開發自動化會議紀錄的語音辨識模組,並將系統實作在Android平台上。此外,後端的部分,本研究藉由Google App Engine的雲端開發環境建構網路資庫。使用者使用該系統所辨識的結果,將回傳至雲端資料庫中。透過實驗測試,整體辨識率尚可,對專有名詞的辨識率有待改善,另外本研究亦邀請受試者使用系統,並在使用完成後,要求受試者填答使用觀感的問卷,以此評估該系統可行性。研究結果顯示多數受試者普遍認為辨識率尚可接受,並認為其使用上有良好的便利性,惟普遍亦認為系統的辨識速度較慢,缺乏完整系統功能,經實驗證實,本研究所提出之架構具可行性,但就辨識率、系統完善上仍有改善空間。本研究建議未來可深入研究如何針對說話者的身分進行辨識,以及自動摘要整個會議的內容。
Since industry environment has been changed, functional project grouping has become more and more frequently. This phenomenon also causes that demand of small meeting increasingly grow. Meeting could help coordination and communication, but this only happen dependent on great meeting record. therefore, how to record meeting content rapidly and efficiently is a important issue. This research goal attempt to propose a feasible framework which meets the needs of recording of meeting content automatically with mobile devices in order to help users to achieve the purpose of access at any time. This research use Pocketsphinx API to develop Speech Recognition module of recording of meeting content automatically and implementing the system on the Android platform. In addition, we establish network database with Google App Engine,a cloud development environment. The recognition result which user use system to create will be uploaded to cloud database. The experimental results show that overall recognition rate is acceptable, but recognition rate of proper nouns needs improvement. Furthermore, this research also invite participants to test the system. After testing the system, we require participants to complete perception of questionnaires in order to evaluate the feasibility of the system. The results show that most participants generally considered recognition rate is acceptable and convenience in use is good but recognition speed is relatively slow. Suggestions for future research is speaker identity recognition and automatic meeting content summarization.
目 錄

第一章 緒論 1

第一節 研究背景 1
第二節 研究動機 2
第三節 研究目的 4
第四節 研究架構 5

第二章 文獻探討 6

第一節 自動化文字記錄 6
第二節 傳統語音辨識 7
第三節 行動裝置語音辨識 24

第三章 研究方法 28

第一節 研究程序 28
第二節 系統架構 29
第三節 實驗環境 39
第四節 資料蒐集方法 42

第四章 研究結果與討論 44

第一節 辨識結果與分析 44
第二節 問卷調查結果與分析 50

第五章 結論 55

參考文獻 57

附錄 60

附錄一 VOA新聞範例 60
附錄二 VOA新聞辨識結果統計表 62
附錄三 實體問卷 70


一、 中文部分
張志豪(2005)。強健性和鑑別力語音特徵擷取技術於大詞彙連續語音辨識之研
究,國立臺灣師範大學資訊工程研究所,台北市。
范育菖(2007)。資訊與設計學系 語音辨識在數位娛樂之應用與研究,亞洲大
學,台中市。
劉鳳萍(2008)。使用鑑別式語言模型於語音辨識結果重新排序,國立臺灣師範
大學資訊工程研究所,台北市。
潘吉安(2007)。強健性語音辨識中能量相關特徵之改良式正規化技術的研究,
國立暨南國際大學電機工程研究所,南投縣。

二、 英文部分
Beth. Logan (2000). "Mel frequency cepstral coefficients for music modeling", Int.Symp. Music Information Retrieval(ISMIR).
David Huggins-Daines, Mohit Kumar, Arthur Chan, Alan W Black, Mosur Ravishankar, Alex I. Rudnicky (2006)."PocketSphinx: a free real-time continuous speech recognition system for hand-held devices.", ICASSP 2006, page 185-188.
DeLone W.H, McLean E. R. (2003). "The DeLone and McLean Model for Information
Systems Success: A Ten-Year Update.", Journal of Management Information
Systems, Vol. 19(No. 4), page 9-30.
G. David Forney JR (1969)."The Viterbi Algorithm", Proceedings of the IEEE
Vol.61(No.3), page 268-278.
Hsin-Min Wang, Berlin Chen, Jen-Wei Kuo, Shih-Sian Cheng (2005)."MATBN: A
Man darin Chinese Broadcast News Corpus", Computational Linguistics and
Chinese Lanugage Processing, Vol.10(No.2), page 219-236.
Kai-Fu Lee, Hsiao-Wuen Hon, Raj Reddy (1990). "An Overview of the SPHINX
Speech Recognition System", IEEE, Vol. 38(No. 1), page 35-45.
Lawrence R. Rabiner (1989). " A Tutorial on Hidden Markov Models and Selected
application in Speech Recognition " Proceedings of the IEEE, vol. 77( No.
2)
Peter F. Brown, Peter V. Desouza, Robert L. Mercer, Vincent J. Della Pietra, Jenifer C. Lai (1992). "Class-Based n-gram Models of Natural Language ", Association for Computational Linguistics, Vol. 18(No. 4), page 467-479.
Rabiner Lawrence, Juang Bing-Hwang (1993). "Fundamentals of Speech Recognition"Prentice Hall, ISBN 0-13-015157-2.
Steven B. Davis, PaMermelstein (1980). "Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences", IEEE, Vol. 28(No. 4), page 357-366.
Sadaoki Furui(1981) "Cepstral Analysis Technique for Automatic Speaker Verifica
tion", IEEE Trans. on Acoustics Speech and Signal Processing, Vol.29(No.2),
page 254-272.
Willie Walker, Paul Lamere, Philip Kwok, Bhiksha Raj, Rita Singh, Evandro Gouvea, Peter Wolf,Joe Woelfel (2004). "Sphinx-4:A flexible Open Source Framework for Speech Recognition", MICROSYSTEMS INC, SMLI TR-2004-139.
Dbagnall (2012). "Basic concepts of speech", CMUSphinx Wiki, from the World Wide Web: http://cmusphinx.sourceforge.net/wiki/tutorialconcepts
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
系統版面圖檔 系統版面圖檔