跳到主要內容

臺灣博碩士論文加值系統

(18.97.9.169) 您好!臺灣時間:2025/01/19 00:43
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:黃昭仁
研究生(外文):Chao-Jen Huang
論文名稱:基於整數運算處理器之WindowsCE.NET語音辨識引擎實作
論文名稱(外文):An Implementation of Speech Recognition Engine on Windows CE.NET based on a Fixed-Point Processor
指導教授:呂仁園呂仁園引用關係
指導教授(外文):Ren-Yuan Lyu
學位類別:碩士
校院名稱:長庚大學
系所名稱:資訊工程研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2007
畢業學年度:95
語文別:中文
論文頁數:137
中文關鍵詞:個人電腦整數處理器效能比語音辨識引擎
外文關鍵詞:computerFixed-Point Processorspeech recognitionWindows CE .NETForSR-E SDK
相關次數:
  • 被引用被引用:0
  • 點閱點閱:271
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
本論文介紹一個基於整數運算處理器之Windows CE.NET語音辨識引擎實作。進行語音辨識時需要使用大量的浮點數學運算, Windows CE .NET或其他種類的嵌入式系統,硬體的運算效能比一般個人電腦都要來得差,更甚至有的嵌入式系統還沒有專門用來處理浮點數學運算的浮點運算硬體晶片,本論文中所提出的辨識引擎實作方法,將原本需要浮點數學運算的語音辨識過程,改以使用整數數學運算方式,搭配適當的搜尋網路加速策略,使得Windows CE .NET需要進行語音辨識過程所花費的時間大大縮短。
我們透過軟體工程技術將論文中提出的方法發展出一套語音辨識軟體開發套件(ForSR-E SDK),透過此套件我們還開發了一套語音辨識軟體系統。本論文最大的貢獻在於發展出一套於Windows CE .NET上的語音辨識引擎,並且使用整數運算方式搭配可動態調整的加速策略來進行語音辨識。
This thesis describes an implementation of speech recognition engine on Windows CE .NET based on a Fixed-Point Processor. Because the speech recognition needs a lot of Float-Point computation, the performance of Windows CE .NET or other embedded systems is weaker than Personal Computer. Moreover, some embedded systems did not even have the Float Processing Unit (FPU). Therefore, we proposed an approach with Fixed-Point computation for speech recognition instead of Float-Point computation. In addition, we also use some workable pruning strategies to reduce a lot of computation time of speech recognition.
Finally, we developed a ForSR-E SDK with software engineering, and use the components of SDK to build a speech recognition system. The main contribution of this thesis is to develop speech recognition engine based on Windows CE .NET, and use some adjustable pruning strategies to reduce the computation time during recognition procedure.
第一章 緒論 1
1.1 研究動機 1
1.2 問題描述 3
1.3 研究方法 3
1.4 章節說明 6
第二章 語音辨識基本理論 7
2.1 聲音訊號處理技術 7
2.1.1 聲音訊號類比轉數位過程 10
2.1.2 聲音訊號控制實作步驟 12
2.2 聲音特徵參數擷取 14
2.2.1 短時距語音信號處理 14
2.2.2 梅爾刻度倒頻譜係數 15
2.3 聲學模型之建立與理論 22
2.3.1 隱藏式馬可夫模型 22
2.4 維特比搜尋演算法 24
2.4.1 辨識搜尋基本問題 24
2.4.2 維特比搜尋演算法定義 25
第三章 建立語音辨識引擎原型 28
3.1 認識嵌入式硬體平台 28
3.1.1嵌入式系統簡介 28
3.1.2 Windows CE .NET 29
3.1.3 系統開發工具 31
3.1.4 語音辨識引擎開發流程 33
3.2 系統參數架構設定 34
3.2.1 聲學模型架構設定 34
3.2.2 測試語料架構設定 34
3.2.3 搜尋網路架構設定 35
3.2.4 發音辭典標音檔案設計 35
3.2.5 實驗使用硬體平台 36
3.3 整數、浮點運算效率比較 37
3.3.1 實驗結論 40
3.4 嵌入式系統語音辨識引擎之建立 41
3.4.1 福爾摩莎語音辨識軟體開發套件 42
3.4.2 福爾摩莎嵌入式系統語音辨識軟體開發套件 44
第四章 深入淺出語音辨識核心 45
4.1 浮點運算語音辨識之加速 45
4.1.1 建立基本參考點之實驗 46
4.1.2 高斯混合機率求取加速 47
4.1.3 實驗結論 51
4.2 整數運算語音辨識之加速 52
4.2.1 簡化高斯混合機率數學式 52
4.2.2 倍率放大高斯混合機率整數運算式 54
4.2.3 整數運算語音辨識實驗 55
4.4.4 實驗結論 57
4.5 搜尋網路與放大倍率加速策略 58
4.5.2 十倍放大加速策略實驗 59
4.5.3 多倍率放大加速策略實驗 62
4.5.4 實驗結論 65
第五章 系統實作 67
5.1 系統架構 67
5.1.1 語音辨識引擎類別圖表 67
5.2 動態聯結程式庫 70
5.2.1動態連結程式庫簡介 70
5.2.2 呼叫使用方式 72
5.2.3 系統介面 73
第六章 結論與未來展望 76
附錄 參考文獻 78
附錄 語音辨識引擎說明文件 80
1. 簡介 81
2. 類別架構圖 82
3. 程式庫函數說明 89
Waveform Control 89
CWavePCM 89
Feature Extraction 94
CMel 94
Feature Storage 98
CVectorInt 98
CMatrixInt 100
CFeabufInt 103
Knowledge Source 106
CMMF 106
CDic 110
CNet 111
Recognition Core 114
CRecInt 115
4. 使用範例 120
[1]L.R. Rabiner and B.H. Juang, Fundamentals of Speech Recognition, Prentice Hall,1993.
[2]王閩鴻 呂仁園, The Implementation and Application of a Speaker Independent, Large Vocabulary, Mandarin/Taiwanese Bilingual Recognition Engine, CGU 2003
[3]Steve Young, Gunnar Evermann, Thomas Hain, Dan Kershaw, Gareth Moore, Julian Odell, Dave Ollason, Dan Povey, Valtcho Valtchev and Phil Woodland, The HTK Book (for HTK Version 3.2.1), Cambridge University Engineering Department, Dec. 2002
[4]呂道誠,“不特定語者、國台雙語大詞彙語音辨識之聲學模型研究”,長庚大學碩士論文, 民國90年
[5]謝鴻文 呂仁園, Several Algorithms of Syllable Segmentation on Continuous Speech, CGU 2005
[6]王小川, “語音訊號處理”, 全華科技圖書 民國93年
[7]Yukikuni NISHIDA, Yoshio NAKADAI, Yoshitake SUZUKI and Tetsuma SAKUARI, VOICE RECOGNITION FOCUSING ON VOWEL STRINGS ON A FIXED-POINT 20-MIPS DSP BOARD, NTT Human Lab, NTT Advanced Tech. Corp. Japan
[8]Chin-Lung Hart Su and Jyh-Shing Roger Jang, Speech Recognition on 32-bit Fixed-point Processors:Implementation & Discussions, NTHU 2005
[9]Yi-Hung Chen and Jyh-Shing Roger Jang Improvement and Discussion of MFCC Algorithm on 32-bit Fixed-point Processors, NTHU 2006
[10]Ming-Chun Wu and Jyh-Shing Roger Jang , Syllable-Based Speaker Identification, NTHU 2006
[11]Pascale FUNG, LIU Yi, YANG Youngsheng Yihai SHEN and Dekai Wu, A Grammar-Based Chinese to English Speech Translation System for Portable Devices, University of Science & Technology (HKUST), Clear Water Bay, Hong Kong
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top