臺灣博碩士論文加值系統

English |FB 專頁 |Mobile

免費會員登入| 註冊

功能切換導覽列

(216.73.216.50) 您好！臺灣時間：2026/03/15 05:00

字體大小：

:::

詳目顯示

第 1 筆 / 共 1 筆

/1頁

論文基本資料
摘要
外文摘要
目次
參考文獻
電子全文
紙本論文
論文連結
QR Code

本論文永久網址:

研究生:

黃莘揚

研究生(外文):

Sin-Yang Huang

論文名稱:

利用HE預訓練之CNN方法於中文單音之辨識

論文名稱(外文):

Applying the method of He pre-trained CNN on the Mandarin Monosyllable Recognition

指導教授:

李宗寶

口試委員:

邱國欽、郭仁泰

口試日期:

2019-07-02

學位類別:

碩士

校院名稱:

國立中興大學

系所名稱:

統計學研究所

學門:

數學及統計學門

學類:

統計學類

論文種類:

學術論文

論文出版年:

2019

畢業學年度:

107

語文別:

中文

論文頁數:

中文關鍵詞:

類神經網路、卷積神經網路、MFCC、活化函數、初始化、dropout

外文關鍵詞:

Neural network、Convolutional neural network、MFCC、activation function、Initialization、dropout

相關次數:

被引用:0
點閱:213
評分:
下載:8
書目收藏:0

本文利用卷積神經網路(Convolutional neural network, CNN)來對中文單音進行學習及辨識。主要實驗方向為把單音拆成子音與母音，並在同一模型下預測出子、母音類別，最後組合出單音。其中子音總有36個類別，母音則有160的類別，單音組合則有1391個類別。資料特徵求取方法選用梅爾倒頻譜系數(MFCC)，並以此作為模型輸入數值。本論文將實驗不同卷積層層數、特徵圖(feature map)數和全連接層(full connection layer, FC)的層數、神經元個數對辨識結果的影響。同時地，會探討不同的活化函數(activation function)、初始化方法和BN(batch normalization)、dropout技術的有無是否會影響分類結果。實驗結果發現在使用4層卷積層、3層全連接層並且使用何初始化(He initialization)和BN下獲得最高的單音辨識率。子音、母音和單音辨識正確率分別達到: 96.49%、97.40% 和94.49%。

This thesis is mainly to apply convolutional neural network (CNN) in Chinese monophonic. The main experimental direction is to split the single monophonic into the consonant and the vowel, and predict the consonant and vowel categories under the same model, finally combine them to the monophonic. There are 36 categories of consonants, 160 categories of vowels, and 1391 categories of monophonic. The data feature extraction method uses the Mel-Frequency cepstral coefficients (MFCC) and uses this as the model input value. This thesis will experiment with the effects on the identification results of different convolution layer numbers, feature map numbers, full connection layer (FC) numbers, and number of neurons. At the same time, we will discuss whether different activation functions, initialization methods, batch normalization (BN), and dropout techniques will affect the classification results. The experimental results show that the highest monophonic recognition rate is obtained using four CNN layers, three full connection layers, He initialization and BN. The recognition rates of consonant, vowel and monophonic are: 96.49%, 97.40% and 94.49%, respectively.

目錄
摘要 i
Abstract ii
目錄 iii
附圖目錄 v
表目錄 vi
第一章緒論 1
1.1研究動機 1
1.2 研究目的 1
1.3相關研究 2
1.3語音辨識介紹 2
1.3.1何謂語音辨識 2
1.3.2語音特性 3
1.3.3語音辨識的應用 3
第二章語音訊號前處理與特徵參數求取 4
2.1語音訊號 4
2.2資料前處理 5
2.2.1 數位取樣 5
2.2.2 常態化 5
2.2.3 端點偵測 5
2.2.4 切割音框與視窗化 5
2.2.5 預強調 6
2.3特徵參數的求取 6
第三章研究方法 7
3.1 介紹 7
3.2 感知器 7
3.2.1 活化函數 8
3.2.2 多層感知器 10
3.3 初始化方法 11
3.4 Batch normalization 12
3.5 卷積神經網路 12
3.6 池化層 13
3.7 卷積層結構 14
第四章實驗與結果 15
4.1 實作軟體 15
4.2 資料來源 15
4.3 主要模型設計 15
4.4 超參數最佳化 16
4.5 實驗結果 17
4.5.1 深度測試 17
4.5.2 寬度測試 18
4.5.3 活化函數測試 19
4.5.4 初始化方法 19
4.5.5 最終模型 20
第五章結論 23
5.1總結 23
5.2改善與建議 24
參考文獻 24
附錄 26

參考文獻

[1] A. Ahad, A. Fayyaz and T. Mehmood, “Speech recognition using multilayer perceptron,” IEEE, pp. 103-109, 2002.
[2] A. Graves, A.-r. Mohamed and G. Hinton, “Speech recognition with deep recurrent neural network,” IEEE International Conference on Acoustics, Speech and Signal Processing, 2013.
[3] Y. Qian, M. Bi, T. Tan and K. Yu, “Very Deep Convolutional Neural Networks for Noise Robust Speech Recognition,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, 12 2016.
[4] 鄒振宏且李宗寶, “利用CNN類神經法於中文單音之辨識,” 國立中興大學統計學研究所, 2018.
[5] Kaiming He, Xiangyu Zhang, Xiangyu Zhang, Jian Sun, “Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification,” 2015.
[6] Sergey Ioffe, Christian Szegedy, “Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift,” 2015.
[7] 蘇木春且張孝德, 機器學習：類神經網路、模糊系統以及基因演算法則。修訂二版, 全華, 2003.
[8] 蘇奕銘且李宗寶, 應用MLP、RBF及DNN類神經網路方法於中文母音辨識。碩士論文, 台中: 國立中興大學統計學研究所, 2016.
[9] D.-A. Clevert, T. Unterthiner and S. Hochreiter, “Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs),” 2015.

電子全文

國圖紙本論文

連結至畢業學校之論文網頁點我開啟連結
註: 此連結為研究生畢業學校所提供，不一定有電子全文可供下載，若連結有誤，請點選上方之〝勘誤回報〞功能，我們會盡快修正，謝謝！

推文
網路書籤
推薦
評分
引用網址
轉寄

top

相關論文
相關期刊
熱門點閱論文

1.	應用MLP、RBF及DNN類神經網路方法於中文母音辨識
2.	以資料探勘技術降低學生流失之研究-以某技術學院附設進修院校為例
3.	基於深度學習之音樂片段人聲辨識
4.	卷積神經網路應用於中文字手寫風格辨識
5.	使用多模型合併之深度學習應用於音樂片段人聲辨識
6.	以人工智慧之深度學習方法為基礎之香蕉黃葉病辨識
7.	使用混合卷積神經網路於影片分類之研究
8.	以深度學習方式預測MIDI音符之力度
9.	使用額外處理步驟以提升卷積神經網路之人聲辨識準確率
10.	以深度學習的卷積神經網路研製蠟染影像分類之研究
11.	基於生成對抗神經網路與自動光學檢測之藥錠瑕疵檢測
12.	基於網路流量架構之異常偵測機制
13.	使用部分卷積運算實現 SRCNN 的完整像素
14.	基於CNN之扭曲標籤條碼數字辨識技術
15.	以加強式學習實現晶圓測試之路徑規劃

無相關期刊

1.	探討DNN、CNN和CapsNet於高混合度之中文母音辨識
2.	最近鄰居法與卷積神經網路池化對中文母音辨識之探討
3.	探討類神經RNN與LSTM方法於小資料中文單音之辨識
4.	應用廣泛加權移動平均法預測外匯價格
5.	利用出現與否地圖資料估計豐富度之局部概似估計法的模擬研究
6.	藉由群聚智能演算法建構最佳化貝氏D準則下超飽和混和型裂區實驗設計
7.	馬可夫機率模型下物種數估計之模擬研究
8.	應用廣泛加權移動平均法衡量交叉貨幣之動態避險比率
9.	應用技術分析提升GARCH模型預測準確率-以SSPA檢定控制資料探勘偏誤
10.	以掃描統計為指標探討台灣禽流感爆發禽場空間聚集隨時間之變化
11.	從服務品質角度探勘飯店業線上消費者評論內容
12.	藉由MD準則建構超飽和裂區後續實驗設計
13.	馬可夫機率模型下樣本覆蓋率及熵指標估計之模擬研究
14.	台灣禽流感爆發與公民科學家鳥類觀測資料之關聯性分析
15.	參與社群動機對FB粉絲團按讚與實際行為的影響

簡易查詢 | 進階查詢 | 熱門排行 | 我的研究室