跳到主要內容

臺灣博碩士論文加值系統

(18.97.14.87) 您好!臺灣時間:2024/12/05 21:59
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:許嘉晉
研究生(外文):Chia-Chin Hsu
論文名稱:聲音訊號的分類
論文名稱(外文):Audio Signal Classification
指導教授:張智星張智星引用關係
指導教授(外文):Jyh-Shing Roger Jang
學位類別:碩士
校院名稱:國立清華大學
系所名稱:資訊工程學系
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2001
畢業學年度:89
語文別:中文
論文頁數:42
中文關鍵詞:聲音訊號分類蛙聲辨識線性識別分析分枝限制高斯混合模型
外文關鍵詞:audio signal classificationbioacoustic identificationlinear discriminant analysisbranch and boundGaussian mixture model
相關次數:
  • 被引用被引用:2
  • 點閱點閱:298
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:4
在本論文中,我們對於聲音訊號的分類做了各種研究嘗試,主要分為人聲辨識和蛙聲辨識兩個部份。在人聲辨識方面,針對的是講話聲、笑聲及歌聲的分類;在蛙聲辨識方面,則試著讓系統能自動辨識出二十一種不同的蛙聲。
選取了最適合的特徵參數後,為節省比對時間,我們使用了一些資料縮減與加速的方法。資料縮減包括減少資料維度和降低資料量兩方面,在減少資料維度方面使用的是線性識別分析(linear discriminant analysis - LDA)法,在降低資料量方面則是使用k-means演算法。而在加速的方法上,使用的是分枝限制(branch and bound)加速法。最後在分類的方法上,分別比較了最近鄰居決定法則(k-nearest neighbor rule — KNN)和高斯混合模型(Gaussian mixture model - GMM)的辨識結果。
研究結果顯示,蛙聲辨識的效果比人聲辨識好上許多,我們也將證明使用線性識別分析和k-means除了可節省比對時間外,也具有能小幅提高辨識效果的影響。最後,我們將提出針對這兩種聲音訊號分類辨識,各用哪些特徵參數及分類方法的組合會得到最佳的分類結果。

In this thesis, we present our research result of classifying audio signals, including voices from humans and frogs. For human voices, we tried to classify speech, laughter, and singing. For frog voices, we tried to identify 21 different kinds of frogs based on their voices.
After extracting features based on MFCC (mel-frequency cepstral coeffocients), we used various statistic pattern recognition methods for data reduction and for speedup in nearest neighbor search. These methods include linear discriminant analysis (LDA) to reduce data dimension, k-means to reduce data size, and branch and bound tree to reduce the computation speed of nearest neighbor search . At last, we compared two methods of classification — k-nearest neighbor rule(KNN)and Gaussian mixture model(GMM).
Our research result shows that the use of LDA and k-means not only reduce the computation time but also improve the recognition rate. We also propose the best way to combine two classification methods in order to achieve the best performance.

摘要……………………………………………………………………………i
誌謝…………………………………………………………………………iii
目錄……………………………………………………………………………iv
圖目錄…………………………………………………………………………vi
表目錄………………………………………………………………………vii
第一章 緒論…………………………………………………………………1
1.1 研究動機…………………………………………………………………1
1.2 基本的聲音識別流程……………………………………………………2
1.3 相關的研究………………………………………………………………3
1.4 研究方向及聲音資料庫…………………………………………………4
1.5 章節概要…………………………………………………………………5
第二章 聲音特徵參數的擷取………………………………………………6
2.1 前言………………………………………………………………………6
2.2 梅爾刻度式倒頻譜參數…………………………………………………6
2.3 明亮度……………………………………………………………………9
2.4 過零率……………………………………………………………………9
第三章 資料縮減及加速……………………………………………………11
3.1 前言……………………………………………………………………11
3.2 線性識別分析…………………………………………………………11
3.3 K-means 分群法………………………………………………………13
3.4 分枝限制加速法………………………………………………………13
第四章 分類法………………………………………………………………17
4.1 前言……………………………………………………………………17
4.2 最近鄰居決定法則……………………………………………………17
4.3 高斯混合模型…………………………………………………………18
4.3.1 模型描述……………………………………………………………18
4.3.2 參數預估……………………………………………………………19
4.4 訂正策略………………………………………………………………24
第五章 聲音辨識實驗………………………………………………………25
5.1 人聲辨識實驗…………………………………………………………25
5.1.1 前言…………………………………………………………………25
5.1.2 使用最近鄰居決定法則的辨識率…………………………………25
5.1.3 使用高斯混合模型的辨識率………………………………………28
5.1.4 不同資料維度及資料量的比較……………………………………29
5.1.5 考慮能量的特徵……………………………………………………31
5.2 蛙聲辨識實驗…………………………………………………………32
5.2.1 前言…………………………………………………………………32
5.2.2 使用最近鄰居決定法則的辨識率…………………………………33
5.2.3 使用高斯混合模型的辨識率………………………………………34
5.2.4 不同資料維度及資料量的比較……………………………………35
5.2.5 考慮能量的特徵……………………………………………………36
5.2.6 蛙聲混合樣本辨識…………………………………………………37
第六章 結論與展望…………………………………………………………39
參考文獻………………………………………………………………………41

[1]B. H. Juang , L. Rabiner. "Fundamentals of Speech Recognition." Prentice Hall, New Jersey, 1993
[2]B. H. Juang and L. Rabiner. "Fundamental of speech recognition." Prentice Hall, New Jersey, 1993
[3]D. H. Foley, J. W. Sammon. "An optimal set of discriminat vectors." IEEE Trans. On Computer, vol. 24, 1975, pp. 281-289.
[4]D. Keislar et al. "Audio Databases with Content-Based Retrieval." Proc. Int'l Computer Music Conference 1995, International Computer Music Association, San Francisco, pp. 199-202.,1995.
[5]D. O'Shaughnessy. "Speaker recognition." IEEE ASSP Magazine, pp. 4-17, October 1986.
[6]Douglas A. Reynolds and Richard C. Rose. "Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models." IEEE Trans. Speech, Audio Proc. , vol. 3, no. 1, January 1995.
[7]Erling Wold , Thom Blum , Douglas Keislar , and James Wheaton. " Content-Based Classification, Search, and Retrieval of Audio." IEEE Multimedia, Vol. 3, No. 3, pp 27-36, Fall 1996.
[8]G. Velius. "Variants of cepstrum based speaker identify verification." Proc. ICASSP, pp. 583-586, 1988.
[9]George Tzanetakis and Perry Cook. " Audio Information Retrieval (AIR) Tools." Music IR 2000, October 24, 2000.
[10]J. Duchene and S. Leclercq. "An optimal transformation for discriminant and principal component analysis.", IEEE Trans. PAMI, vol. 10, pp.978-983, 1988.
[11]Keinosuke Fukunaga, and Patrenahalli M. Narendra. "An Branch and Bound Algorithm for Computing K-Nearest Neighbors." IEEE Trans. On Computer, July 1975.
[12]L. Higgins, L. G. Bahler, and J. E. Porter, "Voice identification using nearest-neighbor distance measure." Proc. ICASSP, pp. 375-378. , 1993
[13]Mac Queen. "Some method for classification and analysis of multivariant observations." Proc. Of the Fifth Berkelery Symposium on Mathematical Statistical and Probability. University of California Press, 1967.
[14]Rosenberg, A. "Automatic Speaker Verification: A Review." Proceedings of the IEEE 64, no. 4 (1976): pp. 475 - 487.
[15]S. B. Davis and P. Mermelstein. "Comparisan of parametric representations for monmsyllabic word recognition in continuously spoken sentences." IEEE Trans., Acoustics, Signal Proc., pp 357-366, August 1980.
[16]Tong Zhang and C.-C. Jay Kuo. "Content-Based Classification and Retrieval of Audio", Proceedings of SPIE's Conference on Advanced Signal Processing Algorithms, Architectures, and Implementations VIII, San Diego, July, 1998
[17]Yao Wang, Zhu Liu, and Jin-Cheng Huang. "Multimedia content analysis." IEEE Singal Proc. Magazine, pp. 12-36, November 2000.
[18]許文豪, "圖形辨識概述與實作",國立清華大學碩士論文,中華民國八十九年七月
[19]許世俊, "用於高斯混合模型語者辨認之區別式訓練方法",國立清華大學碩士論文,中華民國八十五年六月
[20]楊璧如, "語者/歌者識別",國立清華大學碩士論文,中華民國八十九年七月

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top