跳到主要內容

臺灣博碩士論文加值系統

(18.97.9.169) 您好!臺灣時間:2024/12/06 09:33
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:黃俊凱
研究生(外文):Gen-Kai Huang
論文名稱:應用隱藏式及揭露式馬可夫模型於音訊內容識別
論文名稱(外文):Applying Hidden Markov Model and Observable Markov Model for Audio Content Identification
指導教授:簡福榮簡福榮引用關係
口試委員:徐演政黃永發譚旦旭
口試日期:2007-07-10
學位類別:碩士
校院名稱:國立臺北科技大學
系所名稱:電機工程系研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2007
畢業學年度:95
語文別:中文
論文頁數:57
中文關鍵詞:音訊內容識別高斯混合模型隱藏式馬可夫模型向量量化
外文關鍵詞:Audio Content IdentificationGaussian Mixture ModelHidden Markov modelVector Quantization
相關次數:
  • 被引用被引用:0
  • 點閱點閱:162
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
本論文探討隱藏式馬可夫模型(Hidden Markov Model)和揭露式馬可夫模型(Observable Markov Model)用於音訊訊號的識別,實驗中每個馬可夫模型的狀態是由一組高斯混合機率密度函數做為觀察音訊之分類並且使用了梅爾頻率倒頻譜係數(Mel-Frequency Cepstral Coefficients)特徵值來描述音訊。整個音訊內容識別架構分別由資料庫訓練階段,和識別階段兩個階段組成。實驗中音訊資料庫包含共分成12類,其中包含九種樂器獨奏、交響樂及男女聲演唱。本論文實驗的分類模型使用了高斯混合模型(Gaussian Mixture Model)、隱藏式馬可夫模型以及揭露式馬可夫模型以作為性能評比。實驗結果顯示,相較於隱藏式馬可夫模型與梅爾頻率倒頻譜係數的組合,揭露式馬可夫模型與梅爾頻率倒頻譜係數的組合可以執行的更快,而且即使在不同的失真情況,例如:切割、MP3壓縮、AAC壓縮、振幅失真、時間長度的改變下仍有優越且趨於隱藏式馬可夫模型的正確率。
In this thesis, both Hidden Markov Model and Observable Markov Model (OMM) are developed as the audio fingerprints for each audio signal. Each state of both Markov Models is classified by a set of gaussian mixture probabilities and the features Mel-Frequency Cepstral Coefficients (MFCC) are taken into consideration in the experiments. The framework consists of two phases, one is the database training phase and the other is the identification phase. The audio database used in the experiments is divided into 12 categories, including 9 kinds of musical instruments , symphony and males and females singing. Three classifiers that consist of Gaussian Mixture Model, Hidden Markov Model, and Observable Markov Model are investigated. The experimental results show that the OMM(MFCC) scheme can execute faster than the HMM(MFCC) and performs graceful degradation even when suffering various distortion, such as clipping , MP3 compression, AAC compression, amplitude modification, and time-scale modification, etc.
摘要 i
ABSTRACT ii
誌謝 iv
目錄 v
表目錄 viii
圖目錄 x
第一章 緒論 1
1.1 研究動機與背景 1
1.2 相關研究 1
1.3 研究方法 2
1.4 論文架構 2
第二章 音訊特徵值之擷取與分析 3
2.1 前言 3
2.2 梅爾倒頻譜係數 3
2.2.1 前置處理 4
2.2.2 時域轉頻域 6
2.2.3 後置處理 7
2.2.3.1 梅爾頻率濾波組 7
2.2.3.2 對數能量與離散餘弦轉換 9
第三章 分類器與高斯混合模型 11
3.1 前言 11
3.2 向量量化 11
3.3 高斯分類器 12
3.4 分類器的混合 13
3.5 高斯混合模型 13
3.5.1 高斯混合模型的描述 14
3.5.2 模型的訓練 14
3.5.3 音訊的識別 16
3.5.3.1 門檻值 17
3.5.3.2 等錯誤率 17
第四章 隱藏式與揭露式三狀態馬可夫模型 20
4.1 前言 20
4.2 隱藏式馬可夫模型 20
4.2.1 馬可夫模型的基本參數 20
4.2.2 模型的結構 21
4.2.3 相似度計算 23
4.2.3.1 正算程序 24
4.2.3.2 逆算程序 25
4.2.4 最佳狀態序列 26
4.2.5 模型的訓練 29
4.2.6 音訊的識別 30
4.3 揭露式三狀態馬可夫模型 31
4.3.1 狀態的判斷 32
4.3.2 模型的訓練 33
4.3.3 相似度的計算 33
4.3.4 音訊的識別 34
4.4 HMM與OMM之比較 34
第五章 實驗結果與討論 36
5.1 實驗架構 36
5.2 實驗語料 37
5.3 強健性測試 38
5.3.1 切割測試 38
5.3.2 MP3壓縮編解碼 38
5.3.3 AAC壓縮編解碼 40
5.3.4 音量調整 42
5.3.5 加入迴音 42
5.3.6 音樂速度的改變 42
5.3.7 假冒者資料庫測試 44
第六章 結論與未來展望 54
6.1 結論 54
6.2 未來展望 54
參考文獻 55
[1] A. Ghias, J. Logan, D. Chamberlain and B. C. Smith, “Query by humming-musical information retrieval in an audio database,” ACM Multimedia ’95, pp. 231-236, San Francisco, 1995.
[2] 李宏儒、許肇凌、王儀蓁、張智星,“多模式音樂檢索系統” 第三屆數位典藏技術研討會,中央研究院,台灣,2004。
[3] J. R. Jang, H. R. Lee and C. H. Yeh, “Query by Tapping: A new paradigm for content-based music retrieval from acoustic input,” The Second IEEE Pacific-Rim Conference on Multimedia, pp.590-597, Beijing, China, 2001.
[4] G. Tzanetakis and P. Cook, “Musical genre classification of audio signals,” IEEE Transactions on Speech and Audio Processing, Vol. 10, No. 5, pp. 293-302 July 2002.
[5] B. Zhang, W. Dou, and L. Chen, “Audio content-based highlight detection using adaptive hidden Markov model,” Proc. of 6th International Conference on Intelligent System Design and Application, pp. 798-803,Qingdao, Shandong, China, 2006.
[6] X. Huang, A. Acero and H. Hon, “Spoken language processing: A guide to theory, algorithm and system development,” Pearson Education Taiwan Ltd. 2005.
[7] VA Petrushin, “A Consulting Hidden Markov Models: Fundamentals and Applications,” (OSEE) Online Symposium for Electronics Engineering http://www.osee.net.
[8] L. R. Rabiner and B. H. Juang, “Fundamentals of speech recognition,” Prentice-Hall, Englewood Cliffs, NJ., 1993.
[9] A. Ramalingam and S. Krishnan, “Gaussian mixture modeling using short time fourier transform features for audio,” IEEE International Conference on Multimedia and Expo, pp. 1146-1149, July 2005.
[10] 王小川,語音訊號處理,台北,全華,民國93年。
[11] 林育弘,“數位音樂擷取系統之發展” ,中華民國音響學會,第十七屆學術研討論文集,第79-84頁,高苑技術學院,台灣,2004。
[12] B. Scholkopf and A. J. Smola, Learning with Kernels: Support Vector Machines, Regularization, Optimization, and Beyond, MIT Press, 2002.
[13] A-Ching Wang, Jhing-Fa Wang, Kuok Wai He and Cheng-Shu Hsu, “Environmental Sound Classification using Hybrid SVM/KNN Classifier and MPEG-7 Audio Low-Level Descriptor,” International Joint Conference on Neural Networks, pp. 1731-1735, July 2006.
[14] E. Allamanche, B. Frba, J. Herre,T. Kastner,O.Hellmuth, and M. Cremer, “Cotent-based identification of audio material using MPEG-7 low level description,” in Proceeding of the International Symposium on Music Information Retrieval , pp. 197-204, Indiana, USA, October 2002.
[15] J. A. Bilmes, “A gentle tutorial of the EM algorithm and its application to parameter estimation for gaussian mixture and hidden markov models,” ICSI Technical Report TR-97-021, April 1998.
[16] L. R. Rabiner, “A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition,” Proc. IEEE, Vol. 77, No.2, pp. 257-286, Feb. 1989.
[17] E. Batlle, J. Masip, and E. Guaus, “Amadeus: a scalable hmm-based audio information retrieval system,” in First International Symposium on Control, Communications and Signal Processing, pp. 731-734, 2004.
[18] Seo, J.S. ,Minho Jin,Sunil Lee,Dalwon Jang,Seungjae Lee and Yoo, C.D. “Audio fingerprinting based on normalized spectral subband centroids,” ICASSP 2005, pp. 213-216, March 2005.
[19] A. Ramalingam and S. Krishnan, “Gaussian mixture modeling using short time fourier transform features for audio,” IEEE International Conference on Multimedia and Expo, pp. 1146-1149, July 2005.
[20] 吳炳飛,Audio Coding MP3篇 技術手冊,台北,全華,民國93年。
[21] Advanced Audio Coding, http://www.wikipedia.org , 2007.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top