跳到主要內容

臺灣博碩士論文加值系統

(18.97.14.83) 您好!臺灣時間:2024/12/06 13:41
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:王瓊雯
研究生(外文):Chiung-Wen Wang
論文名稱:AudioMusic的主旋律抽取與錯誤分析
指導教授:張智星張智星引用關係
指導教授(外文):Jyh-Shing Roger Jang
學位類別:碩士
校院名稱:國立清華大學
系所名稱:資訊工程學系
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2003
畢業學年度:91
語文別:中文
論文頁數:30
中文關鍵詞:主旋律追蹤歌聲偵測
外文關鍵詞:melody line trackingsinging voice detection
相關次數:
  • 被引用被引用:0
  • 點閱點閱:245
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:1
網際網路的蓬勃發展,促進了數位音樂的廣泛流傳,因而激起人們對於音樂檢索的需求。除了傳統以歌名、歌手或歌詞做為關鍵字的文字搜尋外,近年來也發展出以音樂內容為主的檢索技術。在以音樂內容為主的檢索技術中,主旋律是一個很重要的特徵。本篇論文提出由Audio Music中自動抽取出主旋律的方法,用來取代人工,建立音樂資料庫,提供哼唱檢索歌曲時使用。
為了自動估算流行歌曲主旋律基頻,本篇論文的研究工作分為兩部份。第一部份是歌聲偵測(singing voice detection),偵測出歌曲中包含人聲的片段,去除只有音樂伴奏的雜訊。實作方法是擷取出「包含歌聲的歌曲片段」以及「音樂伴奏片段」的特徵參數,用來訓練出兩組高斯混合模型(Gaussian Mixture Model, GMM),然後就可以對歌曲片段進行識別。第二部份是主旋律追蹤(melody line tracking),追蹤主旋律(通常是指人的歌聲)基頻,將歌曲波形訊號轉換成音高向量,用以建立音樂資料庫。實作方法是從歌曲頻譜圖中選取基頻候選點,設定每個候選點的狀態機率(state probability)以及點與點之間的轉移機率(transition probability),然後利用動態規劃演算法(dynamic programming)走出主旋律基頻的最佳路徑。
實驗結果,在歌聲偵測方面,以音框為單位的內部測試辨識率為91.87%;外部測試辨識率為66.78%。在主旋律追蹤方面,若是對照標準答案去除只含背景音樂的音框,最後獲得的音框基頻辨識率為24.31%;若是使用歌聲偵測方法去除只含背景音樂的音框,最後獲得的音框基頻辨識率為19.47%。

第1章 簡介
1.1 研究動機
1.2 系統簡介
1.3 相關研究
1.3.1 歌聲偵測方面
1.3.2主旋律追蹤方面
1.4 章節概要
第2章 歌聲偵測
2.1 歌聲偵測系統簡介
2.2 特徵參數擷取
2.3 有/無歌聲的歌曲片段模型訓練與識別
2.3.1 模型描述
2.3.2 模型參數預估
2.3.3 有/無歌聲的歌曲片段識別
2.3.4 對辨識結果進行後處理
第3章 主旋律追蹤
3.1 聲音訊號在時域、頻域上的特性
3.2 主旋律追蹤方法
3.2.1 主旋律基頻候選點
3.2.2 主旋律基頻最佳路徑
第4章 實驗結果
4.1 歌聲偵測實驗結果
4.1.1 測試資料
4.1.2 實驗結果
4.1.2.1 歌聲偵測系統辨識率
4.1.2.2 對辨識結果進行後處理
4.1.2.3 歌聲偵測系統辨識率實驗二
4.2 主旋律追蹤
4.2.1 測試資料
4.2.2 實驗結果
4.2.2.1 實驗一
4.2.2.2 實驗二
4.2.2.3 實驗一、二辨識率比較
第5章 錯誤分析與結論
5.1 錯誤分析
5.1.1 正確的標準答案?
5.1.2 音框中的基頻候選點?
5.2 結論與展望
參考文獻

【1】高名揚, 張智星, “以聲音內容為主的音樂資料庫檢索系統的加速方法”, 國立清華大學碩士論文, 民國90年
【2】Adam L. Berenzweig, Daniel P.W. Ellis, “Locating Singing Voice Segments within Music Signals”, Proceedings of the 2001 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, October 2001.
【3】Masataka Goto, Satoru Hayamizu, “A Real-time Music Scene Description System: Detecting Melody and Bass Lines in Audio Signals”, Working Notes of the IJCAI-99 Workshop on Computational Auditory Scene Analysis, pp. 31-40, August 1999.
【4】Masataka Goto, “A Robust Predominant-F0 Estimation Method for Real-time Detection of Melody and Bass Lines in CD Recordings”, Proceedings of the 2000 IEEE International Conference on Acoustics, Speech, and Signal Processing, pp. II-757-760, June 2000.
【5】許嘉忻, 張智星, “由歌曲波形抽取主旋律以進行音樂檢索”, 國立清華大學碩士論文, 民國91年
【6】楊璧如, 張智星, “語者歌者識別”, 國立清華大學碩士論文, 民國89年
【7】Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, “Spoken Language Processing: A Guide to Theory, Algorithm, and System Development”, Prentice Hall PTR, 2001.
【8】Beth Logan, “Mel Frequency Cepstral Coefficients for Music Modeling”, Proceedings of the 2000 International Symposium on Music Information Retrieval, October 2000.
【9】Christopher M. Bishop, “Neural Networks for Pattern Recognition”, Oxford University Press, 1995.
【10】M. D. Plumbley, S. A. Abdallah, J. P. Bello, M. E. Davies, G. Monti and M. B. Sandler. “Automatic Music Transcription and Audio Source Separation”, 33(6), pp. 603-627, 2002.
【11】Wu Chou, Liang Gu, “Robust Singing Detection in Speech/Music Discriminator Design”, Proceedings of the 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing, pp. II-865-868, May 2001.

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top