論文名稱(外文):Sound Source Localization and Separation for A Companion Robot
指導教授(外文):Jung-Hua Chou
外文關鍵詞:companion robotsound source localizationsound source separationmicrophone array
聲音來源定位及分離所得到的資訊,可以幫助機器人提供更多的功能。以陪伴機器人(Companion Robot)和社交機器人(Social Robot)為例,前者在服務長者或年幼的使用者時,可以得知周遭用戶各別的指令,執行相對應的功能;後者則可避免機器人在社交場合上出現雞同鴨講的現象。
本論文即是針對陪伴機器人的需求研究,使用麥克風陣列收音,先以MUSIC (MUltiple SIgnal Classification)演算法進行多音源的定位,接著由此結果找出適當的音源資訊,再以GCC-NMF (Generalized Cross Correlation – Non-Negative Matrix Factorization)演算法,完成音訊分離,最終目的在於能呈現出各個音源的方位和音頻資訊,以利後續分析。
實驗環境為背景噪音45~55 dB的室內空間,以手機、藍牙喇叭播放聲音和人聲做為測試聲音,音量控制在65~75 dB(此為一般說話的聲音大小)。由於陪伴機器人是假定在一個小家庭內使用,且選用的麥克風陣列為四個麥克風一組,因此本論文的重點以不大於三個的音源為主,進行定位及分離。
Recently most companion robots are designed to interact with people through vision and sound. In this thesis, the author added a sound source recognition system to an existing facial expression recognition robot by using a microphone array. The sound source recognition system consists of two parts, namely sound source localization and sound source separation. The former is achieved by using MUSIC (MUltiple SIgnal Classification) algorithm to estimate the angle of sound source; whereas the latter is by GCC-NMF (Generalized Cross Correlation – Non-Negative Matrix Factorization) algorithm to separate different sound sources. In order to improve the separation accuracy after localization, the author selected appropriate microphone channels via the sound directionality before separation to enhance the separation results.
Since the companion robot aims to serve in small families, the main goal of this study is to treat 2 to 3 sound signals with background noise levels typically in the range of about 45 to 55 dB. The results show that the MUSIC algorithm can estimate the target source accurately, and need less computation time than conventional method, for example, beamforming. As for separation, whether it’s directly listening to audio files or conducting a spectrogram analysis, it all had a significant effect on the results.
摘要 I
Extended Abstract II
致謝 X
目錄 XI
表目錄 XIII
圖目錄 XIV
第一章、緒論 1
1-1 研究動機與背景 1
1-2 研究目的 1
1-3 研究貢獻 1
1-4 文獻回顧 2
1-4-1 陪伴機器人文獻回顧 2
1-4-2 機器人聽覺系統文獻回顧 4
1-4-3 音源定位文獻回顧 5
1-4-4 音訊分離文獻回顧 10
1-5 論文架構 14
第二章、背景技術介紹 15
2-1 多訊號分類演算法(MUSIC) 15
2-2 GCC-NMF演算法 19
2-2-1 NMF介紹 19
2-2-2 GCC介紹 21
2-2-3 結合GCC與NMF 22
第三章、系統架構與軟硬體介紹 24
3-1 整體系統架構 24
3-2 系統硬體介紹 26
3-2-1 麥克風陣列 26
3-2-2 HMI觸控液晶顯示模組 27
3-2-3 網路攝影機、揚聲器 28
3-3 機器人機構設計 29
3-3-1 機器人外觀 29
3-3-2 機器人內部設計 32
3-4 軟體規格 35
第四章、實驗方法與結果討論 36
4-1 實驗方法 36
4-1-1 不同演算法音源定位實驗 37
4-1-2 音源定位個數實驗 39
4-1-3 音源定位計算時間實驗 40
4-1-4 音源定位距離實驗 41
4-1-5 麥克風聲道選擇實驗 44
4-1-6 最終優化 47
4-2 結果討論 49
第五章、結論與建議 52
5-1結論 52
5-2建議 53
參考文獻 54
