跳到主要內容

臺灣博碩士論文加值系統

(3.236.124.56) 您好!臺灣時間:2021/07/28 07:54
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:曾宗毅
論文名稱:基於共振峰之網路電話語者鑑定參數選擇
論文名稱(外文):Optimal Parameters for Speaker Verification of VoIP Based on Formants
指導教授:詹明華詹明華引用關係
學位類別:碩士
校院名稱:中央警察大學
系所名稱:刑事警察研究所
學門:軍警國防安全學門
學類:警政學類
論文種類:學術論文
論文出版年:2012
畢業學年度:100
語文別:中文
論文頁數:88
中文關鍵詞:語者辨識共振峰本文無關預強調音框線性預估加權視窗
相關次數:
  • 被引用被引用:3
  • 點閱點閱:192
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
目前語者鑑定運用在刑事司法領域中,應用在法庭審理階段相較於司法警察蒐證偵查階段更為頻繁,實務應用仍利用共振峰位置與分佈來判讀,專業人員的主觀解讀在所難免,為排除這樣的疑義,本文將共振峰分佈情形建立專屬語者模型,最後將不同語者模型所呈現的高斯曲線取交集,其交疊面積即系統錯誤率,此種相似度評估方式可以確定兩組共振峰分佈情形不會隨判讀人員而有所差異。
現有通訊監察範圍已從原有電信網絡擴大至網際網路,依網路發展趨勢,可以想見未來網路電話成為犯罪聯繫工具不容置疑,而網路語音之語者鑑定則突顯其在犯罪偵查的重要性,由於傳統電信語音與現有網路語音最大差異,即「語音封包轉換」過程,後者必須將語音資料封裝成封包傳送以達成通訊目的,重點在於封包語音經解碼還原後,語者的共振峰分佈特性是否完整保留,本文認為只要蒐集足夠網路語音封包,經由頻譜轉換仍可呈現語者特性,即可有效解決此問題。
本文之所以採用「共振峰」做為語音特徵,除實務應用頻繁外,更是因具有忍受通道失真、噪音及適合訓練語料與測試語音不匹配情形的優點,其中語料不匹配最適於犯罪偵查領域,原因在於經由蒐證得來的犯嫌語音檔案往往不是相同錄音介面、錄音參數所錄製。另外犯罪偵查領域中,犯嫌毫無配合期待可能,因此先天運用上即限制本文無關為取樣內容,故本文為符合實務運用,採隨機錄製不特定內容之語句方式作為語者辨識語料。但為實際將共振峰特徵應用於本文無關語者鑑定必須探討參數包含預強調、音框長度、音框前進長度、線性預估階數、加權視窗種類等。另語音應用於網路影響最大的莫過於封包延遲及遺失與語音品質相關的位元率,最後經由實驗得知在「預強調1.1、音框長度27點、音框前進長度9點、線性預估18階、黑人加權視窗、單聲道語音、量化位元16bits」進行語者鑑定為最佳參數,系統錯誤率為0.0089%。
第一章 緒論 1
第一節 研究動機與背景 1
第二節 研究範圍 2
一、語音分析與合成(Speech Analysis/Synthesis) 3
二、語音編碼(Speech Coding) 3
三、語音辨識(Speech Recognition) 3
四、語言識別(Language Identification) 4
五、語者辨識(Speaker Recognition) 4
六、遠端語音辨識(Remote Speech Recognition) 4
第三節 研究目的 7
第四節 研究架構 9
第二章 文獻回顧 11
第一節 發音聲學原理及訊號處理 11
第二節 語音辨識原理文獻回顧 12
一、前端處理(Frond-end Analysis) 13
二、特徵擷取(Feature Extraction) 17
三、模型比對(Model) 21
第三節 本文無關語者辨識之文獻探討 25
第四節 VoIP 的語音辨識 27
第五節 小結 31
第三章 網路電話 33
第一節 VoIP 源由與架構 33
第二節 VoIP 相關協定 34
一、呼叫控制協定(Signaling Control Protocol) 35
二、媒體傳輸協定(Media Transport Protocol) 36
三、支援管理協定(Management Protocols) 37
四、其他協定 37
第三節 VoIP 語音編碼 38
一、語音訊號編碼器種類 39
二、語音封包與語音樣本關係 40
第四節 影響語音品質因素 45
第五節 小結 48
第四章 基於共振峰之語者鑑定 51
第一節 預強調 51
第二節 取音框 51
第三節 加視窗 52
第四節 LPC 分析 52
第五節 語者鑑定 53
一、建立已知語音特徵模型 53
二、比對待鑑定語音特徵 55
第六節 錯誤率計算 56
一、交點求法 57
二、辛普森演算法 58
第七節 小結 60
第五章 實驗 61
第一節 實驗器材與環境 61
一、硬體 61
二、軟體 61
三、錄音環境 62
四、語音樣本資料 62
第二節 實驗 63
一、實驗設計 63
二、實驗成果 65
第三節 實驗討論 79
一、音框參數選擇 79
二、預強調參數選擇 80
三、線性預估階數選擇 80
四、加權視窗選擇 80
五、取樣頻率與量化位元 81
六、聲道數 81
七、位元率 82
第六章 結論與未來研究 83
參考文獻 85
1.Skype. 30 million people online on Skype. 2011 12/10引用; 擷取自:http://blogs.skype.com/en/2011/03/30_million_people_online.html.
2.Caukin, J. A Day In The Life of Skype #Infographic. 2011; 擷取自:http://blogs.skype.com/en/2011/09/a_day_in_the_life_of_skype_inf.html.
3.FACEBOOK. FACEBOOK統計資料. 2011 12/10引用; 擷取自:https://www.facebook.com/press/info.php?statistics.
4.FACEBOOK. 直接從 Facebook 打電話給朋友. 2011 12/10引用; 擷取自:https://www.facebook.com/videocalling/.
5.Team, T.W.L.M. Share your favorite personal Windows Live Messenger story with the world. 2011 12/10引用; 擷取自:http://www.microsoftmdc.com/share-your-favorite-personal-windows-live-messenger-story-with-the-world.
6.聲紋辨識認證-用說的就能刷卡. 2011 12/05引用; 擷取自:http://www.cardu.com.tw/commfun/print_news.htm?mt_pk=6&;mg_pk=1793.
7.Voice Vault 聲紋辨識服務. 擷取自:http://www.find.org.tw/find/home.aspx?page=news&;id=5399.
8.語音辨識上的創新應用-手機連絡簿管理員. 擷取自:http://www.find.org.tw/find/home.aspx?page=news&;id=5393.
9.程惟智,警察電信金融聯防平台系統簡介,刑事雙月刊,第44卷,頁22-26,民國97年。
10.Minoli, D. and E. Minoli, Delivering Voice over IP Networks. 2nd Edition ed2002: Wiley.
11.王小川,語音訊號處理(修訂二版),全華圖書股份有限公司,民國98年。
12.Corporation, C. 賽微輕鬆說. 2011 12/10引用; 擷取自:http://www.cyberon.com.tw/tw/pro-solAG1-1.php?NO1=26.
13.Day, P. and A.K. Nandi, Robust Text-Independent Speaker Verification Using Genetic Programming. IEEE Transactions on Audio, Speech, and Language Processing, 2007. 15(1): p. 285-288.
14.徐健民,刑事鑑識概論-文書鑑定與語音比對學,中央警察大學,民國96年。
15.王祐邦,相角音碼器及其在語音韻律調整之應用,國立臺灣大學電機資訊學院電信工程學研究所碩士論文,民國97年。
16.Fazel, A. and S. Chakrabartty, An overview of statistical pattern recognition techniques for speaker verification. Circuits and Systems Magazine, IEEE, 2011. 11(2): p. 62-81.
17.CHU, W.C., Speech Coding Algorithms - Foundation and Evolution of Standardized Coders2003: Wiley &; Sons, Inc.
18.Rosell, M., An Introduction to Front-End Processing and Acoustic Featuresfor Automatic Speech Recognition. 2006.
19.Picone, J., Signal Modeling Techniques In Speech Recognition. Proceedings of the IEEE 1993. 81(9).
20.Schafer, L.R.R.a.R.W.,Digital Processing of Speech Singals,虹橋書店,民國69年。
21.Wittenberg, N., Understanding Voice Over IP Technology2009: Cengage Learning.
22.Hersent, O., J.-P. Petit, and D. Gurle, Beyond VoIP Protocols. Understanding Voice Technology and Networking Techniques for IP Telephony2005: John Wiley &; Sons, Ltd.
23.Jayanna, H.S. and S.R.M. Prasanna, Multiple frame size and rate analysis for speaker recognition under limited data condition. IET Signal Processing, 2009. 3(3): p. 189-204.
24.陳世峰,基於共振峰之線上語者辨識,中央警察大學刑事警察研究所碩士論文,民國97年。
25.陳松琳,以類神經網路為架構之語音辨識系統,國立中山大學電機工程學系碩士論文,民國91年。
26.Rabiner, L.R. and B.H. Juang, Fundamentals of speech recognition1993: PTR Prentice Hall.
27.Tomi Kinnunen and H. Li, An overview of text-independent speaker recognition : From features to supervectors. Speech Communication, 2010. 52(1): p. 12-40.
28.O'Shaughnessy, D., Automatic speech recognition:History,methods and challenges. Pattern Recognition, 2008. 41(10): p. 2965-2979.
29.Fallside, F. and W.A. Woods, Computer Speech Processing1983: Prentice Hall Intemational.
30.林珮瑜,聽障兒童語音教學電腦輔助系統-語音處理子系統,國立台灣大學電機工程學研究所碩士論文,民國85年。
31.Welling, L. and H. Ney, Formant Estimation for Speech Recognition. Speech and Audio Processing, IEEE Transactions on, 1998. 6(1): p. 36 - 48
32.程瑜銘,隱藏式馬可夫模型應用於水下聲源訊號識別之研究,中原大學資訊工程學系碩士論文,民國89年。
33.Chen, Y. and M. Liu, A Chain of Gaussian Mixture Model for Text-independent Speaker Recognition. Speech Database and Assessments, 2009 Oriental COCOSDA International Conference on 2009: p. 100-103.
34.Yiying Zhang, David Zhang, and X. Zhu, A Novel Text-Independent Speaker Verification Method Based on the Global Speaker Model. IEEE Transactions on Systems, Man, and Cybernetics, 2000. 30(5).
35.Nakagawa, S., L. Wang;, and S. Ohtsuka, Speaker Identification and Verification by Combining MFCC and Phase Information. Audio, Speech, and Language Processing, IEEE Transactions on, 2012. 20(4): p. 1085-1095.
36.Xiang, B. and T. Berger, Efficient Text-Independent Speaker Verification with Structural Gaussian Mixture Models and Neural Network. IEEE Transactions on Speech and Audio Processing, 2003. 11(5).
37.Manjusha, V., Robust Speaker Verification for Mobile Transmission. Signal Processing (ICSP), 2010 IEEE 10th International Conference on, 2010: p. 518 - 521.
38.Charu, A., et al. CSR: Speaker Recognition from Compressed VoIP Packet Stream. in Multimedia and Expo, 2005. ICME 2005. IEEE International Conference on. 2005.
39.ares, L.R.g.-L. and C. Garcı´a-Mateo, Application of fusion techniques to speaker authentication over IP networks. IEE Proc.-Vis. Image Signal Process., 2003. 150(6).
40.Besacier, L., et al., Overview of compression and packet loss effects in speech biometrics. IEE Proceedings - Vision, Image, and Signal Processing, 2003. 150(6): p. 372.
41.Mayorga-Ortiz, P., R. Lamy, and L. Besacier, Recovering of packet loss for distributed speech recognition. Proc. of Eusipco, 2002.
42.Mayorga, P., et al., Audio Packet Loss over IP and Speech Recognition. Automatic Speech Recognition and Understanding, 2003. ASRU '03. 2003 IEEE Workshop on 2003.
43.S, E. and Z. J, The influence of speech coding algorithms on automatic speech recognition. Proc. of ICASSP, 1994: p. 621-624.
44.Han, T.J.B.G.J., Speaker identification and verification from audio coded speech in matched and mismatched conditions. Robotics and Biomimetics (ROBIO), 2009 IEEE International Conference on, 2009: p. 2199 - 2204.
45.Milner, B., Robust Voice Recognition over IP and Mobile Networks. Personal, Indoor and Mobile Radio Communications, 2000. PIMRC 2000. The 11th IEEE International Symposium on, 2000.
46.賈文康,SIP會談啟始協議操典(第二版),松崗電腦圖書有限公司,民國97年。
47.Ibe, O.C., Converged Network Architectures. Delivering Voice and Data over IP,ATM,and Frame Relay2002: John Wiley &; Sons, Inc.
48.Spanias, A., T. Painter, and V. Atti, Audio Signal Processing and Coding2007: John Wiley &; Sons, Inc.
49.Kondoz, A.M., Digital Speech. 2 ed. Coding for Low Bit Rate Communication Systems2004: John Wiley &; Sons Ltd.
50.IETF, RTP Profile for Audio and Video Conferences with Minimal Control, 2003.
51.Fournier, p. Initial IP PBX Trunk Sizing. 2012/04/20引用; 擷取自:http://www.cable360.net/ct/voice/Initial-IP-PBX-Trunk-Sizing_23791.html.
52.陳俊維,基於共振峰之本文無關語者鑑定,中央警察大學刑事警察研究所碩士論文,民國98年。
53.UNION, I.T., SERIES G: TRANSMISSION SYSTEMS AND MEDIA, DIGITAL SYSTEMS AND NETWORKS, in One-way transmission time2003: Geneva,Switzerland.
54.Faundez-Zanuy, M. and E. Monte-Moreno, State-of-the-Art in Speaker Recognition. iEE Aerospace and Electronic Systems Magazine, 2005.
55.林傑斌、陳奇麟,數值分析與應用,五南圖書出版公司,民國74年。
56.詹明華、陳弘斌、曾宗毅,量化位元對語者鑑定之影響,刑事科學,第71卷,頁15~21,民國100年。
57.陳世豪,共振峰抽離與參數選擇對本文無關語者鑑定之影響,中央警察大學刑事警察研究所碩士論文,民國100年。
電子全文 電子全文(本篇電子全文限研究生所屬學校校內系統及IP範圍內開放)
連結至畢業學校之論文網頁點我開啟連結
註: 此連結為研究生畢業學校所提供,不一定有電子全文可供下載,若連結有誤,請點選上方之〝勘誤回報〞功能,我們會盡快修正,謝謝!
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top