跳到主要內容

臺灣博碩士論文加值系統

(18.97.14.81) 您好!臺灣時間:2025/01/15 02:42
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:劉哲嘉
研究生(外文):Che-Chia Liu
論文名稱:影片文字辨識及影片內容檢索
論文名稱(外文):Video OCR and Video Content Search
指導教授:陳信希陳信希引用關係
指導教授(外文):Hsin-Hsi Chen
學位類別:碩士
校院名稱:國立臺灣大學
系所名稱:資訊工程學研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2001
畢業學年度:89
語文別:中文
論文頁數:68
中文關鍵詞:影片文字辨識影片內容檢索影像二元化雙層影像二元化
外文關鍵詞:Video OCRBinary ImageTwo Level Binary Image
相關次數:
  • 被引用被引用:0
  • 點閱點閱:771
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
隨著網際網路時代的來臨,資訊的來源不再如以往,只能透過圖書館、電視或書報雜誌等。現在只要是你想找的資料,幾乎透過網際網路都可以找的到,然而目前的網路搜尋引擎,大多還停留在文件的搜尋,因此,本論文希望能開發一套影片文字擷取系統,來擷取影片中的字幕,讓使用者能夠更進一步的去取得影片中的資訊。
發展一套影片文字辨識系統遇到的問題,主要分三點,一、影片中字幕的尋找,二、文字背景的去除,三、文字辨識及後處理。在第一點中,我們利用了字幕的特性“連續出現的破碎區塊”,來尋找字幕的位置。在第二點中,因為影片中的字幕大多有複雜的背景,因此,我們利用了“雙層影像二元化”、“過大區塊去除法”及“多張去背”等方法將複雜的背景去除。最後,我們利用1982年Oka所提的方法來辨識擷取到的文字,並透過自然語言處理技術來提高其辨識率。
利用本論文所提出的方法,集外測試的影片文字辨識率約有八成以上的正確率,而集內測試則可以達到九成四以上的正確率。而所花費的時間,一部約600MB大小的MPEG1格式的影片,只需三十分鍾左右。
最後,將影片文字辨識系統所得到的結果,結合實驗室林川傑學長的問答系統,發展出一套隨選視訊系統,讓使用者可以透過自然語言下問題,而系統回應相關的影片及位置。使用者亦可以透過網際網路,利用影片檢索系統,下想搜尋的關鍵字,取得相關的影片畫面資訊。

目錄
摘要i
誌謝iii
目錄iv
附圖目錄vi
附表目錄viii
第一章 緒論1
1.1動機1
1.2目標2
1.3論文架構7
第二章 相關研究8
2.1光學文字辨識8
2.2影片文字辨識系統與傳統文字辨識系統9
2.3前人在影片文字辨識系統上的研究9
2.4隨選視訊10
2.5問答系統11
第三章 影片文字辨識12
3.1 背景介紹12
3.2 影片畫面的擷取13
3.3 圖片中字幕的尋找15
3.3.1 字的特性15
3.3.2 影像二元化16
3.3.3 演算法18
3.3.4 結果評估22
3.4 去背景方式22
3.4.1字幕切換判斷23
3.4.2單張去背24
3.4.2.1雙層影像二元化24
3.4.2.2過大區塊去除法26
3.4.3多張去背27
3.4.4結果討論28
3.5 字元的切割30
3.6 光學文字辨識31
3.6.1 論文中用到的文字辨識方法32
3.6.2字元語料庫的準備33
3.6.3 文字辨識分數計算35
3.6.4 結果評估37
3.7 文字辨識後處理38
3.7.1 演算法39
3.7.2 結果評估43
3.8影片文字辨識系統效能評估45
第四章 影片文字辨識系統的應用47
4.1 影片文字辨識在網際網路上的應用48
4.2 影片文字辨識與問答系統的應用50
4.3 問答系統於影片的評估51
4.3.1問題的來源51
4.3.2問答系統準確率51
4.3.3 結果與討論52
第五章 結論和未來工作55
參考文獻57
附錄一、實驗Discovery影片列表59
附錄二、文字辨識後處理結果範例表64
附錄三、Discovery影片相關問題列表67

Lee, Yue-Shi and Chen, Hsin-Hsi (1996). "Analysis of Error Count Distribution for Improving the Postprocessing Performance of OCCR." Communications of Chinese and Oriental Language Information Processing Society, 6(2), pp. 81-86.
Li, Huiping; Doermann, David and Kia, Omid (2000). “Automatic Text Detection and Tracking in Digital Video.” IEEE Transactions on Image Processing, 9(1) , pp. 147-156.
Li, Huiping and Doermann, David (1999). “Text Enhancement in Digital Video Using Multiple Frame Integration.” Proceedings of SPIE, Document Recognition IV, pp. 1-8.
Lienhart, Rainer and Stuber, Frank (1995). “Automatic Text Recognition in Digital Videos.” Image and Video Processing IV 1996, Proc. SPIE 2666-20 (1996).also Technical Report TR-95-036, December 1995.
Lienhart, Rainer and Wolfgang, Effelsberg (1998). “Automatic Text Segmentation and Text Recognition for Video Indexing.” Technical Report TR-98-009, Praktische Informatik IV, University of Mannheim.
Lienhart, Rainer and Wernicke, Axel (2000). “On the Segmentation of Text in Videos.” IEEE Int. Conference on Multimedia and Expo (ICME2000),Vol.3, pp. 1511-1514, also Technical Report MRL-VIG00005.
Lin, C.J.; Chen, H.H.; Liu, C.C.; Tsai, J.H. and Wong, H.J. (2001). “Open-Domain Question Answering on Heterogeneous Data.” to appear in Proceedings of ACL Workshop on Human Language Technology and Knowledge Management.
Oka, R. I.(1982). “Handwritten Chinese-Japanese Characters Recognition by Using Cellular Feature.” Proc. 6th Int. Joint Conf. on Pattern Recognition, pp. 783-785.
Smith, Michael A. and Kande, Takeo (1997). “Video Skimming and Characterization Through the Combination of Image and Language Understanding Technique.” Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, pp. 775-781.
Sato, Toshio; Kanage, Takeo; Ellen K.Hughes; Smith, Michael A.; Satoh, Shin’ichi (1998). "Video OCR: Indexing Digital News Libraries by Recognition of Superimposed Caption." ACM Multimedia Systems Special Issue on Video Libraries, February.
Wu, Victor; Manmatha, R. and Riseman, Edward. M. (1997). “Finding Text in Images.” Proceedings of the 2nd intl. conf. on Digital Libraries. pp. 1-10.
Wu, Victor and Riseman, Edward M. (1998). “TextFinder: An Automatic System to Detect and Recognize Text in Images.” IEEE Transactions on pattern analysis and machine intelligence, 21(11).

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top