研究生(外文):Yun-Ju Chen
論文名稱(外文):Text Extraction on Video
指導教授(外文):Shwu-Huey Yen
外文關鍵詞:video text detectionvideo text extractionBWTC (black-white transition count)reference framecorresponding frametext mask
With the rapid growth of digital technology, videos now play an important role in our life. Due to huge amount of video data, it needs efficient means to access and retrieve them. Text in videos is a powerful source to help us to understand the content of the videos. To achieve this task, we propose a method to extract text in videos. The text detection is achieved by overall video text detection and video clips mergence for same texts. Firstly, at each round,text regionsare roughly labeled by applying Canny edge detecting algorithm to 7 consecutive frames and taking the result of intersection of edge pixels. To determine whether there are the same texts on two frames, the comparison of region overlap and black-white transition count (BWTC) are used. For each text t, the video clip with start/end frame, reference frames, and corresponding frame will be recorded. The mergence of video clips occurs if two consecutive clips have the same text. Text mask Mt is constructed via reference frames of the text t. Text regions are thus refined using text masks. Before text extraction, the similarity of refined text regions is again compared for possible mergence of video clips.
To accomplish the text extraction,three steps-background removal, contrast enhancement, and binarizaiton-are applied to the correspondence frame of the text. Background is removed by morphological reconstruction. In order to get better binary results, it will be enhanced by multi-stage histogram equalization. Finally, binarization is performed by moving average algorithm.
Experimental results show that the effectiveness of the proposed method.
第一章緒論 1
1.1 研究動機與目的 1
1.2 研究內容 4
1.3 論文架構 6
第二章相關研究與理論基礎 7
2.1 文字擷取的相關研究 7
2.2 理論基礎 13
2.2.1 肯尼邊緣偵測 13
2.2.2 形態影像學運算 17
.浸蝕 18
.擴張 19
.開合 20
.閉合 22
.測量學擴張 24
.形態重建 24
2.2.4 長條圖等化 25
2.2.3 二值化 25
.Otsu 25
.Niblack 26
第三章研究方法 27
3.1 文字區域的偵測 27
3.1.1 整體影片文字的偵測流程 28
3.1.1.A 單一回合的文字偵測 36
3.1.1.B 畫格間的文字比較 44
3.1.2 文字區段的合併 45
3.2 文字擷取 46
3.2.1 文字邊點整合其餘 47
3.2.2 背景移除 50
3.2.3 對比增強 51
3.2.4 二值化 54
第四章實驗結果與比較 57
4.1 實驗結果 57
4.2 實驗結果探討 63
4.3 實驗結果比較 66
第五章結果與未來研究方向 77
參考文獻 79
英文論文 81

圖1.1 系統流程 5
圖2.1 結構元素(a)水平直線、(b)垂直直線、(c)45度直線、(d)135度直線、(e)十字形、(f)方形 17
圖2.2 二元影像之浸蝕。(a)結構元素B 與欲進行浸蝕之物件X,(b)浸蝕後結果 18
圖2.3 灰階影像之浸蝕。(a)原灰階影像,(b)經由一垂直直線浸蝕後結果 18
圖2.4 二元影像之擴張。(a)結構元素B 與欲進行擴張之物件X,(b)擴張後結果 19
圖2.5 灰階影像之擴張。(a)原灰階影像,(b)經由一垂直直線擴張後結果 19
圖2.6 二元影像之開合。(a)結構元素B 與欲進行開合之物件X,(b)開合後結果,(c)兩藕斷絲連物件(d)經過開合後兩物件分離開來 20
圖2.7 灰階影像之開合。(a)原灰階影像,(b)經由開合後結果 21
圖2.8 二元影像之閉合。(a)結構元素B 與欲進行閉合之物件X,(b)閉合後結果,(c)三距離近的物件(d)經過閉合後三物件連結起來 22
圖2.9 灰階影像之閉合。(a)原灰階影像,(b)經由閉合後結果 23
圖2.10 測量學擴張(a)一維的f 和g,且f≦g,(b)為f執行基本擴張結果,(c)為(b)結果與g取其小後之結果,即測量學擴張 24
圖3.1 文字偵測流程之示意圖 27
圖3.2 整體影片的文字偵測流程(a) 文字出現兩個連續回合以上,(b)文字與上回合和下回合皆不相同時 35
圖3.3 單一回合文字偵測流程 36
圖3.4 (a),(c) 單一畫格的肯尼邊緣偵測結果;(b),(d) 連續七個畫格的肯尼邊緣偵測交集結果 37
圖3.5 去雜訊結果。(a)圖3.4(b)去雜訊後;(b)圖3.4(d)去雜訊後40
圖3.6 (a)圖3.4(b)去雜訊後;(b)圖(a)經由文字區域分割後;(c)圖(a)水平的BWTC,黑白穿透量圖 42
圖3.7 垂直文字偵測區域 44
圖3.10 文字擷取流程之示意 46
圖3.10 文字偵測結果。(a)與(b)為原文字偵測區塊(c)與(d)為文字遮罩Mtext;(e)與(f)分別以(c)與(d)協助(a)與(b)找出確切的文字區域 49
圖3.11 背景移除結果。(a),(b)偵測到的文字區域;(c),(d)為(a),(b)進行背景移除後的結果 51
圖3.12 對比增強之結果。左方的圖像為文字區域移除背景後的結果;右方的圖像為左方之對比增強後的結果 53
圖3.13 二值化之結果。左方的圖像為圖3.12(b),(d),(f)二值化之結果;右方的圖像為左方圖像去雜訊後之結果 55
圖3.14 未經過對比增強的二值化。(a)~(c)分別為圖3.12(a),(c),(e)二值化之結果 56
圖4.1 西方影片實驗結果(三段文字) 58
圖4.2 西方影片實驗結果(三段文字) 59
圖4.3 東方影片實驗結果(二段文字) 60
圖4.4 東方影片實驗結果(二段文字) 61
圖4.5 東方影片實驗結果(二段文字) 62
圖4.6 同段文字錯認為不同段文字 65
圖4.7 不同文字段錯認為同段文字 65
圖4.8 偵測結果比較。左方圖像的紅色矩形標示區塊為[13] 方法所偵測的結果;右方影像中紅色矩形標示區塊則為本文的偵測結果 67
圖4.9 偵測結果比較。左方圖像的紅色矩形標示區塊為[13] 方法所偵測的結果;右方影像中紅色矩形標示區塊則為本文的偵測結果 68
圖4.10 影像中無文字偵測結果比較。(a),(b)原圖;(c),(d)為本文方法對(a),(b)的結果;(e),(f)為[13]對(a),(b)的結果 70
圖4.11 二值化結果比較。(a)(b)原圖;(c),(d)為本文方法對(a),(b)二值化的結果;(e),(f)為[13]對(a),(b)二值化的結果 73
圖4.12 二值化結果比較。(a),(b)原圖;(c),(d)為本文方法對(a),(b)二值化的結果;(e),(f)為[13]對(a),(b)二值化的結果 76
圖4.13 二值化結果比較。(a),(b)原圖;(c),(d)為本文方法對(a),(b)二值化的結果;(e),(f)為[13]對(a),(b)二值化的結果 61
