跳到主要內容

臺灣博碩士論文加值系統

(44.192.92.49) 您好!臺灣時間:2023/06/10 13:35
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:王敦厚
研究生(外文):Wang ,Duen-How
論文名稱:中英文混合印刷文件之文字切割技術之研究
論文名稱(外文):A Study of Character Segmentation Techniques for Mixed Printed Documents
指導教授:王駿發
指導教授(外文):Jhing-Fa Wang
學位類別:碩士
校院名稱:國立成功大學
系所名稱:資訊及電子工程研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:1995
畢業學年度:83
語文別:中文
論文頁數:49
中文關鍵詞:文字切割接觸字筆劃交越數
外文關鍵詞:Character segmentationTouching charactersStroke crossing count
相關次數:
  • 被引用被引用:1
  • 點閱點閱:205
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:1
文字切割(Character Segmentation)的重要性在於切割的好壞將直接影響
辨識的結果。在混合中、英文字的文件裡,文字切割遭遇到兩個大問題:
一是由於中文字的多組成單元結構不同於英文字的單組成單元結構,使得
兩個兩個相鄰的英數字很可能被誤判為一個中文字;另一是由於變動字距
的排版印刷及緊密印刷所產生的接觸字(Touching Chara- cters)問題。
是以中英文混合文件之字元分割,不能僅憑字形區塊的寬、高和字距等幾
何特徵,因為中、英文字的外框矩形(Bounding Rectangle)的大小與間距
等很可能相近;亦不能委由OCR辨識主導切割過程,因為辨識核心的計算
負擔重且缺乏本文資訊。本論文提出一個整合方法以解決上述混合中、英
文及接觸字的切字問題。首先對某列每一文字的字形區塊計算其水平及垂
直的筆劃交越數 (Stroke Crossing Count)並進行複雜度分析,以確認嚴
謹的單矩形中文字。至於雙矩形中文字之確認,則是取矩形區塊較大者送
至英數字 OCR辨認,若拒認,則表示這兩個矩形區塊為中文之分裂字區塊
,因此需合併為中文字;若可辨認,則為英數字。至於接觸字文字屬性的
判斷,可根據前後文的關係以及本身的資訊。文字屬性改正的判斷可將錯
誤的文字屬性分類做一修正。至於切字的結果,將字元矩形分成五類:中
文字, 英文字, 標點符號,中文接觸字以及英文接觸字。對於接觸字的分
割,本論文採用先尋找候選分割位置,再確認適當的分割位置的兩階段策
略。由於最後需以辨認的方式來確認接觸字的分割位置,因此對於中文接
觸字與英文接觸字的分割處理上有基本的差異。至於實驗的結果,用以測
試的文件共有12篇,總共的字數為7378個字,當中有5536個中文字,英文
字則有1672個字,切錯的字數共有49個字,其中有35個英文字誤判為中文
字和14個中文字誤判為英文字。因此本實驗的中文字切出率為99.7%,英
文字切出率為97.9%,而整體的切出率為99.3%。

In this thesis, we provide a solution not only for segmenting
characters in mixed Chinese/English printed documents but also
segmenting touching characters. we divide the segmented
character into five classes: Chinese, alphanumeric, punctuation
mark, Chinese touching character and alphanumeric touching
character. Firstly, for confirmation of Chinese characters
formed by single rectangle, we calculate the horizontal and
vertical stroke crossing counts for character complexity
analysis, if its omplexity is high, and it fits to the square
style and the size of Chinese characters, then we confirm it is
a Chinese character. Secondly, for confirmation of Chinese
characters formed by two rectangles, if it also fits to the
square style and the size of Chinese characters, then we give
the largest rectangle to alphanumeric OCR, if the rectangle is
rejected, the joined character must be a Chinese character.
Otherwise, the joined rectangles are not treated as a Chinese
character. We determine the attribute of touching characters by
contextual relationship and information provided by self. The
attribute of characters could make a judgement for correction
the erroneous attributes. For the segmentation of touching
characters, we adopt the strategy with two stages, the first
stage is to search all possible cutting positons, the second
stage is to search the proper cutting positions. Experiments to
12 documents, there are 5536 Chinese characters and 1672
alphanumeric characters among 7378 characters. The result is
that 14 Chinese characters are segmented erroneously and
alphanumeric characters are 35. The correct rate is 99.7% and
97.9%. The overall correct rate is 99.3%.

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top