跳到主要內容

臺灣博碩士論文加值系統

(3.234.211.61) 您好!臺灣時間:2021/10/18 19:30
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:蔡東益
論文名稱:文件金析
論文名稱(外文):= Document analysis for text-processing
指導教授:陳朝欽陳朝欽引用關係
學位類別:碩士
校院名稱:國立清華大學
系所名稱:資訊科學研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:1992
畢業學年度:80
語文別:中文
論文頁數:47
相關次數:
  • 被引用被引用:0
  • 點閱點閱:103
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
文件分析是相對應用於文件排版的功能。以目前的應用領域來看,最近數年間有大部份的書籍、期刊文獻、科技報告是以電腦上的文件排版系統格式輸入、存存、閱讀、流通。但是舊有的文件資料乃必須由人協助方能輸入電腦。所以文件分析便是一個自動地把舊有的文獻資料轉換成實際的文件排版系統格式。
利用平台型的掃圖機讀入影像資料時,會產生位置偏移與方向扭曲。而論文中利用文字萃取程序與斜角估計程序,在線性時間之內估算出文件的旋角,同時達到.5度以內精確度。對於一般期刊或科技報告上的文件,大致可區分成六類:標題、文件、表格、橫線段、圖形、影像。論文內定義了七個特徵值:區塊的高度、寬度、大小、長度比、拉長比、密度、TFm。利用這七個特徵,就建立一個述狀結構的分類程序。分類程序輸出完整的文字以供字元辨認其他的區塊則保留後續處理。
再區塊分類時,定義了七格特徵值,而利用一些典型的區塊扁可以決定區塊分類所要用的臨界值。文件分析系統建立之後,以常見典型的文件為例作過一些測試。由實驗結果來看,此系統分析能力不錯,可供一般期刊報告的文件使用。對於系統中,有幾個階段執行速度不夠快,則可在程式方面最佳化。未來則可多提供一些後續處理,是此系統更完善。
參考書目:葉46-47
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關論文