(54.173.237.152) 您好!臺灣時間:2019/02/22 23:16
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

我願授權國圖
本論文永久網址: 
line
研究生:洪森杰
研究生(外文):Sen-Jye Horng
論文名稱:類神經網路於文件結構分析之探討─以XML為例
論文名稱(外文):A Study on the XML-based Document Structure Analysis using Neural Network
指導教授:王元凱王元凱引用關係張克章張克章引用關係
指導教授(外文):Yuan-Kai WangKer-Chang Chang
學位類別:碩士
校院名稱:國防管理學院
系所名稱:國防資訊研究所
學門:社會及行為科學學門
學類:綜合社會及行為科學學類
論文出版年:1999
畢業學年度:87
語文別:中文
論文頁數:57
中文關鍵詞:文件影像處理類神經網路可擴展標示語言/標準通用標示語言
外文關鍵詞:Document Image ProcessNeural NetworkXML/SGML
相關次數:
  • 被引用被引用:2
  • 點閱點閱:289
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:3
一般文件數位化的處理,是將文件經過掃描後,再利用OCR辨識軟體轉換為數位化的資料,是最有效且快速的方法;但是這些數位化的資訊仍然無法滿足實際的需求,因為在經過文件影像分析與OCR的過程後,文件的結構消失殆盡,對於數位文件的呈現與存取產生嚴重的影響。此外,若能轉換為國際標準通用格式,即能透過網路無遠弗屆得到正確的訊息。
本論文提出運用文件的版面知識(Layout knowledge),利用類神經網路的學習能力做文件結構分析,辨識與分類出文件的組成元素;最後依據文件型別定義(Document Type Definition, DTD)貼上標記(tag),產生可擴展標示語言(eXtensible Markup Language, XML )文件實例。轉換為XML文件後,使得文件的結構與格式均獲得一致化的標準,且可透過網路傳遞訊息,以期達到無紙化的目標。
本方法經過實例驗證,結果正確率最高可達94.44%,證實其方法之可行性。以文件的版面結構資訊,類神經網路方法來分析文件結構,為文件結構分析提供新的觀念與作法。產生結構化的文件資訊,便於文件查閱、更新等,增強文件的再用性(Reuse),可作為文件自動化處理的參考。
Digitalizing document for efficient computer processing is an important issue in information era. Digitalization includes the process of scanning paper documents, analyzing the layout of document image, and converting it into texts by Optical Character Recognition(OCR)technique. However, the documents generated by OCR are not structural which means the structural information is lost while we perform the above digitalization process.
In this thesis, we propose a document image understanding approach that uses layout knowledge and neural networks. The objective is to classify blocks, such as title block and paragraph block, from paper-based documents, and transfer them into XML(eXtensible Markup Language)documents automatically. Conference paper is chosen in our experiments. We took 10 documents which have 841 blocks. In our experiments we can achieve 94.44% correctness rate. Experimental results validate the feasibility of the proposed scheme.
摘 要 I
Abstract II
誌 謝 III
目 錄 IV
圖 目 錄 VI
表 目 錄 VII
第一章 緒論 1
1.1 研究動機與背景 1
1.2 研究目的 2
1.3 研究範圍與限制 2
1.4 研究方法 3
1.5 論文架構 4
第二章 文獻探討 6
2.1 資料的保存問題探討 6
2.2 文件影像處理 8
2.3 類神經網路 12
2.4 SGML、HTML與XML標示語言 15
2.4.1 SGML、HTML 及XML 介紹 16
2.4.2 SGML、HTML 及XML的關係 18
第三章 類神經網路文件分析處理模組 20
3.1 幾何資訊轉換 21
3.2 倒傳遞網路 23
3.2.1 倒傳遞網路架構 23
3.2.2 倒傳遞網路學習、測試過程24
3.2.2.1 學習過程 24
3.2.2.2 測試過程 26
3.2.3 類神經網路的誤差衡量 26
第四章 會議論文結構分析 28
4.1 文件結構分析 28
4.2 文件DTD 31
4.2.1 XML 的DTD語法 32
4.2.2 會議論文XML DTD 33
第五章 實例驗證與分析 37
5.1 設備與資料來源 37
5.2 結果分析 38
5.2.1 第一部分實驗 38
5.2.2 第二部分實驗 40
5.2.3 第三部分實驗 42
5.3 XML DI 43
第六章 結論與未來研究方向 46
參考文獻 48
附錄 52
附錄一:會議論文之DSSSL style sheet52
附錄二:英文縮寫字彙編 57
中文部份:
【1】陳志明(民八四), 「類神經網路辨識手寫中文相似字之研究」,交通大學資訊工程研究所碩士論文。
【2】陳志賢(民八四), 「中文名片辨識系統之研究」,交通大學資訊工程研究所碩士論文。
【3】劉嘉誠(民八四), 「機器輔助的SGML文件標示」,元智大學電機與資訊工程研究所碩士論文。
【4】陳榮安(民八五), 「國防武器持續獲得與壽期支援策略之研究」,國防管理學院資源管理所碩士論文,頁5-7。
【5】經濟部技術處(民八六), 「資訊應用導航─CALS季刊」,頁18-26。
【6】張克章(民八六), 「CALS策略的五大運用」,資訊與電腦。
【7】陳昭珍(民八七), 「標準通用標誌語言基本慨念」,圖書與資訊專刊,第十三期,頁40-56。
【8】葉怡成(民八七、一月)「類神經網路模式應用與實作」
【9】張道遠(民八七), 「CALS策略中技術文件自動轉換之探討」,國防管理學院國防資訊所碩士論文。
【10】曾祥泰(民八七), 「以類神經網路為基礎的中文文件分類研究」,交通大學資訊科學研究所碩士論文。
英文部份:
【11】Rolf Brugger, Frederic Bapst and Rolf Ingold (1998),“A DTD Extension for Document Structure Recognition,” 7th International Conference on Electronic Publishing, Lecture Notes in Computer Science 1375,Springer.
【12】G. Cybenko (1988),“Continuous valued neural networks with two hidden layers are sufficient”, Technique report, Dept. of Computer Science, Tufts Univ., Medford, MA.
【13】Martin Colby and David S. Jackson(1996), Special Edition Using SGML, Que Corporation Publishers.
【14】Eric van Herwijnen(1990), Practical SGML, Kluwer Academic Publishers.
【15】Floriana Esposito, Donato Malerba and Giovanni Semeraro(1990),“An Experimental Page Layout Recognition System for Office Document Automatic Classification:An Integrated Approach for Inductive Generalization,” Proceeding of 10th International Conference on Pattern Recognition, pp.557-562.
【16】ISO 8613(1989):Information Processing-Text and Office Systems-Office Document Architecture(ODA)and Interchange Format, International Organization for Standardization.
【17】ISO(1986),ISO 8879:1986 Information processing-Text and office system-Standard Generalized Markup Language(SGML).
【18】ISO(1996),ISO/IEC 10179:1996 - Document Style Semantics and Specification Language(DSSSL).
【19】Chun Chen Lin, Yosihiro Niwa and Seinosuke Narita(1997),“Logical Structure Analysis of Book Document Images Using Contents Information,” Proceeding of the 5th International Conference on Document Analysis Recognition.
【20】F. Parmentier and A. Belaid(1997),“Logical Structure Recognition of Scientific Bibliographic References,” Proceeding of the 5th International Conference on Document Analysis Recognition.
【21】Ching Y. Suen , C. D. Yan and Yuan Yan Tang(1990), “Document analysis and understanding:A method for automated acquisition of data and knowledge,” Centre for Pattern Recognition and Machine Intelligence(CENPARMI), Concordia Univ., Tech. Rep.
【22】 Yuan Yan Tang, Seong Whan Lee and Ching Y. Suen(1996), “Automatic Document Processing: A survey, ” Centre for Pattern Recognition and Machine Intelligence(CENPARMI), Vol. 29, No. 12, pp.1931-1952.
【23】S. Tsujimoto and H. Asada(1990),“Understanding multi-articled documents,” Proceeding of 10th International Conference on Pattern Recognition, pp.551-556.
【24】Yuan Yan Tang, Chang De Yan and Ching Y. Suen(1994), “Document processing for automatic knowledge acquisition,” IEEE Transactions on Knowledge and Data Engineering, Vol. 6, No. 1, pp.3-21.
【25】Kazem Taghva, Allen Condit and Julie Borsack(1998),“Autotag:A Tool for Creating Structured Document Collections from Printed Materials. ” 7th International Conference on Electronic Publishing, Lecture Notes in Computer Science 1375, Springer.
【26】Toyohide Watanabe, Qin Luo and Noboru Sugie(1993),“Structure recognition methods for various types of documents,” International Journal on Machine Vision and Applications, pp.163-176.
【27】Toyohide Watanabe, Qin Luo and Noboru Sugie(1992),“A Cooperative Document Understanding Method among Multiple Recognition Procedures,” Proceeding of 11th International Conference on Pattern Recognition, pp.689-692.
【28】Toyohide Watanabe, Qin Luo and Noboru Sugie(1995),“Layout Recognition of Multi-kinds of Table-form Documents,” IEEE Transaction on Pattern Analysis and Machine Intelligence, Vol.17, No.4, pp.432-445.
【29】Hanno Walischewski(1997),“Automatic Knowledge Acquisition for Spatial Document Interpretation,” Proceeding of the 5th International Conference on Document Analysis Recognition.
【30】Toyohide Watanabe and Xiaoou Huang(1997),“Automatic Acquisition of Layout Knowledge for Understanding Business Cards,” Proceeding of the 5th International Conference on Document Analysis Recognition.
【31】W3C Extensible Markup Language http://www.w3.org/XML
【32】http://www.acq.osd.mil/log/lro/drpr/dataconvert.html
【33】http://www.acer.net/document/know_html/17.htm
【34】http://home.earthlink.net/~symonchang/xml.htm
【35】http://collie.fujitsu.com/hybrick
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
系統版面圖檔 系統版面圖檔