跳到主要內容

臺灣博碩士論文加值系統

(3.236.84.188) 您好!臺灣時間:2021/08/01 18:27
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:陳楓凱
研究生(外文):Chen,Feng-Kai
論文名稱:具規則擷取與自我維護機制之監督式網頁擷取系統設計、開發及驗證
論文名稱(外文):The Design, Development, And Validation Of A Supervised Adaptable Web Crawler
指導教授:陳宗天陳宗天引用關係
指導教授(外文):Chen,Tsung-Teng
口試委員:王永心陳宗天李瑞元蔡明月
口試委員(外文):Wang, Yung-HsinChen,Tsung-TengLee,RuiyuanTsai,Ming-Yueh
口試日期:2012/07/16
學位類別:碩士
校院名稱:國立臺北大學
系所名稱:資訊管理研究所
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2012
畢業學年度:100
語文別:中文
論文頁數:107
中文關鍵詞:資訊擷取網路爬蟲擷取規則
外文關鍵詞:Information ExtractionWeb CrawlerExtraction Rules
相關次數:
  • 被引用被引用:1
  • 點閱點閱:393
  • 評分評分:
  • 下載下載:87
  • 收藏至我的研究室書目清單書目收藏:0
近年來由於網路迅速發展,提供許多應用服務平台讓使用者在網路上進行搜尋、創作、社交等各式各樣的活動,因此如何有效率的從豐富的網路資料中,擷取出感興趣的部份作進一步的加值應用成為一重要議題。引文分析文獻探討研究就是相關的應用之一。目前已有研究人員發展出自動化的文獻分析系統一引文分析系統-智識建構者平台(Intellectual Structurer System),但網頁內文與格式的快速變動,往往導致智識建構者平台的資訊擷取(Information Extraction)功能或稱網路爬蟲(Web Crawler)無法適用於調整後的網頁,只能不斷重新修改繁雜難懂的擷取邏輯,才能擷取出正確的資訊。但要設計出能適應多樣化的網頁型態,同時又擁有自我維護機制之彈性化網頁資訊擷取系統卻相當不容易。因此本研究對其中面臨的相關議題,包含網頁干擾資料排除機制、重新定義擷取規則(Extraction Rule)、彈性調整擷取流程、提升擷取效能等,實作出一套具規則擷取與自我維護機制之監督式網頁資訊擷取系統,以期改善智識建構者平台在文獻資訊擷取上之問題,並驗證其方法與理論的可行性。

The web crawling function is an essential component of any automatic information extraction system, which needs to trawl web sites for up-to-date information. Researches have tried different way to develop a flexible and adaptable web crawler that is capable of parsing web pages following a set of pre-defined web syntax rules, and these rules may be learned and derived from the target web sites. A universal solution is elusive since the markup language used by web sites is often loose and syntactically incomplete.
This research designed, developed, and validated a supervised adaptable web crawler, which is capable of derive extraction rules from a web page segment selected by the user. The derived rules are used by the web crawler to extract the desired information from the website. This supervised rule learning and application scenario makes the information component easier to maintain when the syntax of web pages from a target web site changed.
A working web page syntax rule extracting and crawling system written in Java was implemented and tested against two popular citation data web sites. The syntax rule is extracted by highlighting a portion of web pages that the user is interested in. The XML-based web syntax rules are generated by the system. These rules are then used by the crawler to extract the desired citation information from the target web sites. In case of the syntax of the web pages in the target web site changed, the system is capable of detecting the change and re-generates most of the correct rules for the crawler to use.
謝詞 I
論文提要內容 II
ABSTRACT III
目錄 IV
圖目錄 VII
表目錄 IX
第一章 緒論 1
第一節 研究背景與動機 1
第二節 研究目的 2
第三節 論文架構 3
第二章 文獻探討 5
第一節 資訊擷取模式探討 5
1. 手動建置資訊擷取系統(Manually-constructed IE systems) 5
2. 監督式資訊擷取系統(Supervised WI systems) 5
3. 半監督式資訊擷取系統(Semi-Supervised IE systems) 6
4. 無監督式資訊擷取系統(Un-Supervised IE systems) 6
第二節 擷取系統技術應用分類 7
1. Languages for Wrapper Development 7
2. HTML-aware Tools 7
3. NLP-aware Tools 7
4. Wrapper Induction Tools 7
5. Modeling-based Tools 8
6. Ontology-based Tools 8
第三節 擷取系統自動化程度分類 8
1. 手動擷取系統 8
2. 半自動擷取系統 8
3. 自動擷取系統 9
第四節 相關擷取系統概述 11
1. WIEN 11
2. STALKER 12
3. W4F (WysiWyg Web Wrapper Factory) 15
4. SG-WRAP(Schema-Guided Wrapper) 17
5. 智識建構者平台(Intellectual Structurer System) 19
第五節 網路爬蟲概述 20
1. 深度優先策略(Depth-First) 20
2. 寬度優先策略(Breadth-First) 21
3. 最佳優先策略(Best-First) 21
第三章 研究設計 22
第一節 研究架構 22
第二節 研究工具與標準 23
1. XPath(XML Path Language, XML路徑語言) 23
2. DOM4J 25
3. HttpClient 26
6. JUNG (Java Universal Network/Graph Framework) 27
第三節 標籤屬性前置處理 28
第四節 規則擷取 29
1. 單一紀錄規則擷取 31
2. 多重記錄規則擷取 32
第五節 規則樹(Rule Tree) 37
第六節 規則節點分類 38
1. 終端節點(Terminal Nodes,TN) 38
2. 非終端節點(Nonterminal Nodes,NN) 39
3. 分頁節點(Paging Nodes, PN) 39
第七節 多執行緒架構爬蟲程式 40
1. 連線設定 41
2. URL佇列 42
3. 合併查詢 42
第八節 擷取規則維護 42
1. 擷取規則特徵改變定義 43
2. 擷取規則修復流程 46
第四章 研究結果 52
第一節 系統設計 52
1. 規則擷取程式操作 52
2. 多執行緒爬蟲程式操作 57
3. 規則修復程式操作 59
第二節 系統驗證 60
第三節 系統操作流程之評估 68
1. 新增擷取檔案資訊 68
2. 變更擷取資訊 69
3. 網頁格式變更 69
第五章 結論與建議 71
第一節 結論 71
第二節 研究貢獻 72
第三節 未來研究建議 72
參考文獻 74
附件一 智識建構者平台之網頁擷取系統使用手冊 76
簡  歷 106
著作權聲明 107
Anton, T. (2005). XPath-Wrapper Induction by generalizing tree traversal patterns. LWA 2005 - Workshopwoche der GI-Fachgruppen/Arbeitskreise, 126-133.
Banko, M., Cafarella, M. J., Soderl, S., Broadhead, M., & Etzioni, O. (2007). Open information extraction from the web: In IJCAI.
Baumgartner, R., Gatterbauer, W., & Gottlob, G. (2009). Web Data Extraction System: ENCYCLOPEDIA OF DATABASE SYSTEMS.
Borodin, A., Roberts, G. O., Rosenthal, J. S., & Tsaparas, P. (2005). Link analysis ranking: algorithms, theory, and experiments. ACM Trans. Internet Technol., 5(1), 231-297.
Carlson, A., Betteridge, J., Wang, R. C., Estevam R. Hruschka, J., & Mitchell, T. M. (2010). Coupled semi-supervised learning for information extraction. Paper presented at the Proceedings of the third ACM international conference on Web search and data mining.
Chang, C.-H., Kayed, M., Girgis, M. R., & Shaalan, K. F. (2006). A Survey of Web Information Extraction Systems. IEEE Trans. on Knowl. and Data Eng., 18(10), 1411-1428.
Chang, C.-H., & Kuo, S.-C. (2004). OLERA: Semisupervised Web-Data Extraction with Visual Support. IEEE Intelligent Systems, 19(06), 56-64.
Chang, C.-H., & Lui, S.-C. (2001). IEPAD: information extraction based on pattern discovery. WWW'2001, 681-688.
Cho, J., Garcia-Molina, H., & Page, L. (1998). Efficient crawling through URL ordering. Paper presented at the Proceedings of the seventh conference on World Wide Web.
Ciravegna, F. (2001). Adaptive information extraction from text by rule induction and generalisation. Paper presented at the Proceedings of the 17th international joint conference on Artificial intelligence - Volume 2.
Embley, D. W., Jiang, Y., & Ng, Y. K. (1999). Record-boundary discovery in Web documents. Paper presented at the Proceedings of the 1999 ACM SIGMOD international conference on Management of data.
Jun, M., & Tihong, L. (2010). XML-based Web information extraction system design and implementation. Paper presented at the Computer Science and Information Technology (ICCSIT), 2010 3rd IEEE International Conference on.
Kushmerick, N. (1997). WrapperInductionforbyInformationExtraction. University of Washington.
Laender, A. H. F., Ribeiro-Neto, B. A., Silva, A. S. d., & Teixeira, J. S. (2002). A brief survey of web data extraction tools. SIGMOD Rec., 31(2), 84-93.
Liu, L., Pu, C., & Han, W. (2000). XWRAP: An XML-Enabled Wrapper Construction System for Web Information Sources. Paper presented at the Proceedings of the 16th International Conference on Data Engineering.
Menczer, F., Pant, G., & Srinivasan, P. (2004). Topical web crawlers: Evaluating adaptive algorithms. ACM Trans. Internet Technol., 4(4), 378-419.
Meng, X., Hu, D., & Li, C. (2003). Schema-guided wrapper maintenance for web-data extraction. Paper presented at the Proceedings of the 5th ACM international workshop on Web information and data management.
Muslea, I., Minton, S., & Knoblock, C. (1998). STALKER: Learning Extraction Rules for Semistructured, Web-based Information Sources. Computer and Information Science, 20(January), 39-53.
O’Madadhain, J., Fisher, D., & Nelson, T. (2005). Analysis and visualization of network data using JUNG. Journal of Statistical Software, 1-35.
O’Madadhain, J., Fisher, D., & Nelson, T. (2008). Java Universal Network/Graph Framework., from http://jung.sourceforge.net
Sahuguet, A., & Azavant, F. (1999). WysiWyg Web Wrapper Factory (W4F. Paper presented at the Proceedings of WWW Conference.
Sosnoski, D. (2001). XML and Java technologies: Document models, Part 1: Performance.
Yang, G., Ramakrishnan, I. V., & Kifer, M. (2003). On the complexity of schema inference from web pages in the presence of nullable data attributes. Paper presented at the Proceedings of the twelfth international conference on Information and knowledge management.
楊承豪. (2010). 研究智慧平台整合與應用. 國立臺北大學, 臺北, 碩士論文.
謝良奇. (2005). 辨識知識領域之關鍵趨勢. 國立臺北大學, 臺北, 碩士論文.
高浩修. (2011). 引文分析系統的實證研究. 國立臺北大學, 臺北, 碩士論文.

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
1. 王淑女(1995)。青少年的休閒活動與偏差行為,社區發展季刊,27 期,105-123 頁。
2. 余幸秀(2004)。西湖國中體育休閒社團經營之探討。輔仁大學體育學刊,3 期,213-227 頁。
3. 余嬪(1999)。休閒活動的選擇與規劃。學生輔導,60 期,20-31 頁。
4. 呂建政(1994)。展開休閒教育的幾個課題。訓育研究,33,7-15。
5. 高俊雄(1999)。運動員休閒參與、休閒利益與自覺訓練效果之比較研究。戶外遊憩研究,第十二卷,第三期,43-61 頁。
6. 張孝銘、高俊雄(2001)。休閒需求與休閒阻礙間之相關研究─以彰化市居民為實證。體育學報,30,143-152。
7. 張春興(1983)。工作、休閒、娛樂-提升生活品質的心理探索。中國論壇,15(9),47-51。
8. 許建民、高俊雄(2000)。以三類型阻礙模式探討都市六年級學童運動休閒阻礙、參與阻礙與性別及自尊之關係。戶外遊憩研究,13(1),41-61。
9. 許義雄(1981)。休閒的意義、內容及其方法。體育學報,3 輯,3 4 4 -4 1 6 。
10. 連婷治(2000)。國小教師休閒態度與台北縣休閒參與之相關研究。新竹師院國民教育研究所論文集,5,158-178 頁。
11. 陳定雄(1994)。休閒運動相關術語之歷史研究。國立臺灣體專學報,4期,1-29 頁。
12. 黃文三(1998)。近三十年來我國青少年性別角色研究的回顧與分析。高雄師大教育學刊,第14 期,第231-274 頁。
13. 黃立賢(1996)。青少年休閒輔導模式與取向,測驗與輔導,第137 期,第2833-2836 頁。
14. 黃立賢( 1996 )。青少年休閒輔導- 模式與取向。測驗與輔導,137,2833-2836。
15. 葉憲清(1987)。二十一世紀之我國學校體育。國民體育季刊,16(4),16-21。