跳到主要內容

臺灣博碩士論文加值系統

(18.97.9.175) 您好!臺灣時間:2024/12/06 22:41
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:陳湘諭
研究生(外文):Xiang-Yu Chang
論文名稱:即時專利資料庫管理及分析系統
論文名稱(外文):An Instant Patent Database Management and Analysis System
指導教授:鄭為民鄭為民引用關係
指導教授(外文):Wei-Min Jeng
口試委員:余銘忠鄭武德
口試委員(外文):Yu, Ming-JhongJeng, Wu-Der
口試日期:2017-06-26
學位類別:碩士
校院名稱:東吳大學
系所名稱:資訊管理學系
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2017
畢業學年度:105
語文別:中文
論文頁數:44
中文關鍵詞:專利專利檢索網路爬蟲程式
外文關鍵詞:PatentPatent SearchWeb crawler program
相關次數:
  • 被引用被引用:1
  • 點閱點閱:348
  • 評分評分:
  • 下載下載:31
  • 收藏至我的研究室書目清單書目收藏:0
隨著時代的快速發展,網路科技已經取代了勞動資本成為創造公司價值的主要來源,專利對科技創新更是在企業整體策略中不可或缺的權利,專利可維持或提升公司的競爭力。過去的研究企業都利用人工的方式到專利網站去搜尋所需的資料,但專利資料量過於龐大,搜尋時浪費很多的時間,所以企業需要用什麼方式來搜索大量的專利資料,要如何實際改善這樣缺乏效率的搜索方式,因此本研究使用專利資料量豐富的美國專利網站來進行爬取資料,本研究透過優化過後的網路爬蟲程式來減少人工搜尋,利用程式爬取大量的專利資料,再將爬取的專利資料和原本儲存在資料庫裡的資料來做比對進行分析,讓新的專利資料可以自動建立在新的檢索,以往同樣的資料也不會再出現。而本研究目的在於專利資料是否可以在更快的時間抓取到最新檢索,研究結果顯示爬取的資料透過資料庫來分析,時間確實減短許多,可迅速的了解到最新的專利資料。此外,本研究利用網路爬蟲程式新方案成功地減少了改進編程技術(包括JSoup和Spring協定)的時間,可讓對專利做研究的人透過此方式蒐集資料。
With the rapid development of the technology recently, Internet technology has replaced the labor capital form and has become the main source of added-value for a company. Specifically, patents resulting from the scientific and technological innovation are proved to be indispensable for the enterprise's overall strategic roadmap in order to better maintain or enhance the company's competitiveness. Research firms in the past use manual methods to collect the required information, but oftentimes the amount of patent information are too large to handle. A lot of time could be spent in the searching process and therefore the companies are in a strong need to find a way to search this vast amount of patent information. Aiming to improve the current inefficient way of searching in practice, this study uses the rich US patent website by employing the web crawling technology for better performance. By the time-optimization of the Internet-based crawler program, the goal is to reduce the time of the time-consuming manual search. The idea is to utilize the existing patent information stored in the database to avoid the time redundancy for most of the searches. Only the newly-added patents are retrieved and appended to our patent store. The experimental results show that the new scheme successfully reduces a lot of time for its improved programming techniques including JSoup and Spring constructs.
目錄
致 謝 i
摘 要 ii
Abstract iii
目錄 iv
表目錄 vi
圖目錄 vii
第壹章、緒論 1
1.1研究背景 1
1.2研究動機 1
1.3研究目的 2
1.4研究流程 3
第貳章、文獻探討 4
2.1專利 4
2.2 專利檢索 5
2.3 網路爬蟲 7
第參章 研究方法 10
3.1研究方法 10
3.2資料取得前處理 12
3.3爬蟲工具之使用 13
3.4爬蟲程式解析器 17
3.5資料配置 23
第肆章、研究成果 25
4.1實驗環境 25
4.2 實驗結果 25
4.3 比較時間結果 27
第伍章、結論與建議 30
參考文獻 32

表目錄
表2-1中華民國專利檢索方式 7
表4-1. 硬體設備之規格 25
表4-2專利檢索頁數和總數 26
表4-3使用專利網站內建檢索結果之統計 28
表4-4使用網路爬蟲檢索結果之統計 28
表4-5使用比對後改良檢索之統計 29

圖目錄
圖 1 1研究流程圖 3
圖2-1 網路爬蟲架構圖 9
圖3-1美國專利局網站 10
圖 3-2專利資料庫分析架構 11
圖3-3美國專利網站資料範例 12
圖3-4 屬性 14
圖3-5 JAVA開發環境設置 15
圖3-6安裝MYSQL-CONNECTOR-JAVA-5.1.15-BIN.JAR設置 16
圖3-7開啟程式 17
圖3-8 DOCUMENT架構程式碼範例 18
圖3-9 ELEMENT架構程式碼範例 18
圖3-10 LOGGER程式碼範例 19
圖3-11 @ASYNC程式碼範例 19
圖3-12 IBATOR程式碼範例 20
圖3-13 @COMPONENT與@AUTOWIRED程式碼範例 20
圖3-14 @SUPPRESSWARNINGS與@TRANSACTIONAL程式碼範例 21
圖3-15 URLPATTERN程式碼範例 22
圖3-16申請日期程式碼範例 22
圖3-17檢索介面 23
圖3-18資料庫 24
圖4-1 美國專利頁數 26
圖4-2 MYSQL WORKBENCH 27
圖4-3時間比較 29


[1]張善斌,「建立二階段技術定位模式: 以商業方法專利分析為例」. Diss. 國立雲林科技大學管理研究所博士班,2004.
[2]謝寶煖. 「專利與專利資訊檢索」, 大學圖書館, 第2卷, 第4期, 頁 111-127.,1998.
[3]許牧彥,「從知識經濟特質談台灣專利制度的演進」,台灣產業研究第四期-知識資本在台灣,遠流出版,頁 297-352,2001.
[4]陳哲宏、陳逸南、謝銘洋、徐宏昇,「專利法解讀」,元照出版,台北,頁 14-16,1999.
[5]科技產業資訊室,http://iknow.stpi.narl.org.tw/Default.aspx
[6]鐘仕廷,「基於文字探勘應用於使用者特徵向量擷取及行為分析的垃圾微網誌偵測系統」.,2011.
[7]33款可用來抓數據的開源爬蟲軟體工具,https://read01.com/enNKPd.html
[8]翁慈宗. 「資料探勘的發展與挑戰」. 科學發展期刊 (442), 34-37,2009.
[9]羅紹松,「專利技術定位與策略分析模式之研究-以預鑄工法為例」. PhD Thesis,2008.
[10]林文耀, 林穎廷, 吳彥青, 周詩函, 王君瑋,「雲端分散式爬蟲之索引-以專利局公告資料為例」,2015.
[11]Liao, Hsien-Jyh, et al. "論搜尋引擎以程式在網路上自動抓取資料時可能面臨之法律問題及其解決之道." 圖書館學與資訊科學 33.1,(2007).
[12]「大量專利類別自動分類演算法研究」; An automatic classification algorithm for a large number of patent categorization. 國立中央大學.PhD Thesis,2013.
[13]Schmookler J., “Invention and Economics Growth”, Harvard Univ. Press. Cambridge, MA, 1966.
[14]Zhong, Shi-ting. A Micro-blog Spammer Detection Framework Based on Mining User-Generated Context and Behavior. Diss. Taipei: National Taiwan Univ. of Science and Technology, 2011.
[15]N. Kushmerick, “Wrapper Induction: Efficiency and Expressiveness,” Artificial Intelligence, vol. 118, no. 1-2, pp. 15-68, 2000.
[16]C.-N Hsu and M-T Dung, “Generating Finite-State Transducers for Semi-Structured Data Extraction from the Web,” Information Systems, vol. 23,no. 8,pp. 521-538,1998
[17]I. Muslea, S. Minton, and C.A. Knoblock, “Hierarchical Wrapper Induction for Semi-Structured Information Sources,” Autonomous Agents and Multi-Agent Systems, vol. 4, no. 1-2, pp. 93-114, 2001.
[18]A. Sahuguet and F. Azavant, “Building Intelligent Web Applications Using Lightweight Wrappers,” Data and Knowledge Eng.,vol. 36, no. 3, pp. 283-316, 2001.
[19]L. Liu, C. Pu, and W. Han, “XWRAP: An XML-Enabled Wrapper Construction System for Web Information Sources,” Proc. Int’l Conf. Data Eng. (ICDE), pp. 611-621, 2000.
[20]D. Buttler, L. Liu, and C. Pu, “A Fully Automated Object Extraction System for the World Wide Web,” Proc. Int’l Conf. Distributed Computing Systems (ICDCS), pp. 361-370, 2001.
[21]V. Crescenzi, G. Mecca, and P. Merialdo, “RoadRunner: Towards Automatic Data Extraction from Large Web Sites,” Proc. Int’l Conf. Very Large Data Bases (VLDB), pp. 109-118, 2001.
[22]C.-H. Chang, C.-N. Hsu, and S.-C. Lui, “Automatic Information Extraction from Semi-Structured Web Pages by Pattern Discovery,” Decision Support Systems, vol. 35, no. 1, pp. 129-147, 2003.
[23]Hsu, Chen-Li, and Yuan-Chen Liu. "Association rule-based immediately dynamic demand matching search system." Computers in Education, 2002. Proceedings. International Conference on. IEEE, 2002.
[24]Brandman, O., Cho, J., Garcia-Molina, H., & Shivakumar, S. (2000). Crawler-friendly web servers. Performance and Architecture of Web Servers (PAWS) 2000.

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top