跳到主要內容

臺灣博碩士論文加值系統

(54.92.164.9) 您好!臺灣時間:2022/01/23 04:18
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:余俊緯
研究生(外文):Jun-Wei Yu
論文名稱:利用網頁挖掘技術擴充企業資料倉儲的外部資訊
論文名稱(外文):Enriching Enterprise Data Warehouse by Web Mining Technology
指導教授:楊千楊千引用關係
指導教授(外文):Chyan Yang
學位類別:碩士
校院名稱:國立交通大學
系所名稱:管理科學系
學門:商業及管理學門
學類:企業管理學類
論文種類:學術論文
論文出版年:2002
畢業學年度:90
語文別:中文
論文頁數:60
中文關鍵詞:網頁挖掘文件倉儲資料倉儲
外文關鍵詞:Web MiningDocument WarehouseData Warehouse
相關次數:
  • 被引用被引用:3
  • 點閱點閱:233
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:1
資料倉儲系統和線上分析處理(OLAP)是用來支援決策的兩項重要技術,其目的在於讓知識工作者(如:管理者、分析師)能在短時間內做出有效的決策,有愈來愈多的企業都已經紛紛引入這項資訊技術來提升企業的決策品質和競爭力。儘管如此,資料倉儲仍有些天生的限制,那就是資料倉儲只能儲存數字型態的資料,而且這些資料大都是源自企業內部的作業性資料(Operational Data)。換句話說,資料倉儲只涵蓋結構化之資料,對於其他半結構或非結構化的資料則非常匱乏。雖然我們可以利用線上分析處理技術來將資料倉儲中的資料做一些複雜的分析處理以做為決策分析的依據,但光靠資料倉儲中的數字資料通常是不夠的,知識工作者常常會需要一些以其他型態存在的相關外部資訊來做為決策的參考。針對此一問題,本研究嘗試著運用網頁挖掘(Web Mining)之技術去挖掘出蘊含在網際網路中的一些重要網頁資訊,並將這些挖掘回來的資訊放置入文件倉儲(Document Warehouse)中儲存,目的在於希望藉由結合文件倉儲中的文字資訊與資料倉儲中的數字資料能夠提供知識工作者一些合適的外部資訊,以彌補資料倉儲只能提供數字資料的缺失,並進一步提升企業的商業智慧。此外,本研究亦提出一個WMIS的雛形系統,它是一個結合了網頁文字挖掘(Web Text Mining)和多維度文件分析(Multi-dimension document analysis)的代理系統,透過它能夠幫助使用者有效地從HTML文件中挖掘出有利用價值的資訊。
Data warehousing and OLAP are two of the most significant technologies for decision support, aimed at enabling the knowledge workers such as executives, managers and analysts to make better and faster decisions. There are more and more companies considering adding data warehouse technology to enhance decision quality and business core competence. In spite of this, the data warehouse still has some innate limitations: it contains only numeric data and most of them are derived from the operational data inside the enterprise. Although we can utilize the OLAP technology to perform complex analysis over the information stored in the data warehouse, it is not enough for knowledge workers to analyze or make decisions by only the numeric data stored in the data warehouse. They usually need some external information for decision support. In this study, we utilized the web mining technology to mine some relevant and valuable web contents from the Internet and put these contents into the document warehouse. By combining the textual information inside the document warehouse and the numeric data from the data warehouse, we can provide competitive advantages over those who work with just the numbers. In addition, WMIS, a prototype of web information mining system, was proposed in this study. WMIS is an agent system which combines web text mining and multi-dimension document analysis to help users in mining HTML documents on the web effectively.
一、 緒論 1
1.1 背景與動機 1
1.2 研究目的 2
1.3 研究限制與範圍 2
1.4 研究流程 3
1.5 論文架構 4
二、 文獻探討 5
2.1 資料倉儲簡介 5
2.1.1 資料倉儲的定義 5
2.1.2 資料倉儲的種類 8
2.1.3 線上分析處理(On-line Analysis Process;OLAP) 12
2.2 搜尋引擎 14
2.2.1 搜尋引擎的索引技術 14
2.2.2 搜尋引擎的種類 15
2.2.3 全球主要搜尋引擎的介紹與比較 16
2.3 文件倉儲(Document Warehouse) 19
2.3.1 文件倉儲的定義 19
2.3.2 文件倉儲的功能 21
2.3.3 文件倉儲的建置 21
2.4 代理程式(Agents) 22
2.4.1 代理程式的起源 22
2.4.2 代理程式的定義與特性 22
2.4.3 代理程式的應用 25
2.5 網頁挖掘(Web Mining) 25
2.6 資訊擷取(Information Retrieval) 27
2.6.1 資訊擷取的定義 27
2.6.2 資訊擷取與資料擷取(Data Retrieval) 28
2.6.3 資訊擷取模型(IR Model) 29
2.7 中文斷詞 30
2.7.1 中文斷詞的問題 30
2.7.2 中文斷詞方法 31
三、 系統設計 33
3.1 研究方法與架構 33
3.2 系統雛形架構 34
3.2.1 Web資源挖掘使用者介面子系統 38
3.2.2 文件前置處理子系統 38
3.2.3 網頁文件擷取代理程式子系統 39
3.2.4 文件相關度分析子系統 40
3.2.5 使用者結果查詢介面子系統 41
3.2.6 多維度文件分析處理子系統 41
3.3 系統評估測試方法 42
四、 系統實作與性能評估 43
4.1 系統發展平台 43
4.2 搜尋引擎介面 43
4.3 系統首頁 45
4.3.1 Web資源挖掘使用者介面 45
4.3.2 使用者結果查詢介面 47
4.4 網頁挖掘代理程式 51
4.4.1 文件前置處理子系統 51
4.4.2 網頁文件擷取子系統 53
4.4.3 文件自動摘要子系統 53
4.4.4 文件相關度分析子系統 54
4.4.5 多維度文件分析處理子系統 55
4.5 學習代理程式 55
4.6 中文斷詞測試 55
五、 結論 59
5.1 研究結果與貢獻 59
5.2 後續研究建議 59
5.2.1 突破語言限制 59
5.2.2 結合非結構化之資訊 59
5.2.3 運用「經驗法則(Heuristic Rule)」提升中文斷詞績效 60
5.2.4 查詢擴展(Query Expansion) 60
5.2.5 自然語言處理 60
英文文獻
【1】 Inmon, W.H., Building the Data Warehouse, John Wiley & Sons, Inc., 1993.
【2】 Don Meyer and Casey Cannon, Building a Better Data Warehouse, Prentice Hall PTR, 1998.
【3】 Inmon, W.H., Imhoof, C. and Battas, G., Building the Operational Data Store, John Wiley & Sons, Inc., 1996.
【4】 Alan Benander, Barbara Benander, Adam Fadlalla, and Gregory James, “Data Warehouse Administration and Management”, Information Systems Management, WINTER 2000.
【5】 S. Lawrence and L. Giles, “Accessibility and distribution of information on the web”, Nature, 400, July 1999.
【6】 D. Green, “The Evolution of Web Searching”, Online Information Review, volume 24, number 2, 2000.
【7】 J. Yi and N. Sundaresan, “Metadata Based Web Mining for Relevance”, IEEE 2000.
【8】 S. Lawrence and C.L. Giles, “Accessibility of Information on the Web”, Nature, 8 July 1999.
【9】 L. Foner, “Agents and Appropriation”, http://foner.www.media.mit.edu/people/foner/julia/julia.html
【10】 David Green, “Search Insider”, Information World Review, 1999 February.
【11】 Pattie Maes, “Agents that Reduce Work and Information Overload”, Communications of the ACM, Vol.37, No.7, pp. 31- 40, 146 ACM Press, July 1994.
【12】 Etzioni, O., and Weld, D. S., "Intelligent Agents on the Internet: Fact, Fiction, and Forecast," IEEE Expert, August 1995, pp.44-49.
【13】 San, M., “Intelligent agents on the Internet and.Web,” TENCON ’98. IEEE Region 10 International Conference on Global Connectivity in Engery, Computer, Communication and Control, Vol.1, pp.97-102.
【14】 J. Y. Nic and M. Briscobois, “On Chinese Text Retrieval”, Proceeding of SIGIR, 1996.
【15】 G. C. Li, K. Y. Liu and Y. K. Zhang, “Identifying Chinese Word and Processing Different Meaning Structures”, Journal of Chinese Information Processing, Vol. 2, pp. 45-53, 1988.
【16】 C. L. Yeh and H. J. Lee, “Rule-based Word Identification for Mandarin Chinese Sentences- A Unification Approach”, Computer Processing of Chinese and Oriental Languages, Vol. 5, No. 2, pp. 97-118, 1991.
【17】 G. Salton, A. Wong and C. S. Yang, “A Vector Space Model for Automatic Indexing”, Communications of the ACM, Vol. 18, pp. 613-620, 1975.
【18】 E. F. Codd, S.B. Codd and C.T. Salley, “Providing OLAP to User-analysts: an IT mandate”, Technical report, 1993.
【19】 Anindya Datta and Helen Thomas, “The cube data model: a conceptual model and algebra for online analytical processing in data warehouses”, Decision Support Systems, Vol.27, pp 289-301, 1999.
【20】 Richard D. Hackathorn, Web Farming for the Data Warehouse, Morgan Kaufmann Publishers, Inc. 1999.
【21】 G. G. Chowdhury, Introduction to Modern Information Retrieval, Library Association Publishing, London, 1999.
【22】 R. Baeza-Yates and B. Ribeiro-Neto, Modern Information Retrieval, Addison Wesley, 1999.
【23】 F. W. Lancaster, Information Retrieval Systems: characteristics, testing, and evaluation, 2nd edition, New York, John Wiley, 1979.
【24】 Dan Sullivan, Document Warehousing and Text Mining, John Wiley, 2001.
中文文獻
【一】 洪哲倫,「資料挖掘於網路上的應用」,網際先鋒,116-119頁,2001年一月。
【二】 陳永德,「中文斷詞中長詞優先、詞頻比對與前詞優先規則之使用」,國立台灣學心理學研究所博士論文,民國86年。
【三】 王良志、貝子勝、黎偉權、黃麗卿,「以剖析為導向的中文斷詞法」,電子發展月刊,163期,民國80年。
【四】 梅家駒等,同義詞詞林,上海辭書出版社,上海,1982。
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top