跳到主要內容

臺灣博碩士論文加值系統

(44.222.218.145) 您好!臺灣時間:2024/03/02 10:37
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:許孟淵
研究生(外文):Meng-yuan Hsu
論文名稱:以本體論為基礎之新聞事件檢索與瀏覽
論文名稱(外文):Event-based News Retrieval and View on Ontology Theory
指導教授:黃純敏黃純敏引用關係
指導教授(外文):Chuen-min Huang
學位類別:碩士
校院名稱:國立雲林科技大學
系所名稱:資訊管理系碩士班
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2006
畢業學年度:94
語文別:中文
論文頁數:70
中文關鍵詞:本體論改良式新聞檢索事件合併新聞多文件摘要事件追踪主題地圖事件偵測
外文關鍵詞:Enhanced News RetrievalEvent MergenceMulti-Document SummarizationEvent TrackingEvent DetectionTopic MapsOntology
相關次數:
  • 被引用被引用:24
  • 點閱點閱:572
  • 評分評分:
  • 下載下載:105
  • 收藏至我的研究室書目清單書目收藏:6
當前電子新聞的瀏覽,存有以下缺點:(1)新聞文件的瀏覽缺少以事件觀點來加以呈現 (2)電子新聞專輯的內容不包括新聞多文件摘要(Multi-Document Summarization) (3)欠缺社會大眾與網友對於該新聞的評論與看法。當讀者欲全盤掌握新聞內容事實時,須額外找尋數個新聞網站來比較整理,以得到特定新聞事件全貌;此外新聞報導具備前因後果的特性(如白米炸彈客事件到後續處理),以現今新聞入口網站所提供的瀏覽功能而言,並無法滿足讀者的需求。

本研究主要藉由本體論(Ontology) 理論,提出適性模型來處理電子新聞,提供給讀者更易了解新聞事件發展始末的新聞呈現方式。研究中首先利用事件偵測(Event Detection)與追踪(Event Tracking)之群聚技術,產生新聞事件群集;之後運用自動建構出的新聞本體論及應用到主題地圖(Topic Map)理論的主題地圖索引萃取模型,針對單一事件找出其中蘊含的人、事、時、地、物等主要概念,形成事件中的主要議題及其關聯,並以圖解方式的主題索引地圖來呈現事件中所涵蓋之議題和關聯。本研究另一重點,以建構出的新聞本體論為基礎,找出概念間連結,針對新聞內文中重要字詞加權,擷取出新聞多文件摘要;另外利用新聞本體論結合事件合併演算法,可將相似新聞事件群集做合併處理,便於讀者瀏覽相關新聞事件發展;最後,新聞本體論的重要概念,會被擷取並做為本體論分類概念檢索之用,可讓讀者瀏覽感興趣的新聞人、事、時、地、物概念,節省讀者寶貴閱讀時間,快速找到新聞事件的重點!本研究將上述技術應用到新聞檢索與瀏覽(News Retrieval and View)的目的,是希冀讓讀者在閱讀電子新聞時,能夠了解到新聞事件發展的始末,以及得到更加精確的資訊檢索結果。

本研究之系統評估採公開發佈方式進行系統測試,評估時程為期五天,共回收72份問卷。評估結果顯示,本研究確實能增進新聞事件的呈現內容、改善主題地圖呈現之品質,每項系統評估指標都有七成左右受測者能滿意地接受。研究中所提及的新聞事件檢索與瀏覽機制,得到了多數受測者認可。
There is some drawback on viewing on-line news reports: (1) the view on on-line news reports is short of the display according to news events point. (2) The contents of the on-line news reports website don’t include multi-document summarization. (3) The news reports contents are deficient in the commentary and standpoints of the people in the society and network users’. When readers want to grasp overall the ins and outs of the news reports, they must visit several news websites to compare the news contents. The news websites are unable to satisfy with the requirements of readers nowadays.

An appropriate model on the theory of Ontology is adopted in this study to process the on-line news reports. Readers can get a more readable and reasonable presentation of the news reports and events. In the first, this study applies Topic Detection and Tracking (TDT) technique to group on-line news reports into different clusters based on news event. The news ontology and TMs-extract System based on Ontology then will be applied and find the main concepts including person, thing, time, place and object for solo news event. After that, the major topics and relations of the news event will be showed via the topic index map. Additional key is to retrieve multi-document summarization based on the news ontology. Separately, the similar news event clusters will be merged via the news ontology, so readers can view the development of news event conveniently. In the end, the important concepts of the news ontology will be retrieved to form the search function, and let readers can view the news reports in accordance with the interested concepts. The objective in this study is to let readers can understand the cause and effect of the news event more quickly and correctly.

In evaluating phase of this study, a web-based user interface is published for evaluating during five days. The number of the returned Questionnaires is 72. The evaluating result is presented in a high satisfaction. And the purpose of this study is verified and got by this evaluation.
中文摘要 iii
Abstract i
誌謝 ii
一、 緒論 1
1.1 研究背景及動機 1
1.2 研究目的 2
1.3 研究範圍與限制 2
1.4 研究貢獻 3
1.5 名詞解釋 3
1.6 論文架構 4
二、 文獻探討 5
2.1 新聞文件蒐集器(News Document Crawler) 5
2.2 字詞處理技術 6
2.2.1 中文斷詞處理 6
2.2.2 字詞權重計算 7
2.2.3詞性標注之未知詞處理技術 7
2.2.4人名辨識 7
2.3 向量空間模型 8
2.4 文件分群方法 9
2.5 新聞事件偵測與追踪 9
2.5.1 斷句斷詞子系統 11
2.5.2 字詞權重計算子系統 12
2.5.3 事件偵測子系統 12
2.5.4 事件追踪子系統 14
2.6 語意網(Semantic Web) 15
2.7 本體論(Ontology)概論 16
2.7.1 本體論觀點及定義 16
2.7.1.1 字彙(Vocabulary) 16
2.7.1.2 概念(Concept) 16
2.7.1.3 屬性(Attribute) 17
2.7.1.4 關係(Relation) 17
2.8 自動建構Ontology 18
2.9 新聞多文件摘要 19
2.10 主題地圖(Topic Map) 21
2.11 主題地圖索引合併系統(TMs-merge System) 23
2.12 中文句結構樹 24
2.13 資訊檢索 24
三、 研究架構 25
3.1 系統架構 25
3.2 事件偵測與追踪系統 28
3.2.1 人名辨識子系統 29
3.3 新聞本體論自動建構系統 31
3.3.1 物件導向本體論(Object Oriented Ontology)架構 31
3.3.2 新聞本體論建構理念與步驟 36
3.4 改良式多文件摘要系統 37
3.5 改良式主題地圖索引萃取系統 40
3.5.1 中文詞性結構句剖析子系統 40
3.5.2 關聯法則及詞性加權運算子系統 41
3.5.3 T-A-T關聯分數計算子系統 42
3.5.4 新聞本體論建構 43
3.5.5 主題地圖索引合併系統(TMs-merge System) 44
3.6 新聞事件合併處理系統 45
3.7 新聞事件關鍵字暨重要分類概念檢索詞擷取系統 46
3.8 改良式新聞網頁檢索與瀏覽介面 47
四、 系統實作與評估 48
4.1 系統開發 48
4.1.1 系統實作 48
4.1.2 開發環境與工具 48
4.1.3 系統功能和介面操作說明 49
4.2 系統評估 56
4.2.1 評估項目 57
4.2.2 評估資料回收與分析 58
五、 結論與未來研究方向 63
5.1 研究成果 63
5.2 未來研究方向 64
六、 參考文獻 66
附錄一 中研院平衡語料庫詞類標記集 69
附錄二 系統評估問卷 70
Allan, J., Carbonell, J., Doddington, G., Yamron, J., & Yang, Y. (1998). Topic detecion and tracking pilot study final report. Paper presented at the Broadcast News Transcription and Understanding Workshop.
Berners-Lee, T., & Fischetti, M. (1999). Weaving the web:the original design and ultimate destiny of the world wide web by its inventor (1st edition ed.). San Francisco: Harper Business.
Chang, J. S., Chen, S. D., Ker, S. J., Chen, Y., & Liu, J. S. (1994, June 1994). A multiple-corpus approach to recognition of proper names in chinese texts. Paper presented at the Computer Processing of Chinese and Oriental Languages.
Chen, F. Y., Tsai, P. F., Chen, K. J., & Huang, C. R. (1999). Sinica treebank, Computational Linguistics and Chinses Language Processing.
Chen, H., Ding, H., Tsai, Y. W., S.C., & Bian, G. W. (1998a). Description of the ntu system used for met2. Paper presented at the Proceedings of Message Understanding Conference.
Chen, H. H., Ding, Y. W., & Tsai, S. C. (1998b). Named entity extraction for information retrieval. Computer Processing of Oriental Languages, 24, 75-85.
Chen, K.-J., & Liu, S.-H. (1992). Word identification for mandarin chinese sentences. Paper presented at the International Conference On Computational Linguistics Proceedings of the 14th conference on Computational linguistics.
Chen, K. J., & Bai, M. H. (1983). Unknown word detection for chinese by a corpus-based learning method. International Journal of Computational linguistics and Chinese Language Processing, 3(1), 27-44.
Chen, K. J., & Liu., S. H. (1992). Word identification for mandarin chinese senences. Paper presented at the COLING.
Chen, K. J., & Ma., W. Y. (2002). Unknown word extraction for chinese documents. Paper presented at the COLING.
Goldstein, J., Kantrowitz, M., Mittal, V., & Carbonell, J. (1999). Summarizing text documents:sentence selection and evaluation metrics. ACM SIGIR, 121-128.
Han, J., & Kamber, M. (2001). Data mining: Concepts and techniques.
Khan, L., & Luo, F. (2002). Ontology construction for information selection. Paper presented at the 14th IEEE International Conference on Tools with Artificial Intelligence(ICTAI''02), Washiongton DC.
Lee, C. S., Liao, J. X., & Kuo, Y. H. (2002). A semantic-based concept clustering mechanism for chinese news ontology construction. Paper presented at the International Computer Symposium, Taiwan.
Maedche, A., & Staab, S. (2000). Discovering conceptual relations from text. Paper presented at the Proceedings of European Conference Artificial Intelligence(ECAI-00), IOS Press, Amsterdam.
Miller, D., Schwartz, R., Weischedel, R., & Stone, R. (1999). Named entity extraction for broadcast news. Paper presented at the Proceedings of DARPA Broadcast News Workshop.
Radev, D. R., & McKeown, K. R. (1998a). Generating natural language summaries from multiple on-line source. Computational Linguistics & Chinese Language Procsssing, 24, 469-500.
Radev, D. R., & McKeown, K. R. (1998b). Generating natural language summaries from multiple on-line source. Paper presented at the Computational Linguistics.
Salton, G. (1988). Automatic text processing. Paper presented at the Addison-Wesley Longman Publishing Conference.
Salton, G., & McGill, M. J. (1983). Introduction o modern information retrieval. New York: McGrw-Hill Co.
Sun, J., Gao, J. F., Zhang, L., Zhou, M., & Huang, C. (2002). Chinese named entity identification using class-based language model. Paper presented at the Proceeding of the International Conference on Computational Linguistics.
Tan, K.-W., Han, H., & Elmasri, R. (2000). Web data cleasing and preparation for ontology extraction using wordnet. Paper presented at the First International Conference on Web Information Systems Engineering (WISE''00).
Wei, J., Bressan, S., & Ooi, B. C. (2000). Mining term association rules for automatic global query expansion:methodology and preliminary results. Paper presented at the Proceedings of the First International Conference on Web Information Systems Engineering(WISE''00).
Williams, A. B., & C., T. (2000). An instance-based approach for identifying candidate ontology relations within a multi-agent system. Paper presented at the Proceedings of 14th European Conference on Artificial Intelligence, Berlin, Germany.
Wu, Y., Liu, J. N. K., & Wang, K. (1999). An approach towards english automatic abstraction. Computational Linguistics & Chinese Language Procsssing, 4, 85-101.
Yang, Y., Ault, T., Pierce, T., & Lattimer, W. C. (2000). Improing text categorization methods for event tracking, Annual International ACM SIGIR Conference on Research and Development in Informational Retrieval.
Yang, Y., Carbonell, J., Brown, R., Pierce, T., Archibald, B. T., & Liu, X. (1999). Learning approaches for detecting and tracking news events. IEEE Intelligen System, 14(4), 32-43.
吳家威, & 劉昭麟. (2002). 應用本體論設計與建置摘要系統, 民生電子研討會論文集. 台灣新竹.
巫啟台. (2002). 文件之關聯資訊萃取及其概念圖自動建構. 國立成功大學.
李振昌. (1994). 中文文本專有名詞辨識問題之研究. 台灣.
李振昌, 李御璽, & 陳信希. (1994). 中文文本人名辨識問題之研究. Paper presented at the Proceedings of ROCLING VII.
林筱晴, & 陳信希. (2004). 語料庫統計值與全球資訊網統計值之比較:以中文斷詞應用為例. Paper presented at the The Association for Computational Linguistics and Chinese Language Processing.
高政汗. (2000). 具自動化建構ontology能力之個人化資訊分類系統. 國立成功大學.
許正欣. (2004). 語意網上自動化建構本體論之研究. 天主教輔仁大學.
許登傑. (2005a). 應用topic maps理論建置知識索引於線上新聞事件檢索研究. 國立雲林科技大學.
許登傑. (2005b). 應用主題地圖理論建置知識索引研究.
郭家良. (2004). 新聞事件群聚及摘要檢索研究. 國立雲林科技大學.
陳雅絹. (2003). 基於ontology之模糊代理人於中文新聞文件摘要技術之研究. 私立長榮大學.
曾新穆, & 李建興. (2001). 文件自動分類技術研究: 資策會.
黃純敏, & 吳郁瑩. (1999). 網路文件自動摘要. Paper presented at the 台灣區網際網路研討會TANET99, 國立中山大學承辦.
黃純敏, 郭家良, & 楊顓溥. (2004). 新聞知識管理系統之建構與評估. Paper presented at the 第十屆資訊管理暨實務研討會.
黃純敏, 戴尚斈, & 郭家良. (2003). 新聞事件自動偵測與追蹤及摘要系統實作與評估. Paper presented at the 全國計算機會議.
黃聖傑, & 陳信希. (1999). 多文件自動摘要方法研究. 國立台灣大學, 台北.
黃燕萍. (1999). 中文社會新聞文件資訊擷取. 國立雲林科技大學.
楊昌樺, & 陳信希. (2004). 以語法分析為輔建立新聞名詞知識庫. Paper presented at the The Association for Computational Linguistics and Chinese Language Processing.
葉鎮源. (2002). 文件自動化摘要方法之研究及其在中文文件的應用. 國立交通大學, 新竹.
廖嘉新. (2002). 實體論自動建構技術與其在資訊分類上之應用. 國立成功大學.
歐陽彥正. (2005). 佛學知識庫之系統建構. from http://www.chibs.edu.tw/exchange/CONFERENCE/4cicob/C.L.%20SUMMARY/INFORMATION/ou_yong.htm
戴尚斈. (2003). 運用事件偵測與追蹤技術於中文多文件摘要之研究. 國立雲林科技大學.
蘇諼. (1996). 自動摘要法. 中國圖書館學會會報第56期, 頁41-47.
顧皓光, & 莊裕澤. (1997). 網路文件自動分類, 全國計算機會議論文集.
龔俊杰. (2000). 具物件導向式ontology自動建構能力之個人化xml資訊服務系統. 國立成功大學.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top