(3.236.214.19) 您好!臺灣時間:2021/05/06 20:47
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

: 
twitterline
研究生:許慶成
研究生(外文):Ching-Cheng Hsu
論文名稱:關鍵詞與相關詞研究
論文名稱(外文):A Study of Keyterms and Related Terms
指導教授:吳昇吳昇引用關係
指導教授(外文):Sun Wu
口試委員:吳毅成李新林
口試委員(外文):I-Chen WuSingLing Lee
口試日期:2011-07-29
學位類別:碩士
校院名稱:國立中正大學
系所名稱:資訊工程研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2011
畢業學年度:99
語文別:中文
論文頁數:37
中文關鍵詞:關鍵詞相關詞
外文關鍵詞:Key-termsRelative terms
相關次數:
  • 被引用被引用:1
  • 點閱點閱:394
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:28
  • 收藏至我的研究室書目清單書目收藏:0
本篇論文主要研究關鍵詞的擷取與相關詞的產生。在關鍵詞部分我們不只對一篇單一文章擷取關鍵詞還利用大型新聞語料庫進行類別關鍵詞的分析。我們實作一個爬蟲程式來蒐集網路上的字典。接著我們使用長詞優先法與字典比較法幫助我們做斷詞,最後我們利用TFIDF做關鍵字截取的動作。相關詞部分我們用關鍵詞擷取技術取出語料庫裡每篇文章的關鍵詞,然後利用詞彙之間相互關係的統計分析來產生每個關鍵詞的相關詞。
In this thesis, we developed tools to do key term extraction and related term generation. For the key term extraction, we not only developed tools to extract key terms from an article, we also developed tools to generate a set of key terms for a particular category of news articles. First, we developed a crawler to crawl dictionaries in the internet, then, we use the dictionary with longest-matching strategy to segment the article into terms. And then, we use TF*IDF technique to identify the key terms. For the related term generation, we first extracted key terms from every article in the corpus, and then analyzed the relation between key terms through mutual information statistical analysis to find the related terms for every key term.
Abstract i
摘要 ii
致謝 iii
Table of Contents iv
圖表目錄 v
chapter1. Introduction 1
1.1概論 1
1.2資料探勘與自然語言處理 1
1.3相關研究 2
1.4論文貢獻 2
1.5本文架構 3
Chapter2. Background Knowledge 4
2.1中文斷詞 4
2.2關鍵字截取 5
2.3 libcURL 5
2.4 Regular Expression 6
2.5 RSort 6
2.6 N-gram 6
2.7長詞優先法 7
2.8Mutual Information 7
Chapter3. Related Works 9
3.1中研院詞庫小組 9
3.2Yahoo 斷章取義 9
3.3相關 Paper 10
Chpater4. Design & Implementation 13
4.1抓取新聞資料 14
4.2過濾雜訊 14
4.3收集字典 15
4.3 Keyterms identification 17
4.4 關鍵詞截取 21
4.5 類別詞 24
4.5.1 TFIDF 25
4.6 相關詞分析 26
Chapter5. Conclusion and Future work 30
5.1 Conclusion 30
5.2Futual Work 30
Chapter6. Reference 32

[1]Wikipedia http://zh.wikipedia.org/wiki/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98
[2]中研院資訊所與語言所詞庫小組http://ckipsvr.iis.sinica.edu.tw/
[3]關鍵詞自動截取技術與相關詞回饋 中國圖書館學會會報 59 期 曾元顯
[4]台灣雅虎「斷章取義」API http://tw.developer.yahoo.com/cas/
[5]M. Grineva, M. Grinev, and D. Lizorkin. 2009. Extracting key terms from noisy and multi-theme documents. In Proceedings of the 18th international conference on World wide web, pages 661–670. ACM New York, NY, USA.
[6]中文詞典產生以及詞典管理及中文斷詞(Dictionary Generation,Dictionary Management,and Word Segmentation),黃仁賢
[7]詞彙知識的探勘與編輯(Term-base Knowledge Mining and Editing),雷均皓

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
系統版面圖檔 系統版面圖檔