跳到主要內容

臺灣博碩士論文加值系統

(216.73.216.172) 您好!臺灣時間:2025/09/10 07:14
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:曾郁閎
研究生(外文):ZENG,YU-HONG
論文名稱:利用搜尋引擎與網路百科全書輔助中文關鍵字自動擷取之研究
論文名稱(外文):A Study on Automatic Chinese Keyword Extraction Based on Search Engines and Internet Encyclopedias
指導教授:黃錦法黃錦法引用關係
指導教授(外文):HUANG,CHIN-FA
口試委員:陳重臣孫培然
口試委員(外文):CHEN,JHONG-CHENSUN,PEI-RAN
口試日期:2015-06-16
學位類別:碩士
校院名稱:國立雲林科技大學
系所名稱:資訊管理系
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2015
畢業學年度:103
語文別:中文
論文頁數:42
中文關鍵詞:關鍵字擷取字詞庫搜尋引擎網路百科全書
外文關鍵詞:Keyword ExtractionKeyword LexiconSearch EngineInternet Encyclopedia
相關次數:
  • 被引用被引用:3
  • 點閱點閱:282
  • 評分評分:
  • 下載下載:15
  • 收藏至我的研究室書目清單書目收藏:0
文件管理乃是擷取「文件重要資訊」以進行自動分類或管理,而在擷取「文件重要資訊」之相關研究中,最具代表性之文件特徵即為「關鍵字」。關鍵字擷取方法大致區分為「詞庫法」、「統計法」以及「規則法」,其中「詞庫法」是最為有效率、正確性最高的方法,然而詞庫法有著需要耗費大量人力事先建立或維護字詞庫的缺點;統計法不需要字詞庫而且不受語言的限制,但是正確率不及詞庫法;規則法可以透過自然語言處理技術的文法剖析程式,剖析出輸入資料中的字詞,但大部份的剖析程式,需要藉助已經建立好的字詞庫,因此與詞庫法有著一樣的缺點。
本研究提出一套以CKIP斷字斷詞為基礎的中文關鍵字擷取系統,此系統在中文處理技術中,利用詞性合併及字詞自動合併(搜尋引擎與網路百科全書輔助)2種方法來做字詞合併,透過建立一個可以自動更新的字詞庫,改善現有關鍵字擷取技術中人工建立維護字詞庫的缺點。實驗結果顯示同時使用CKIP斷字斷詞、詞性合併、搜尋引擎以及網路百科全書輔助的情況下擷取關鍵字的效能最高,並且系統在資料量提高的情況下對關鍵字擷取的效能無顯著的影響。

關鍵字: 關鍵字擷取、字詞庫、搜尋引擎、網路百科全書

Keywords are a subset of words or phrases from a document those can describe the meaning of the document. The major methods for Chinese keyword extraction are keyword lexicons approaches, statistics approaches, linguistics approaches, etc. Among these methods, keyword lexicons approaches make keyword extraction high precision and high efficient, but building keyword lexicons spends a lot of time and the maintenance of keyword lexicons is manual.
This research presents a Chinese keyword extraction system based on CKIP Chinese word segmentation system. This system provides the recombination of words by using part of speech (POS) combination and automatic words combination via search engine (Google Search) and internet encyclopedia (Wikipedia). This system also focuses on building a keyword lexicon that can update its keywords automatically. The system can improve the disadvantages of keyword lexicons approaches. The results of experiments show that using the CKIP Chinese word segmentation system, POS combination and automatic words combination gains higher precision and the number of documents does not affect the performance of the keyword extraction system.

Keywords: Keyword Extraction, Keyword Lexicon, Search Engine, Internet Encyclopedia
中文摘要 i
ABSTRACT ii
目錄 iii
表目錄 v
圖目錄 vi
第一章 緒論 1
1.1研究背景與動機 1
1.2研究目的 2
1.3研究限制 2
1.4研究架構 3
第二章 文獻探討 4
2.1關鍵字 4
2.1.1關鍵字擷取方法 4
2.1.2 中文斷詞系統 5
2.1.3字詞權重計算 7
2.2搜尋引擎 8
2.3網路百科全書 11
第三章 研究方法 14
3.1 系統架構 14
3.1.1 符號代換模組 16
3.1.2 斷字斷詞處理模組 16
3.1.3 詞性合併模組 16
3.1.4字詞自動合併(搜尋引擎與網路百科全書輔助)模組 17
3.1.5 停用詞刪除模組 20
3.1.6 同義字過濾模組 22
3.1.7 字詞權重計算模組 22
3.1.8 挑選關鍵字模組 22
第四章 實驗與評估 23
4.1 實驗資料 23
4.2 評估指標 23
4.2.1 Google搜尋結果評估指標 23
4.2.2關鍵字擷取評估指標 24
4.3 實驗結果與評估 25
4.3.1 Google相關參數設定 25
4.3.2關鍵字擷取效率評估 28
第五章 結論 32
參考文獻 33

[1]howstuffworks,2011,How Internet Search Engines Work。
取自:
http://computer.howstuffworks.com/internet/basics/search-engine1.htm

[2]StatCounter,1999,StatCounter Global Stats - Browser, OS, Search Engine including Mobile Market Share
取自:
http://gs.statcounter.com/#browser-ww-monthly-201210-201310

[3]Wikipedia,2001,維基百科
取自:
http://zh.wikipedia.org/wiki/%E7%BB%B4%E5%9F%BA%E7%99%BE%E7%A7%91

[4]互動百科,2005,互動百科
取自:
http://www.baike.com/

[5]百度百科,2006,百度百科
取自:
http://baike.baidu.com/

[6]Nature,2005,Special Report Internet encyclopaedias go head to head
取自:
http://www.nature.com/nature/journal/v438/n7070/full/438900a.html

[7]Time,2007,Look Who’s Using Wikipedia
取自:
http://content.time.com/time/business/article/0,8599,1595184,00.html

[8]曾元顯,1997,關鍵詞自動擷取
取自:
http://lins.fju.edu.tw/~tseng/ResearchResults/keyword.htm

[9]曾元顯,1997,關鍵字自動擷取技術與相關詞回饋。中國圖書館學會會報,59,59-64
[10]National Digital Archives Program,2004,中文斷詞系統
取自:
http://ckipsvr.iis.sinica.edu.tw/

[11]中文詞知識庫小組,1986,詞庫小組簡介
取自:
http://godel.iis.sinica.edu.tw/CKIP/engversion/index.htm

[12]Stanford Word Segmenter,2006,The Stanford Natural Language Processing Group
取自:
http://nlp.stanford.edu/software/segmenter.shtml

[13]許正欣,2004,語意網上自動化建構本體論之研究,輔仁大學,碩士論文。

[14]K. Lang,1995,"NEWSWEEDER : Learning to Filter Netnews", presented at the Proceedings of ICML-95,12th International Conference on Machine Learning

[15]江志銘,2005,應用問答系統技術於電腦領域論壇檢索之研究,國立雲林科技大學,碩士論文。

[16]張日威,2014,應用LDA進行Plurk主題分類及使用者情緒分析,國立雲林科技大學,碩士論文。

[17]Spink, A., Jansen, B.J, Blakely, C. and Koshman, S.,2006,“A study of results overlap and uniqueness among major Web search engines”, Information Processing and Management (42:5),pp:1379-1391

[18]張甘青,2014,從使用者網路點閱習慣探討搜尋引擎最佳化,東海大學圖書館館訊新149期,頁39-54。

[19]Y. Sasaki,2007, "The Truth of F-measure", Teaching, Tutorial materials

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top