臺灣博碩士論文加值系統

English |FB 專頁 |Mobile

免費會員登入| 註冊

功能切換導覽列

(216.73.216.59) 您好！臺灣時間：2025/10/17 06:43

字體大小：

:::

詳目顯示

第 1 筆 / 共 1 筆

/1頁

論文基本資料
摘要
外文摘要
目次
參考文獻
電子全文
紙本論文
QR Code

本論文永久網址:

研究生:

曾郁閎

研究生(外文):

ZENG,YU-HONG

論文名稱:

利用搜尋引擎與網路百科全書輔助中文關鍵字自動擷取之研究

論文名稱(外文):

A Study on Automatic Chinese Keyword Extraction Based on Search Engines and Internet Encyclopedias

指導教授:

黃錦法

指導教授(外文):

HUANG,CHIN-FA

口試委員:

陳重臣、孫培然

口試委員(外文):

CHEN,JHONG-CHEN、SUN,PEI-RAN

口試日期:

2015-06-16

學位類別:

碩士

校院名稱:

國立雲林科技大學

系所名稱:

資訊管理系

學門:

電算機學門

學類:

電算機一般學類

論文種類:

學術論文

論文出版年:

2015

畢業學年度:

103

語文別:

中文

論文頁數:

中文關鍵詞:

關鍵字擷取、字詞庫、搜尋引擎、網路百科全書

外文關鍵詞:

Keyword Extraction、Keyword Lexicon、Search Engine、Internet Encyclopedia

相關次數:

被引用:3
點閱:283
評分:
下載:15
書目收藏:0

文件管理乃是擷取「文件重要資訊」以進行自動分類或管理，而在擷取「文件重要資訊」之相關研究中，最具代表性之文件特徵即為「關鍵字」。關鍵字擷取方法大致區分為「詞庫法」、「統計法」以及「規則法」，其中「詞庫法」是最為有效率、正確性最高的方法，然而詞庫法有著需要耗費大量人力事先建立或維護字詞庫的缺點；統計法不需要字詞庫而且不受語言的限制，但是正確率不及詞庫法；規則法可以透過自然語言處理技術的文法剖析程式，剖析出輸入資料中的字詞，但大部份的剖析程式，需要藉助已經建立好的字詞庫，因此與詞庫法有著一樣的缺點。
本研究提出一套以CKIP斷字斷詞為基礎的中文關鍵字擷取系統，此系統在中文處理技術中，利用詞性合併及字詞自動合併(搜尋引擎與網路百科全書輔助)2種方法來做字詞合併，透過建立一個可以自動更新的字詞庫，改善現有關鍵字擷取技術中人工建立維護字詞庫的缺點。實驗結果顯示同時使用CKIP斷字斷詞、詞性合併、搜尋引擎以及網路百科全書輔助的情況下擷取關鍵字的效能最高，並且系統在資料量提高的情況下對關鍵字擷取的效能無顯著的影響。

關鍵字: 關鍵字擷取、字詞庫、搜尋引擎、網路百科全書

Keywords are a subset of words or phrases from a document those can describe the meaning of the document. The major methods for Chinese keyword extraction are keyword lexicons approaches, statistics approaches, linguistics approaches, etc. Among these methods, keyword lexicons approaches make keyword extraction high precision and high efficient, but building keyword lexicons spends a lot of time and the maintenance of keyword lexicons is manual.
This research presents a Chinese keyword extraction system based on CKIP Chinese word segmentation system. This system provides the recombination of words by using part of speech (POS) combination and automatic words combination via search engine (Google Search) and internet encyclopedia (Wikipedia). This system also focuses on building a keyword lexicon that can update its keywords automatically. The system can improve the disadvantages of keyword lexicons approaches. The results of experiments show that using the CKIP Chinese word segmentation system, POS combination and automatic words combination gains higher precision and the number of documents does not affect the performance of the keyword extraction system.

Keywords: Keyword Extraction, Keyword Lexicon, Search Engine, Internet Encyclopedia

中文摘要 i
ABSTRACT ii
目錄 iii
表目錄 v
圖目錄 vi
第一章緒論 1
1.1研究背景與動機 1
1.2研究目的 2
1.3研究限制 2
1.4研究架構 3
第二章文獻探討 4
2.1關鍵字 4
2.1.1關鍵字擷取方法 4
2.1.2 中文斷詞系統 5
2.1.3字詞權重計算 7
2.2搜尋引擎 8
2.3網路百科全書 11
第三章研究方法 14
3.1 系統架構 14
3.1.1 符號代換模組 16
3.1.2 斷字斷詞處理模組 16
3.1.3 詞性合併模組 16
3.1.4字詞自動合併(搜尋引擎與網路百科全書輔助)模組 17
3.1.5 停用詞刪除模組 20
3.1.6 同義字過濾模組 22
3.1.7 字詞權重計算模組 22
3.1.8 挑選關鍵字模組 22
第四章實驗與評估 23
4.1 實驗資料 23
4.2 評估指標 23
4.2.1 Google搜尋結果評估指標 23
4.2.2關鍵字擷取評估指標 24
4.3 實驗結果與評估 25
4.3.1 Google相關參數設定 25
4.3.2關鍵字擷取效率評估 28
第五章結論 32
參考文獻 33

[1]howstuffworks，2011，How Internet Search Engines Work。
取自:
http://computer.howstuffworks.com/internet/basics/search-engine1.htm

[2]StatCounter，1999，StatCounter Global Stats - Browser, OS, Search Engine including Mobile Market Share
取自:
http://gs.statcounter.com/#browser-ww-monthly-201210-201310

[3]Wikipedia，2001，維基百科
取自:
http://zh.wikipedia.org/wiki/%E7%BB%B4%E5%9F%BA%E7%99%BE%E7%A7%91

[4]互動百科，2005，互動百科
取自:
http://www.baike.com/

[5]百度百科，2006，百度百科
取自:
http://baike.baidu.com/

[6]Nature，2005，Special Report Internet encyclopaedias go head to head
取自:
http://www.nature.com/nature/journal/v438/n7070/full/438900a.html

[7]Time，2007，Look Who’s Using Wikipedia
取自:
http://content.time.com/time/business/article/0,8599,1595184,00.html

[8]曾元顯，1997，關鍵詞自動擷取
取自:
http://lins.fju.edu.tw/~tseng/ResearchResults/keyword.htm

[9]曾元顯，1997，關鍵字自動擷取技術與相關詞回饋。中國圖書館學會會報，59，59-64
[10]National Digital Archives Program，2004，中文斷詞系統
取自:
http://ckipsvr.iis.sinica.edu.tw/

[11]中文詞知識庫小組，1986，詞庫小組簡介
取自:
http://godel.iis.sinica.edu.tw/CKIP/engversion/index.htm

[12]Stanford Word Segmenter，2006，The Stanford Natural Language Processing Group
取自:
http://nlp.stanford.edu/software/segmenter.shtml

[13]許正欣，2004，語意網上自動化建構本體論之研究，輔仁大學，碩士論文。

[14]K. Lang，1995，"NEWSWEEDER : Learning to Filter Netnews", presented at the Proceedings of ICML-95，12th International Conference on Machine Learning

[15]江志銘，2005，應用問答系統技術於電腦領域論壇檢索之研究，國立雲林科技大學，碩士論文。

[16]張日威，2014，應用LDA進行Plurk主題分類及使用者情緒分析，國立雲林科技大學，碩士論文。

[17]Spink, A., Jansen, B.J, Blakely, C. and Koshman, S.，2006，“A study of results overlap and uniqueness among major Web search engines”, Information Processing and Management (42:5)，pp:1379-1391

[18]張甘青，2014，從使用者網路點閱習慣探討搜尋引擎最佳化，東海大學圖書館館訊新149期，頁39-54。

[19]Y. Sasaki，2007， "The Truth of F-measure"， Teaching， Tutorial materials

電子全文

國圖紙本論文

推文
網路書籤
推薦
評分
引用網址
轉寄

top

相關論文
相關期刊
熱門點閱論文

1.	語意網上自動化建構本體論之研究
2.	應用問答系統技術於電腦領域論壇檢索之研究
3.	應用LDA進行Plurk主題分類及使用者情緒分析
4.	遊戲論壇搜尋引擎之設計
5.	無名挖挖挖─以人為對象之社群搜尋引擎

1.	[9] 曾元顯，1997，關鍵字自動擷取技術與相關詞回饋。中國圖書館學會會報，59，59-64
2.	[9] 曾元顯，1997，關鍵字自動擷取技術與相關詞回饋。中國圖書館學會會報，59，59-64
3.	[18] 張甘青，2014，從使用者網路點閱習慣探討搜尋引擎最佳化，東海大學圖書館館訊新149期，頁39-54。
4.	[18] 張甘青，2014，從使用者網路點閱習慣探討搜尋引擎最佳化，東海大學圖書館館訊新149期，頁39-54。

1.	翻轉教室輔助支援系統之研究─以程式設計課程為例
2.	自動建構停用詞詞庫之研究
3.	正規化概念分析應用於類別資料分類之研究
4.	Facebook使用者之人格特質、情緒反應與使用行為之關係研究
5.	研究影響使用電子商務網站購買智慧型手機的行為意圖
6.	Hadoop MapReduce應用於中文資料檢索之研究
7.	以正規化概念分析為基礎資料分類方法分類應用之研究-以問卷調查資料網路成癮及手機成癮為例
8.	中大型網路可用性優化之研究
9.	關鍵字排名因素之研究－以Google 搜尋引擎為例
10.	企業研發支出是為了未來績效或節稅?
11.	利用概念點陣分析搜尋引擎查詢結果之研究
12.	資料中心網路備援機制效能分析
13.	利用Apache Spark大數據分析方法探勘台灣地區交通事故受傷程度之研究-以台中市與桃園市為例
14.	利用SBC架構與案例式推理支援客服知識管理之研究─以三陽機車經銷商為例
15.	結合主題資訊萃取關鍵詞和建構概念圖

簡易查詢 | 進階查詢 | 熱門排行 | 我的研究室