研究生(外文):Hai-Sia Wang
論文名稱(外文):The Study of Applying Concept Map on FAQ Retrieval
指導教授(外文):Sung-Shun Weng
外文關鍵詞:Frequently Asked QuestionConcept mapK-means clusteringAssociation rule
傳統的資訊檢索方式多以關鍵詞為主,其缺點為:容易產生資訊過載的情形、查詢關鍵詞大多模糊不清和不精確的問題,導致使用者於搜尋時,產生許多不相關資訊或是找不到查詢結果。目前國內的FAQ(Frequently Asked Questions)網站及國內外文獻在FAQ檢索上,均以關鍵詞、自然語言之方式進行檢索。由於使用者的表達不同,而產生使用者與系統認知差異,以致於使用者找不到符合其需求的資訊。本研究藉由建構概念地圖將FAQ問題以視覺化方式呈現,提供使用者瀏覽找尋相關問題,以改善使用關鍵詞與自然語言檢索之缺點。
It is a conventional way using keywords on information retrieval. The disadvantages are information overloading, ambiguous query terms and imprecise queries. So far, domestic FAQ websites and the related literatures on FAQ retrieval mostly have used keywords and natural language for information retrieval. Because of the different expressions of users, it could have cognitive differences between users and systems so that users could not find any information. Therefore, using concept maps to represent FAQ questions with visualization for searching relevant questions will improve the disadvantages of using keywords and natural language.
The purpose of this study is to apply the method of concept map for FAQ question retrieval. First, extracting the keywords to represent the questions by using k-means clustering algorithm for question clustering. Second, using association rules to produce concept rules in each question cluster. Finally, connecting concept rules to form a concept map. The measures of precision, recall and F-measure are used to evaluate the results of question clustering. The representativeness of concept maps is evaluated by computing the values of precision, recall and F-measure and also compared with the results of using keywords.
The experiments of this study show that the results of using concept maps on information retrieval are not very significant, however, the performance on precision and recall is relatively higher than using keyword retrieval. Moreover, there is one problem with questions belonging to two clusters in this study in the collection of Taipei City Mayor Mail data and Chunghwa Telecom FAQ data. This problem is because artificially classified questions are not appropriate. This study proposes a new suggestion on classification. We explore the characteristics of two different data and the methods to be used in order to have better searching results.
目 錄

表  次........................................................vii
圖  次........................................................ix
第壹章 緒論....................................................1
第一節 研究背景、動機...........................................1
第二節 研究目的.................................................5
第三節 研究問題.................................................6
第四節 研究範圍.................................................7
第五節 論文架構.................................................7
第貳章 文獻探討.................................................11
第一節 資訊檢索.................................................11
第二節 FAQ相關文獻..............................................16
第三節 概念地圖.................................................22
第四節 中文斷詞.................................................31
第參章 研究方法.................................................35
第一節 研究架構.................................................35
第二節 概念地圖的建立............................................37
第三節 檢索系統評估方式..........................................47
第肆章 實驗設計與結果分析........................................49
第一節 實驗設計.................................................49
第二節 實驗流程.................................................51
第三節 實驗結果.................................................61
第伍章 結論與建議...............................................81
第一節 研究結果與結論............................................81
第二節 研究貢獻.................................................84
第三節 研究限制.................................................85
第四節 未來研究方向............................................. 85
附 錄 一、中文斷詞標記列表................................. ........95

表  次

表 3-1:中文斷詞結果...................................... ........38
表 3-2:正規化後的關鍵詞權重值............................. ........40
表 3-3:WEKA分群後的結果.................................. ........42
表 3-4:某群問題關鍵詞.................................... ........43
表 4-1:實驗環境................................................. 50
表 4-2:關鍵詞分群實驗.................................... ........51
表 4-3:問題關鍵詞分群結果(台北市政府市長信箱FAQ資料)................ 62
表 4-4:調整前與調整後問題關鍵詞分群結果比較(台北市政府市長信箱FAQ資料).67
表 4-5:問題關鍵詞分群結果(中華電信FAQ資料)......................... 69
表 4-6:調整前與調整後問題關鍵詞分群結果比較一(中華電信FAQ資料)........73
表 4-7:調整前與調整後問題關鍵詞分群結果比較二(中華電信FAQ資料)........74
表 4-8:概念規則之比率............................................77
表 4-9:關鍵詞搜尋、概念搜尋之檢索結果.............................. 78
表 A-1:中文斷詞線上展示系統與線上斷詞服務採用之詞類與詞性對照表....... 96

圖  次
圖 1-1:研究流程圖................................................9
圖 2-1:WORDBARS搜尋介面.........................................14
圖 2-2:概念地圖.................................................23
圖 2-3:電加熱氣之語意網路........................................26
圖 3-1:研究架構圖...............................................37
圖 3-2:WEKA參數設定畫面.........................................42
圖 3-3:前項相同產生之關係........................................46
圖 3-4:後項相同產生之關係(信心度相同).............................46
圖 4-1:細部研究架構.............................................52
圖 4-2:FAQ原問題內容............................................53
圖 4-3:CKIP中文斷詞結果.........................................53
圖 4-4:存入資料庫之問題關鍵詞....................................54
圖 4-5:問題關鍵詞之TF*IDF權重值計算(詞性篩選後)....................55
圖 4-6:問題關鍵詞選取(取前二個名詞為例)...........................56
圖 4-7:問題關鍵詞權重值.........................................56
圖 4-8:WEKA問題關鍵詞進行分群之參數設定...........................57
圖 4-9:關聯規則產生之相關參數設定.................................58
圖 4-10:關聯規則選取(兩個關鍵詞)..................................58
圖 4-11:關聯規則選取(三個關鍵詞)..................................59
圖 4-12:概念地圖(部分)........................................... 60
圖 4-13:「網際網路」問題概念之問題列表及問題詳細內容............... 61
圖 4-14:實驗A 台北市政府市長信箱問題分群結果之精確度、回應率(取兩個關鍵詞) ........................................................63
圖 4-15:實驗B 台北市政府市長信箱資料問題分群結果之精確度、回應率(取三個關鍵詞) ........................................................64
圖 4-16:台北市政府市長信箱資料問題分群結果之F值(實驗A、實驗B)比較..... 66
圖 4-17:實驗C 中華電信資料問題分群結果之精確度、回應率(取兩個關鍵詞)...70
圖 4-18:實驗D 中華電信資料問題分群結果之精確度、回應率(取三個關鍵詞)...71
圖 4-19:中華電信資料問題分群結果之F值(實驗C、實驗D)比較..............72
圖 4-20:台北市政府市長信箱、中華電信資料調整前問題分群結果F值平均之比較.75
圖 4-21:台北市政府市長信箱、中華電信資料調整後問題分群結果F值平均之比較.75

















