研究生(外文):yu-hong dai
論文名稱(外文):Incremental clustering with GA, SVM, and FCM methods
指導教授(外文):Deng-Yiv Chiu
外文關鍵詞:Incremental clustering methodsgenetic algorithmsfuzzy clustering algorithmsSVM
在資訊爆炸的時代,日益龐大且增加快速的文件已經難以更進一步的進行管理與分析,進而造成資訊過載(information overload)的現象。因此如何在龐大的資料中正確且有效率找尋有用的資訊是很重要的,而分群(Clustering)就是一項常用來找尋資料特徵與關聯的主要技術之ㄧ。
本研究提出了一個結合了以基因演算法為基礎的支持向量機分類方法及模糊分群法,其中結合了基因演算法的支持向量機分類模型將新進文件分類至既有類別,而結合基因演算法的模糊分群模組將針對無法分類至既有類別的文件進行分群。首先利用中研院的CKIP中文斷詞系統進行中文文件的斷詞處理,篩選出所需要的特徵詞。接著利用基因演算法(Genetic Algorithm)挑選適合的特徵詞組合來訓練既有類別文件的支持向量機模型(Support Vector Machine),並用測試文件將屬於計有類別的文件與以分類;接下來對於未分至既有類別的文件分群,利用基因演算法(Genetic Algorithm)進行分群群數最佳化,以及挑選模糊分群法(Fuzzy C-means)的最佳分群中心點以進行分群。最後,使用效能衡量指標Precision、Recall以及F-measure評估本研究的效率及分類準確率Macro-average和Micro-average。
With explosion of information, it is very difficult to manage documents. How to efficiently find useful information in large information is very important. Clustering algorithm is a kind of technology to find characteristics of information and relationship to help manage documents.
This study proposes a method--combination of SVM classification method and fuzzy clustering method based on genetic algorithm. SVM classification method based on genetic algorithm is used to classify incoming document to see if it belongs to the existing classes. Fuzzy clustering method based on genetic algorithm is used to cluster the unclassified documents. First, we use CKIP system to segment Chinese documents to extract keywords. Genetic algorithms is used to select the appropriate terms to train SVM model of existing classes and classify incoming document to see if it belongs to the existing classes. Then genetic algorithm is used again to select the best number of clustering and the best centroid of cluster. Finally, precision, recall and F-measure are used to measure the efficiency. Macro-average and Micro-average are used to measure accuracy.
In empirical results, the proposed method can improve classification effectiveness. Also, GA-FCM outperforms other clustering methods significantly.
摘要 i
Abstract ii
誌謝 iii
目錄 iv
圖目錄 v
表目錄 vi
第壹章 緒論 1
第一節 研究動機 1
第二節 研究目的 2
第三節 論文架構 2
第貳章 文獻探討 5
第一節 知識挖掘 5
第二節 分類與分群的技術 8
第三節 基因演算法 21
第参章 研究方法 30
第一節 文件前置處理 32
第二節 GA-SVM模型 32
第三節 GA-FCM模組 39
第四節 效能評估 44
第肆章 實驗 46
第一節 實驗資料來源 46
第二節 實驗設計 47
第三節 實驗評估與討論 48
第伍章 結論與未來展望 57
第一節 結論 57
第二節 未來研究發展 57
參考文獻 59
英文部分 59
中文部分 62
附錄一、特徵詞詞性對照表 63
