跳到主要內容

臺灣博碩士論文加值系統

(44.192.247.184) 您好!臺灣時間:2023/01/30 12:40
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:謝岡陵
研究生(外文):Hsieh,Kong-Ling
論文名稱:漸進式分群方法—結合SVM與改良式CBC分群演算法
論文名稱(外文):A hybrid incremental clustering method—combining SVM and enhanced CBC algorithm
指導教授:邱登裕邱登裕引用關係
指導教授(外文):Chiu,Deng-Yiv
學位類別:碩士
校院名稱:中華大學
系所名稱:資訊管理學系
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2006
畢業學年度:94
語文別:中文
論文頁數:58
中文關鍵詞:漸進式分群方法CBC演算法SVM
外文關鍵詞:hybrid incremental clustering methodCBC algorithmSVM
相關次數:
  • 被引用被引用:0
  • 點閱點閱:547
  • 評分評分:
  • 下載下載:96
  • 收藏至我的研究室書目清單書目收藏:1
本研究結合了SVM與改良式CBC演算法,提出了混合式的漸進式分群方法。首先使用SVM針對新進文件分類,檢查是否屬於既有類別;接著使用改良式CBC演算法針對尚未分類的文件進行分群。在此演算法中,SVM可以顯著得降低分群計算量與分群雜訊,而改良式CBC演算法則是可以顯著的控制群數,以增加分群品質,並在既有類別架構且不影響既有資料的情形下,針對新進文件做分群的動作,並使類別數得以逐漸成長。根據實驗結果顯示,漸進式分群方法優於改良式CBC演算法與其他演算法,而改良式CBC演算法亦優於傳統式CBC演算法。
In the study, a new hybrid incremental clustering method is proposed in combination with SVM and enhanced CBC algorithm. SVM classifies the incoming document to see if it belongs to the existing classes. Then enhanced CBC algorithm is used to cluster the unclassified documents. In the algorithm, SVM can significantly reduce the amount of calculation and the noise of clustering. Enhanced CBC algorithm can effectively control the number of clusters, raise performance and the number of classes grows gradually based on the structure of current classes without clustering all of documents again. In experimental results, the hybrid incremental clustering outperforms the enhanced CBC clustering and other algorithms. Also, enhanced CBC clustering outperforms original CBC.
中文摘要………………………………………………………………………i
英文摘要………………………………………………………………………ii
誌謝……………………………………………………………………………iii
目錄……………………………………………………………………………iv
圖目錄…………………………………………………………………………vi
表目錄…………………………………………………………………………vii
第壹章 緒論…………………………………………………………1
第一節 研究動機……………………………………………………1
第二節 研究目的……………………………………………………2
第三節 研究範圍……………………………………………………3
第四節 論文架構……………………………………………………3
第貳章 文獻探討……………………………………………………5
第一節 知識挖掘……………………………………………………5
(一) 資料庫知識挖掘……………………………………………5
(二) 文字知識挖掘………………………………………………7
第二節 分類器與支援向量機………………………………………9
第三節 分群…………………………………………………………14
(一) 分割方法……………………………………………………15
(二) 階層方法……………………………………………………15
(三) 密度基礎方法………………………………………………15
(四) 格子基礎方法………………………………………………15
(五) 其它方法……………………………………………………16
(六) Clustering By Committees演算法…………………18
(1) 資訊萃取……………………………………………………18
(2) 找尋相似度前K名的文件…………………………………19
(3) 找尋群聚中心點……………………………………………20
(4) 剩餘文件之分群……………………………………………22
第參章 研究方法……………………………………………………24
第一節 漸進式分群…………………………………………………24
第二節 利用SVM進行第一階段分類………………………………25
第三節 運用改良式CBC進行第二階段分群………………………25
第四節 參數設定……………………………………………………31
第肆章 實驗…………………………………………………………32
第一節 實驗流程……………………………………………………32
(一) 資料蒐集……………………………………………………32
(二) 資訊萃取……………………………………………………33
(三) 特徵詞選取…………………………………………………37
(四) CBC參數選取………………………………………………39
(五) SVM分類……………………………………………………41
(六) 改良式CBC分群……………………………………………44
第二節 效能評估……………………………………………………46
(一) 評估公式……………………………………………………46
(二) 改良式CBC演算法效能評估………………………………47
(三) 漸進式分群方法效能評估…………………………………50
(四) 漸進式分群方法與其他演算法比較………………………53
第伍章 結論與建議…………………………………………………54
第一節 結論…………………………………………………………54
第二節 未來研究方展………………………………………………54
第三節 誌謝…………………………………………………………55
參考文獻…………………………………………………………………56
英文部分
1.Dash, M., Liu, H., Xu, X.: `1+1>2': Merging distance and density based clustering. In: Proc. 7th Int. Conf. Database Systems for Advanced Applications (DASFAA'01), Hong Kong (2001) 18-20
2.Davidov, D., Gabrilovich, E., Markovitch, S.: Parameterized generation of labeled datasets for text categorization based on a hierarchical directory. In: Proc. of the 27th Annual Int. ACM SIGIR Conf. on Research and Development in Information Retrieval SIGIR '04 (2004) 250-257
3.Dorre, J., Gerstl, P., Seiffert, R.: Text mining: finding nuggets in mountains of textual data, In: Proc. of the 5th ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining (1999) 398-401
4.Ester, M., Kriegel, H.-P., Sander, J., Xu, X.: Density-based algorithm for discovering clusters in large spatial databases with noise, In: Proc. 1996 Int. Conf. Knowledge Discovery and Data Mining (KDD’96), Portland, OR (1996) 226-231
5.Everitt, B.: Cluster analysis, New York:Heinemann Educational Book, London (1974)
6.Fayyad, U., Piatetsky-Shapiro, G., Smyth, P. : From Data Mining to Knowledge Discovery: An Overview, In: Advances in Knowledge Discovery and Data Mining (1996) 1-36
7.Han, J., Kamber, M.: Data mining: concepts and techniques. New York: Morgan Kaufmann Publishers (2001)
8.Karypis, G., Han, E.-H., Kumar, V.: Chameleon: hierarchical clustering using dynamic modeling. IEEE ,Computer, Vol. 32(8) (1999)
9.Larsen, B., Aone, C.: Feat and Effective Text Mining Using Liner-Time Document Clustering, In: Proc. of Fifth ACM SIGKDD Int’l Conference on Knowledge Discovery and Data Mining (1999) 16-22
10.MacQueen, J.B.: Some methods for classification and analysis of multivariate observations. In: Proc. of the fifth Berkeley Symposium on Mathematical Statistics and Probability, Vol. 1 (1967) 281-297
11.Manevitz, L.R., Yousef, M: One-class SVMs for document classification. Journal of Machine Learning Research, Vol. 2 (2001) 139-154
12.Nello C., John S.-T.: An Introduction to Support Vector Machines and Other Kernel-based Learning Methods, Cambridge University Press (2000)
13.Pantel, P., Lin, D.: Document clustering with committees. In: Proc. of ACM Conf. on Research and Development in Information Retrieval SIGIR-02, Tampere, Finland (2002) 199-206
14.Pantel, P., Ravichandran, D.: Automatically labeling semantic classes. In: Proc. of HLT-NAACL, Boston, MA. (2004) 321-328
15.Pinchak, C., Lin, D.: A probabilistic answer type model. In: Proc. of the 11th Conf. of the European Chapter of the Association for Computational Linguistics (EACL 2006), Trento, Italy (2006) 393-400
16.Principe, J.C., Euliano, N.R., Lefebvre, W.C.: Neural and adaptive systems: fundamentals through simulations, John Wiley and Sons (2000)
17.van Rijsbergen, C. J.: Information Retrieval, Butterworths (1979)
18.Vapnik, V.: The nature of statistical learning theory, Springer Verlag, New York (1995)
19.Vats, N., Skillicorn, D.B.: Information discovery within organizations using the athens system. CASCON (2004) 282-292

中文部分
20.王盈霖: 以高效率的密度式群集法發掘基因表現樣式之研究, 國立台南師範學院資訊教育研究所碩士論文 (2002)
21.何俊德: 基於影像與文字特徵之網頁內容分類方法之研究,朝陽科技大學資管所碩士論文 (2004)
22.張耀文、鄭有為、呂悅晴、林芳儀: 以資料探勘方法分析消費者線上集體購買行為, 國立東華大學管理學院資訊管理學系畢業專題論文(2005)
23.曾元顯,莊大衛: 文件自我擴展於自動分類之應用,輔仁大學圖書資訊學所(2005) 129-141
24.陳榮昌,林育臣: 群聚演算法及群聚參數的分析, 朝陽學報 Vol.1(8) (2003) 327-354
25.曾元顯: 資訊檢索與知識探勘,輔仁大學圖書資訊系,2004
26.曾元顯: 文件主題自動分類成效因素探討,輔仁大學圖書資訊系,中國圖書館學會會報, No.67 (2002) 62-83
27.黃安橦: 應用支向機於晶圓圖類之研究,明新科技大學工管所(2005)
28.劉冠妤,導入概念階層觀念以改善分群演算法之績效,成大資管所 (2004)
29.蔡明倫: 二維點狀影像資訊之強化、特徵擷取及辨識-以X光乳房微鈣化檢測為例,大葉大學工工所碩士論文(2002)
30.鍾明璇: 應用關聯規則技術有效輔助以向量空間模型為基礎之文件群集法, 中原大學資訊管理學系碩士學位論文(2002)
31.韓歆儀: 應用兩階段分類法提升SVM法之分類準確率,成大工管所碩士論文(2004)
32.潘雅真: 企業式知識地圖,中華大學資管所碩士論文 (2004)
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top