跳到主要內容

臺灣博碩士論文加值系統

(216.73.216.23) 您好!臺灣時間:2025/10/26 07:47
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:鄭為倫
研究生(外文):Wei-Lun Cheng
論文名稱:單分類器在文件多類別分類上之研究
論文名稱(外文):The Research on A Single Classifier in Text Classification of Multi-Class.
指導教授:陳書儀陳書儀引用關係王台平
指導教授(外文):作者未提供作者未提供
學位類別:碩士
校院名稱:銘傳大學
系所名稱:資訊管理學系碩士班
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2005
畢業學年度:93
語文別:中文
論文頁數:39
中文關鍵詞:貝氏分類器文件分類KNN文字探勘特徵詞權重門檻值
外文關鍵詞:Text MiningText Classification、Navie-Bayes、KNN、threshold
相關次數:
  • 被引用被引用:16
  • 點閱點閱:790
  • 評分評分:
  • 下載下載:84
  • 收藏至我的研究室書目清單書目收藏:4
在文件自動分類的成效上,特徵詞數量的選取是影響文件自動分類的成效之一,特徵詞數量的選擇,對於不同的分類器皆會影響其分類的成效。過去的研究中,對於文件特徵詞的選取已有釵h貢獻,而在研究過程中發現,往往文件中出現極微小權重的特徵詞,不但無法提昇分類的成效,反而成為文件中的雜訊,造成分類的結果在精確率上無法提昇。
另外,在文件自動分類的研究中,已經發展出釵h不同的分類器,不同的分類器對於不同性質的文件所表現出的分類成效也有所差異。過去多數研究是針對文件是否能夠分類到正確的類別;也有將不同的分類方法結合成一個系統,依文件的特性來選擇不同種類的分類器,以提高文件分類的正確性,雖然這樣的研究已經對文件分類正確性改善了不少,但是在分類的成效上,存在著對於文件具有釵h類別的特性時,卻只能定義到單一類別而造成文件分類上的錯誤。此外,結合太多的分類器,往往在分類的效率上造成影響,文件必須經由各個不同分類器的處理程序加以學習後,才能決定該文件的特性最適合何種分類器。
因此,本研究主要在特徵詞數量的選取上,採用相對比較的方式過濾不必要的特徵詞,並設計一個單一分類器模型的處理流程,對於具有多類別性質的文件,應用貝氏分類器及最鄰近案例技術,達到多類別文件分類的目的,解決文件只能分類到單一類別時所產生的錯誤。經由實驗結果證實,在過濾雜訊後及採用本研究所設計分類器模型的處理流程,可將分類的精確率由60%-75%提升至95%-100%。
On the research of performance of automatic text classification, the number of term selection that influence the performance of text classification. There are many researches which done terms extraction in the past. But in the period of our research, we detected that in the text of terms with low weight which can’t increase the performance of text classification, on the contrary become noise to reduce the accuracy.
In addition, on the research of text classification, there are many kinds of classifiers has been developed. The performance of different classifier gets different results. In the past, the research is focus on weather the data can be classified to the right class or not. And it is also have been composed many classifiers to a system. It depends on the property of data to choice different classifier to get better performance. Although it had been improved the performance, but it always only defined a data to a single class to cause error. Furthermore, the efficiency of classification have been influence by composed too much classifiers. The data will be processed by all kinds of classifiers, and then choice which one is better.
Therefore, we filter the terms which are not important between classes, and the same time we filter comparative noise between classes. Moreover we design a process of a single classifier model which can deal with multi-class data to solve the error of only defined the data into a single class. In the experimental results, we can improve the accuracy of classification from 60%-75% up to 95%-100%.
中文摘要 I
英文摘要 II
誌 謝 III
目錄 IV
圖目錄 VI
表目錄 VII
符號表 VIII
第壹章 緒  論 1
第一節  研究背景 1
第二節  研究動機 2
第三節  研究目的 3
第貳章 文獻探討 4
第一節  文字探勘的定義 4
第二節  文字探勘的架構 4
第三節  相關技術探討 7
一. 中文斷詞 7
二. 特徵詞擷取 9
三. 文件分群 12
四. 文件分類 13
五. 向量空間模型 16
第三節  相關文獻探討 16
一. 國外相關文獻 16
二. 國內相關文獻 19
第參章 研究方法 21
第一節 研究架構與流程 21
第二節  前處理相關程序 22
一. 斷詞 22
二. 特徵詞擷取 23
三. 雜訊過濾 25
四. 文件特徵 25
第三節  分類器模型運作 26
第肆章 實驗設計 28
第一節  實驗組合 28
第二節  實驗資料概述 29
第三節  實驗結果 30
一. 採用單類別、未過濾雜訊實驗 30
二. 採用單類別、過濾雜訊實驗 31
三. 採用多類別、未過濾雜訊實驗 33
四. 採用多類別、過濾雜訊實驗 34
第四節  實驗結果分析 36
第伍章 結 論 38
參考文獻 39
中文部分

1. 人民網,http://www.people.com.cn。
2. 中央研究院詞庫小組,「CKIP中文斷詞系統」http://godel.iis.sinica.edu.tw/CKIP/。
3. 奇摩(YAHOO)新聞,http://tw.news.yahoo.com/。
4. 林俊佑,李菁松與曾廣華,基於文件分類技術之資訊追蹤系統,電腦與通訊,第99 期,2002年,頁113-144。
5. 林傑斌,劉明德,資料採掘與OLAP理論與實務,2002年,文魁資訊。
6. 陳振南,吳毓傑,特徵選取與權重分配與中文新聞分類之比較,第十三屆國際資訊管理學術研討會,第1 卷,2002年,頁721-729。
7. 陳俊達,王台平,中文文件分類器中特徵詞彚之研究-使用資料探勘技術,中華民國科技管理研討會,2004年,頁309-317。
8. 劉智凱,運用多重概念暨文件分類技術於文件推薦機制之研究,輔仁大學資訊管理研究所碩士論文,2003年。
9. 魏源谷,多分類器系統在自動化文件分類之研究,國立中正大學資訊工程研究所碩士論文,2002年。
10. 鄭為倫,王台平,運用特徵詞權重改善文件自動分類之成效-以貝氏分類器為例,第一屆資訊管理學術暨專案管理實務研討會,2005年,論文編號IMPM-E18。
11. 鄭為倫,王台平,多類別文件分類之研究,2005創新導向之工業管理研討會,2005年,頁70-80。
12. 賴榮滄,中文郵件分類器之設計及實作,逢甲大學資訊工程研究所碩士論文,民國91年。

英文部分

13. Bekkerman R., Ran E.-Y., Winter R., Tishby N., “On Feature Distributional Clustering for Text Categorization”, Proceedings of the 24th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, 2001, pp.146-153.
14. Duda R. O., Hart P. E., “Pattern Classification and Scene Analysis.” Wiley, New York, 1973.
15. Fayyad U., Piatetsky-Shapiro G., Smyth P., Uthurusamy R., From data mining to knowledge discovery: “An Overview. In Advances in Knowledge Discovery and Data Mining.” MIT Press, Cambridge, Mass., 1996, pp.1-36.
16. Feldman R., Dagan I., “Knowledge discovery in textual databases (KDT).” Proceedings of the First International Conference on Knowledge Discovery and Data Mining (KDD-95), Montreal, Canada, 1995, AAAI Press, pp.112-117.
17. Good I.J., “The Estimation of Probabilities: An Essay on Modern Bayesian Methods.” MIT Press, MA, USA, 1965.
18. Hearst M. A., “Text data mining: Issues, techniques, and the relationship to information access.” Presentation notes for UW/MS workshop on data mining, 1997.
19. Hwee Tou Ng, Wei Boon Goh, Kok Leong Low, “Feature Selection, Perception Learning, and a Usability Case Study for Text Categorization.” Proceedings of the 20th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, 1997, pp.67 – 73.
20. Joachims T., “Text Categorization with Support Vector Machines: Learning with Many Relevant Features”, Proceedings of the European Conference on Machine Learning, Berlin, 1998, pp.137-142.
21. Khalid Al-Kofahi, Alex Tyrrell, Arun Vachher, Tim Travers, and Peter Jackson, “Combining Multiple Classifiers for Text Categorization,” Proceedings of the Tenth International Conference on Information and Knowledge Management, Atlanta, Georgia, USA, 2001, pp.97-104.
22. Khalid A. K., Tyrrell A., Vachher A., Travers T., “Combining Multiple Classifiers for Text Categorization.” CIKM''OI, Atlanta, Georgia, USA, 2001, ACM I-581.
23. Lam W., Ruiz M., Srinivasan P., “Automatic Text Categorization and Its Application to Text Retrieval.” IEEE Transactions on Knowledge and Data Engineering, (11:6), 1999, pp.865-879.
24. Langley P., Iba W., Thompson K., “An Analysis of Bayesian Classifiers.” Proc. 10th Nat. Conf. on Artificial Intelligence, AAAI Press and MIT Press, USA 1992, pp.223–228.
25. Moens M. F., Dumortier J., “Text Categorization: the Assignment of Subject Descriptors to Magazine Articles.” Information Processing & Management, Vol. 36, 2000, pp.841-861.
26. Schultz C.K., H.P. Luhn: Pioneer of Information Science - Selected Works, Macmillan,. London, 1968.
27. Sebastiani F., “Machine Learning in Automated Text Categorization.” ACM Computing Sruveys, Vol. 34, No.1, 2002, pp.1-47.
28. Simoudis E., “Reality check for data mining.” 1996, IEEE Expert, (11:5).
29. Steinbach M., Karypis G., Kumar V, “A Comparison of Document Clustering Techniques”, Proceedings of World Text Mining Conference (KDD-00), Boston, 2000, pp.1-20.
30. Yang Y., Xin Liu, “A re-examination of text categorization methods”, Proceedings of 22th Annual International ACM SIGIR Conference on Research 69 and Development in Information Retrieval (SIGIR''99), 1999, pp.42-49.
31. Yang Y. and Pedersen J., “A Comparative Study on Feature Selection in Text Categorization”, Proceedings of the International Conference on Machine Learning (ICML’97), 1997, pp. 412-420.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top