(18.207.134.98) 您好!臺灣時間:2019/10/24 00:41
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

我願授權國圖
本論文永久網址: 
line
研究生:林政緯
研究生(外文):Lin, Jeng-Wei
論文名稱:文件自動分類及其成效評估之研究
論文名稱(外文):A Study on Automatic Text Categorization And Its Performance Evaluation
指導教授:曾元顯曾元顯引用關係
指導教授(外文):Yuen-Hsien Tseng
學位類別:碩士
校院名稱:輔仁大學
系所名稱:圖書資訊學系
學門:傳播學門
學類:圖書資訊檔案學類
論文出版年:2001
畢業學年度:90
語文別:中文
論文頁數:48
中文關鍵詞:自動分類向量模式kNN分類法關鍵詞擷取評估成效機率模式模糊理論遺傳演算
外文關鍵詞:text categorizationvector spacelinear functioninformation retrievalReuters-21578Rocchio Algorithmk-Nearest Neighborautomatic document classification
相關次數:
  • 被引用被引用:3
  • 點閱點閱:750
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:9
  本研究嘗試透過電腦大量以及高速運算的能力,進行文件的自動分類,並評估幾種自動分類的方法及其成效。透過自動分類系統的實際運用與實作,了解文件自動分類處理的技術與細節,以期指出哪些方法是更有效的自動分類方法。
  本研究的實驗系統主要是運用既有已分類好的文件來訓練分類系統,使其可以根據過去的分類經驗與知識,對後續待分類的文件,給定正確的主題類別。
  本研究使用『Reuters-21578』做為測試文件,這是一份為了協助文件分類的研究所建立的文件集。它取自於1987年路透社的新聞稿,總共有21,578篇文章。
  研討的相關理論有:Linear Function、Rocchio Algorithm、k-Nearest Neighbor(kNN)。使用的分類方法則包括:向量模式運算、kNN分類法。利用向量空間運算與kNN分類法,進行一系列的實驗。並將實驗結果與參考文獻的實驗結果做對照,並參考文獻的結果,以評估本實驗的成效。
The study tries to use computers to classify documents automatically and evaluate the efficiencies of each methodology and itself. According to results of the processes in those classification systems, we learn something about which factors may impact the efficiencies.
The system in this thesis trains the classification module to improve the correct rate by using the documents which were classified into many categories.
For this paper we use the ApteMod version of Reuters-21578, which was obtained by eliminating unlabelled documents and selecting the categories which have at least one document in the training set and the test set. This process resulted in 90 categories in both the training and test sets. After eliminating documents which do not belong to any of these 90 categories, we obtained a training set of 7769 documents, a test set of 3019 documents.
In the thesis, we not only discuss the Linear Function in IR, Rocchio Algorithm and the k-Nearest Neighbor (kNN), but also investigate the methodologies including Vector Space Module and kNN Classifier. Based on the concepts, we runs several experiments. Finally we compare the results with the data from the references, and evaluate the efficiencies of the study.
第一章、緒論..........................................1
  一、研究動機......................................1
  二、研究目的......................................1
  三、系統輪廓概要..................................2
  四、研究方法......................................2
  五、研究範圍與限制................................2
  六、研究步驟......................................2
第二章、文獻探討......................................4
  一、文件自動分類..................................4
  二、相關研究與實驗................................5
第三章、實驗資料.....................................12
  一、檔案格式.....................................12
  二、類別.........................................16
  三、使用Reuters-21578進行文件自動分類研究........17
  四、Yang的實驗資料...............................18
  五、本研究的實驗資料.............................19
第四章、實驗理論與方法...............................21
  一、相關理論.....................................21
  二、關鍵詞擷取...................................23
  三、使用的分類方法...............................25
第五章、實驗結果及分析...............................29
  一、實驗結果.....................................30
  二、結果分析.....................................33
第六章、結論與未來方向...............................45
  一、結論.........................................45
  二、未來方向.....................................47
表格目次
表格1:實驗一的結果..................................30
表格2:實驗二的結果..................................31
表格3:實驗三的結果..................................31
表格4:實驗四的結果..................................31
表格5:實驗五的結果..................................32
表格6:實驗六的結果..................................32
表格7:實驗七的結果..................................33
表格8:實驗八的結果..................................33
表格9:向量運算模式中,摘要處理的影響................34
表格10:kNN模式中,摘要處理的影響....................35
表格11:實驗一與實驗五中前十大類的分類效果...........36
表格12:單一類別之macF大於0.5的類別數................36
表格13:實驗一與實驗五中macF值皆為0的類別............37
表格14:類別oat之所屬文件............................38
表格15:類別soy-oil之所屬文件........................38
表格16:實驗一(向量模式)與實驗五(kNN模式)的比較......39
表格17:分類效果良好的類別 (實驗一)..................39
表格18:分別含有oat, heat, orange三類的文件..........40
表格19:前十名分類效果最佳類別之單一率...............40
表格20:分類效果良好的類別 (實驗五)..................41
表格21:k=10時的實驗結果.............................42
表格22:k=45時的實驗結果.............................42
[1]楊雪花,"模糊理論結合遺傳演算法應用於中文自動化分類之研究",中央大學資訊管理研究所,碩士論文,民國八十六年六月
[2]楊允言、謝清俊、陳淑美、陳克健,「中文文件自動分類之研究」
[3]陳俊凱,"利用類神經網路作文件自動分類之研究",淡江大學資訊工程研究所,碩士論文,民國八十五年六月
[4]楊允言,"文件自動分類及其相似性排序",清華大學資訊科學研究所,碩士論文,新竹,民國八十二年六月。
[5]柯淑津、陳振南,"階層式文件自動分類之特徵選取研究",第十二屆計算機語言學會論文集,1992, p137~149
[6]曾元顯,"關鍵詞自動擷取技術與相關詞回饋",「中國圖書館學會會報 59 期」,1997 年 12月,頁59-64。
[7]M. E. Maron, "Automatic Indexing An Experimental Inquiry", Journal of the ACM, 8, 1961, p.404~417
[8]H. Borko and M. Bernick, "Automatic document Classification", Journal of the ACM, 10, 1963
[9]陳淑美,"財經新聞自動分類之研究",台灣大學圖書館學研究所,碩士論文,台北,民國八十一年十二月。
[10]Yiming Yang and Xin Liu, "A re-examination of text categorization methods" Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, 1999, Pages 42 - 49
[11]李祥賓,"新聞文件摘要之研究",東吳大學資訊科學研究所,碩士論文,台北,民國九十年六月。
[12]Chidanand Apt, Fred Damerau, Sholom M. Weiss,"Automated learning of decision rules for text categorization," ACM Transactions on Information Systems, Vol. 12, No. 3 (July 1994), pp. 233-251
[13]David D. Lewis and William A. Gale, "A Sequential Algorithm for Training Text Classifiers," SIGIR ''94, pp. 3-12.
[14]Yiming Yang, "Expert Network: Effective and Efficient Learning from Human Decisions in Text Categorization and Retrieval," SIGIR ''94, pp. 13-22.
[15]David D. Lewis, Robert E. Schapire, James P. CalIan, and Ron Papka, "Training Algorithms for Linear Text Classifiers," SIGIR ''96, pp. 298-306
[16]William W. Cohen and Yoram Singer, "Context-sensitive learning methods for text categorization," SIGIR ''96, pp. 307-315.
[17]Hwee TOU Ng, Wei Boon Goh, and Kok Leong Low, "Feature Selection, Perception Learning, and a Usability Case Study for Text Categorization," SIGIR ''97, pp.67-73.
[18]Susan Dumais, John Platt, David Heckerman, Mehran Sahami, "Inductive learning algorithms and representations for text categorization," CIKM ''98. Proceedings of the 1998 ACM 7th international conference on Information and knowledge management, pages, pp.148-155
[19]David D. Lewis, Robert E. Schapire, James P. CalIan, and Ron Papka. "Training Algorithms for Linear Text Classifiers", In SIGIR ''96, pp. 298-306
[20]Jhy-Jong Tsay and Jing-Doo Wang. "Improving automatic Chinese text categorization by error correction". In Proceedings of the fifth international workshop on on Information retrieval with Asian languages, 2000, Pages 1-8
[21]曾元顯,"關鍵詞自動擷取技術與相關詞回饋", 「中國圖書館學會會報59期」, 1997 年 12月,頁59-64。
[22]曾元顯,林瑜一," 模糊搜尋、相關詞提示與相關詞回饋在 OPAC 系統中的成效評估", 「中國圖書館學會會報 61 期」, 1998 年 12月,第61期,頁103-125。
[23]Yiming Yang and Xin Liu, "A re-examination of text categorization methods" Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, 1999, Pages 42-49
[24]Ker S. J and J.N. Chen, "A Text Categorization Based on Summarization Technique", In Proceeding of NLPIR Workshop of ACL2000, 2000, pp. 79-83.
[25]Yiming Yang and Xin Liu, "A re-examination of text categorization methods" Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, 1999, Pages 42 - 49
[26]李祥賓,"新聞文件摘要之研究",東吳大學資訊科學研究所,碩士論文,台北,民國九十年六月。
[27]陳光華、江玉婷,"中文資訊檢索測試集之設計與製作",「資訊傳播與圖書館學6卷3期」,頁61-80
[28]柯淑津、陳振南,"階層式文件自動分類之特徵選取研究",第十二屆計算機語言學會論文集,1992, p137~149
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
系統版面圖檔 系統版面圖檔