(54.82.99.169) 您好!臺灣時間:2019/03/25 20:09
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

我願授權國圖
本論文永久網址: 
line
研究生:莊大衛
研究生(外文):Juang Da-Wei
論文名稱:文件自我擴展於自動分類之應用
論文名稱(外文):Application of Document Self-Expansion to Text Categorization
指導教授:曾元顯曾元顯引用關係
指導教授(外文):Yuen-Hsien Tseng
學位類別:碩士
校院名稱:輔仁大學
系所名稱:圖書資訊學系
學門:傳播學門
學類:圖書資訊檔案學類
論文出版年:2005
畢業學年度:93
語文別:中文
論文頁數:78
中文關鍵詞:自動分類文件自我擴展文件自動化處理演算法學習
外文關鍵詞:Auto-ClassificationAuto-CategorizationDocument Self-Expansion
相關次數:
  • 被引用被引用:2
  • 點閱點閱:517
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:8
隨著電子化文件不斷的增多,如何快速準確處理該類型文件,並應用電子化文件易於傳播運用之特性,提供使用者更友善方便之服務,也成為極為重要之學術議題;但也因為電子化文件的成長迅速的特性,傳統上運用人力進行資訊處理的方式與技巧,早已無法負荷如海潮般不停湧入的資訊,更遑論提供使用者足夠即時性的資訊服務。

在此種環境背景之下,各種運用電腦技術的文件自動化處理的機制自然也就蘊孕而生,從利用全文檢索引擎提供使用者進行資訊查檢到自動標示切截重點的文件摘要技術,無一不是使用者面對浩瀚的知識海洋時的一盞救命明燈,而其中利用演算法學習分類概念並將資訊進行分類的自動分類技術,更是將提供使用者直觀、主動的資訊運用模式。

是故,本論文主題即在於利用本論文所提之文件自我擴展策略,用以提升自動分類系統之成效並降低運用自動分類系統之成本,以期達成令自動分類系統更加普及之目標。
第一章 緒論 4
第一節 研究背景 5
第二節 研究目的 7
第三節 研究問題 8
第四節 詞彙定義 9
一、文件自動分類(Text Automatic Classification) 9
二、KNN演算法(K-Nearest Neighbors) 11
三、SVM演算法(Support Vector Machine) 12
四、文件自我擴展(Document Self-Expansion) 13
第二章 文獻分析 14
第一節 文件自動分類簡介 14
一、分類器 15
二、分類測試集 16
三、分類參數 18
第二節 文件擴展相關研究 21
第三節 本章小結 24
第三章 研究方法與實驗設計 25
第一節 研究方法 25
第二節 實驗設計 26
一、文件擴展模式 27
二、分類器選擇 32
三、測試文件集 34
四、實驗參數設計 38
五、評估標準 40
第四章 實驗結果與分析 42
第一節 文件自我擴展實驗結果 42
第二節 結果分析 45
第五章 結論與建議 48
第一節 結論 48
第二節 建議 50
參考書目 51
附錄一:News資料集文件範例與擴展範例 56
附錄二:WebDes資料集文件範例與擴展範例 58
附錄三:LawData資料集文件範例與擴展範例 59
中文參考書目(本資料按作者姓氏筆劃、發表時間依次進行排序)
[1]卜小蝶,"網路使用者檢索詞彙主題分類探析",台灣大學圖書資訊學系四十週年系慶研討會, 2001年11月16日,頁113。
[2]沈時宇,”網路新聞分類及訂閱系統”,中正大學資訊工程所碩士論文, 2002年。
[3]陳淑美,”財經新聞自動分類之研究”,台灣大學圖書資訊學系碩士論文,1992年。
[4]張政義,”網際網路上電子新聞追蹤系統的建立與評估”,輔仁大學圖書資訊學系碩士論文,1998年。
[5]曾元顯、莊大衛,”文件自我擴展於自動分類之應用”,第十五屆計算機語言學研討會論文集,P129-141,2003年。
[6]曾元顯,”文件主題自動分類成效因素探討”,「中國圖書館學會會報」,2002年6月,第 68 期,P62-83.
[7]曾元顯, 第一章數位文件關鍵特徵之自動擷取, 數位文件之資訊擷取與檢索, 269 頁, 2000年9月, ISBN 957-99750-3-2 , 全壘打文化事業有限公司出版.
[8]楊允言,”文件自動分類及其相似性排序”, 清華大學資訊科學學系碩士論文,1993年。
[9]錢炳全、廖雙德,”中文試題自動分類方法”, 第七屆人工智慧與應用研討會(TAAI2002)論文集,A4-5 P125-130頁,2002年。
[10]蔣俊霞,”中文文件自動分類之探討”,淡江大學資訊工程研究所碩士論文,1994年。
[11]顧皓光、莊裕澤,”網路文件自動分類”,八十六年全國計算機會議論文集,D25-30頁,1997年。
英文參考書目(本資料按作者姓氏字母序、發表時間依次進行排序)
[1]A. P. Dempster, N. M. Laird, and D. B. Rubin, "Maximum likelihood from incomplete data via the EM algorithm," Journal of the Royal Statistical Society, Series B, 39(1):1-38, 1977.
[2]Amit Singhal and Fernando Pereira, “Document Expansion for Speech Retrieval,” Proceedings of the 22th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, 1999, P.34-41.
[3]Amit Singhal, Gerard Salton, and Chris Buckley, "Length Normalization in Degraded Text Collections," Proceedings of Fifth Annual Symposium on Document Analysis and Information Retrieval, April 15-17, 1996, pp. 149-162.
[4]Anne Kao, “Re: Reuters Corpus problems,” trecfiltering@list.research.microsoft. com, Oct. 2, 2001.
[5]Da-Wei Juang and Yuen-Hsien Tseng, "Uniform Indexing and Retrieval Scheme for Chinese, Japanese, and Korean," Proceedings of the Third NTCIR Workshop on Evaluation of Information Retrieval, Automatic Text Summarization and Question Answering, Oct. 8-10, 2002, Tokyo, Japan, P.137-141.
[6]David D. Lawis, Yiming Yang, Tony Rose and Fan Li, ”RCV1:A New Benchmark Collection for Text Categorization Research”, Journal of Machine Learning Research 5, 2004, P361-397.
[7]Dunja Mladenic, etc, "Feature selection for unbalanced class distribution and Naive Bayes," Proceedings of the International Conference on Machine Learning (ICML’98), 1998, http://www.cs.cmu.edu/~TextLearning/pww/yplanet.html.


[8]Chidanand Apt, Fred Damerau and Sholom M. Weiss, “Towards Language Independent Automated Learning of Text Categorization Models,” Proceedings of the 17th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, 1994, P23 – 30.
[9]Hwee Tou Ng, Wei Boon Goh and Kok Leong Low, "Feature Selection, Perception Learning, and a Usability Case Study for Text Categorization," Proceedings of the 20th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, 1997, P67 - 73.
[10]K. Nigam, A. McCallum, S. Thrun, and T. Mitchell, "Text classification from labeled and unlabeled documents using EM," Machine Learning, 39(2/3):103-134, 2000.
[11]Kamal Nigam and Rayid Ghani, "Analyzing the Effectiveness and Applicability of Co-training," Proceedings of the ninth international conference on information and knowledge management CIKM 2000, McLean, Virginia, United States, P86 – 93.
[12]Khalid Al-Kofahi, Alex Tyrrell, Arun Vachher, Tim Travers, and Peter Jackson, "Combining Multiple Classifiers for Text Categorization," Proceedings of the Tenth International Conference on Information and Knowledge Management 2001, Atlanta, Georgia, USA, P97-104.
[13]Leah S. Larkey and W. Bruce Croft, “Combining Classifiers in Text Categorization,” Proceedings of the 19th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, 1996, P289 – 297.
[14]M. Kreines, “Reuters Corpus problems,” trecfiltering@list.research.microsoft. com, Oct. 2, 2001.


[15]Ron Bekkerman, Ran El-Yaniv, Yoad Winter, Naftali Tishby, “On Feature Distributional Clustering for Text Categorization,” Proceedings of the 24th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, 2001, P146-153.
[16]Susan Dumais, John Platt, David Heckerman and Mehran Sahami, “Inductive Learning Algorithms and Representations for Text Categorization,” Proceedings of the 1998 ACM 7th international Conference on Information and Knowledge Management, 1998, P148 – 155.
[17]Thorsten Joachims, SVMlight: Support Vector Machine, version 5, http://svmlight.joachims.org/, 2002/03/07.
[18]Thorsten Joachims, "A Statistical Learning Model of Text Classification for Support Vector Machines," Proceedings of the 23rd Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, 2001, P.128-136.
[19]Thorsten Joachims, “Text Categorization with Support Vector Machines: Learning with Many Relevant Features,” Proceedings of the European Conference on Machine Learning, 1998, Berlin, pp. 137-142.
[20]Vladimir N. Vapnik, The Nature of Statistical Learning Theory. Springer, 1995.
Platt, J. “Fast Training of SVMs using Sequential Minimal Optimization,” in B. Scholkopf, C. Burges, and A. Smola (Eds.) Advances in Kernel Methods – Support Vector Learning, MIT Press, 1998.
[21]Wai Lam, Kwok-Yin Lai, “A Meta-Learning Approach for Text Categorization,” Proceedings of the 23rd Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, 2001, pp.303-309.
[22]William B. Frakes and Ricardo Baeza-Yates, Infomation Retrieval: Data Structure and Algorithms, Prentice Hall, 1992.
[23]William W. Cohen and Yoram Singer, “Context-Sensitive Learning Methods for Text Categorization,” Proceedings of the 19th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, 1996, P307 – 315.
[24]Yiming Yang, “A Study on Thresholding Strategies for Text Categorization”, Proceedings of the 23rd Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, 2001, P137-145.
[25]Yiming Yang and Xin Liu, “A Re-Examination of Text Categorization Methods,” Proceedings of the 22nd Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, 1999, P42 – 49.
[26]Yiming Yang and J. Pedersen, “A Comparative Study on Feature Selection in Text Categorization,” Proceedings of the International Conference on Machine Learning (ICML’97), 1997, P412-420.
[27]Yuen-Hsien Tseng and Da-Wei Juang, "Document-Self Expansion for Text Categorization," Proceedings of the 26th International ACM SIGIR Conference on Research and Development in Information Retrieval - SIGIR '03, July 28 - Aug. 1, Toronto, Canada, 2003, P.399-400.
[28]Yuen-Hsien Tseng, "Automatic Cataloguing and Searching for Retrospective Data by Use of OCR Text", Journal of American Society for Information Science and Technology, Vol. 52, No. 5, 2001, pp. 378-390.
[29]Yuen-Hsien Tseng and Douglas W. Oard, "Document Image Retrieval Techniques for Chinese" Proceedings of the Fourth Symposium on Document Image Understanding Technology, Columbia Maryland, April 23-25th, 2001, pp. 151-158.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
系統版面圖檔 系統版面圖檔