跳到主要內容

臺灣博碩士論文加值系統

(18.97.9.171) 您好!臺灣時間:2024/12/10 13:21
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:陳昶旻
研究生(外文):CHANG-MING CHEN
論文名稱:基於特徵權重做文本分類
論文名稱(外文):Weight of Features in Automatic Data Classification
指導教授:留忠賢留忠賢引用關係
指導教授(外文):Chung-Shyan Liu
學位類別:碩士
校院名稱:中原大學
系所名稱:資訊工程研究所
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:2013
畢業學年度:101
語文別:中文
論文頁數:40
中文關鍵詞:特徵選取WordNetK-Kearest-Neighbor分類法TF-IDFStemming
外文關鍵詞:WordNetK-Nearest- NeighborTF-IDFFeature SelectionStemming
相關次數:
  • 被引用被引用:5
  • 點閱點閱:655
  • 評分評分:
  • 下載下載:2
  • 收藏至我的研究室書目清單書目收藏:0
一般常用的文件,常會因為沒有作好分類,讓使用者不容易尋找到相關的文件,而在文件自動分類的成效上,有沒有做字詞選取以及過濾是一個非常重要的步驟,因為往往對分類的精準度有直接且重大的影響。本論文結合Stemming及TF-IDF方法再加上WordNet工具來過濾出特徵值。我們提出對知識管理系統(Knowledge Management System,KMS)中的知識文件做Stemming並透過TF-IDF計算出字詞在每篇知識文件的權重值,我們以未分類的食譜文件為例來做分類,因此我們再結合WordNet過濾出與食物相關的字詞來做為特徵值,組成特徵字詞權重矩陣,這部分利用前處理挑選字詞來代表每篇知識文件。接著做K-fold cross-validation的交叉比對分析,進而產生出較好的Training Model。這部分供給還未分類的文件作為參考依據,透過k-nearest-neighbor分類法我們將未分類的資料作自動分類的工作,並和未做字詞過濾作比較。實驗結果顯示文件中的贅詞會造成分類正確率降低,因此做字詞過濾可以提高分類的正確率。最後由商業知識管理系統Vitals/KM所提供的API,將未分類的文件放入知識管理系統中對應的分類夾當中。



It will be difficult for users to find needed documents if documents are not properly classified. Feature selection and screening in is an important step in automatic document classification. The documents in a Knowledge Management System are stemmed and then the weight of each term associated with a document is calculated using TF-IDF. WordNet was used to screen the relevant keywords from example recipe files to compose the feature vectors. Cross-Validation method was used to train the training model. The unclassified documents and then classified using k-nearest-neighbor method using the training model. After classification, the documents are moved to the corresponding folder in KMS using the API of Vitas/KM. The accuracy was compared with the data without feature selection and screening.



目錄
摘要 I
Abstract II
致謝 III
目錄 IV
圖形目錄 VI
表格目錄 VIII
第一章 簡介 1
第二章 背景知識 3
2.1 機器學習 3
2.2 WordNet 4
2.3 Stemming 5
2.4 TF-IDF 6
2.5 K-Fold Cross-Validation 8
2.6 KNN演算法 9
第三章 研究方法與流程 12
第四章 系統實作與實驗結果 14
4.1 前處理 14
4.2 計算權重 18
4.3 K-Fold Cross-Validation & KNN分類正確率比較 20
4.4 更新至Vitals/KM分類夾 28
第五章 結論和未來工作 29
參考文獻 30

圖形目錄
圖 1 向量空間中餘弦定理表示 10
圖 2系統分類流程圖 13
圖 3 以KM API抓取文章 14
圖 4 抓取文章並記錄下文章編號及名字 15
圖 5 Seo停用字詞表(a) 16
圖 6 原始文件內容 16
圖 7 經由Stemming及字詞切割後的文件 17
圖 8特徵值計算TF*IDF 18
圖 9 WordNet建構值 19
圖 10 查詢文章出現的字 19
圖 11 被過濾掉的部分字詞 21
圖 12 KNN分類法找出最相近的類別 22
圖 13 k值=1的Cross-Validation 23
圖 14 k值=2的Cross-Validation 23
圖 15 k值=3的Cross-Validation 24
圖 16 k值=4的Cross-Validation 24
圖 17 k值=5的Cross-Validation 24
圖 18 k值=6的Cross-Validation 25
圖 19 k值=7的Cross-Validation 25
圖 20 k值=8的Cross-Validation 25
圖 21 k值=9的Cross-Validation 26
圖 22 k值=10的Cross-Validation 26
圖 23 K值1到10的5次Cross-Validation平均 26
圖 24 Vitals/KM分類夾(Chops) 28
圖 25 Vitals/KM子分類夾(PorkChops) 28

表格目錄
表 1 TF-IDF公式 6
表2特徵字詞權重矩陣 21
表3 實驗正確率 22

參考文獻
[1]M. Alavi and D. E. Leidner, “Review: Knowledge Management and
Knowledge Management Systems: Conceptual Foundations and Research Issues”, MIS Quarterly, Vol. 25, Issue. 1, 107-136, 2001.
[2]FoodNetwork, http://www.foodnetwork.com/, May 2012.
[3]M. F. Porter, “An Algorithm for Suffix Stripping”, Program: electronic library and information systems, Vol. 14 Iss : 3, pp. 130-137
[4] Zaman, A.N.K, “Evaluation of stop word lists in text retrieval using Latent
Semantic Indexing”, ICDIM, 2011, pp. 133-136
[5] WordNet, http://wordnet.princeton.edu/, March 2013
[6] Caon, D.R.S, “Experiments on acoustic model supervised adaptation and evaluation by K-Fold Cross Validation technique”, ISVC, 2012, pp. 1-4.
[7] T. Cover and P. Hart, “Nearest neighbor pattern classification”, IEEE Transactions on Information Theory, vol. 13, no. 1, 1967, pp. 21-27
[8] Ming Xue, “A Study and Application on Machine Learning of Artificial Intelligence”,
JCAI, 2009, pp. 272-274
[9] Vijaya, M.S, “Password Strength Prediction Using Supervised Machine Learning
Techniques”, ACT, 2009, pp. 401-405.
[10]Hamel, L, “Visualization of Support Vector Machines with Unsupervised Learning”, CIBCB, 2006, pp. 1-8.
[11]Yaw-Huei Chen, ”Chinese readability assessment using TF-IDF and SVM”, ICMLC, 2011, pp. 705-710
[12]Hafner, M, ”Evaluation of cross-validation protocols for the classification of endoscopic images of colonic polyps”, CBMS, 2012, pp. 1-6.
[13]You, J. M., & Chen, K. J. ”Improving context vector models by feature
clustering for automatic thesaurus construction”. In Proceedings of
the Fifth SIGHAN Workshop on Chinese Language Processing, COLING-ACL, 2006, pp. 1-8.
[14]Guha, S, Rastogi, R, & Shim, K. ”CURE: an efficient clustering algorithm for large databases”. ACM SIGMOD,Vol. 27, No. 2, pp. 73-84.
[15] Vitals/KM, Jun 2013, http://www.gss.com.tw/index.php/product-and-service
/vitalskm.

電子全文 電子全文(本篇電子全文限研究生所屬學校校內系統及IP範圍內開放)
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊