跳到主要內容

臺灣博碩士論文加值系統

(18.97.9.171) 您好!臺灣時間:2024/12/10 14:18
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:林政男
研究生(外文):Lin Cheng Nan
論文名稱:以共現語詞為基礎的特徵選取在文件自動分類上之研究
論文名稱(外文):Co-Occurrence Based Feature Selection in Automatic Text Classification
指導教授:李御璽李御璽引用關係
指導教授(外文):Lee Yue-Shi
學位類別:碩士
校院名稱:銘傳大學
系所名稱:資訊管理研究所
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2004
畢業學年度:92
語文別:中文
論文頁數:38
中文關鍵詞:文件分類特徵選取共現語詞
外文關鍵詞:Text classificationFeature selectCo-occurrence
相關次數:
  • 被引用被引用:9
  • 點閱點閱:431
  • 評分評分:
  • 下載下載:71
  • 收藏至我的研究室書目清單書目收藏:8
文件分類 (Text Classification) 一直是文件探勘 (Text Mining) 領域重要的研究項目之一。其主要的目的在於,當收到一個新文件時,要如何利用已事先定義好的類別來判定此新文件的類別為何。這對於目前資訊量暴增的年代來說是一個相當重要的貢獻。藉由此技術,我們就能將每日不斷產生的新文件做一適當的分類,這樣當使用者在找尋文件時,就能以較有效率的方式來搜尋。
通常自動化文件分類的工作分為兩個重要的步驟,第一個是特徵的選取,另一個是相關函數的設計。在本研究中,我們針對文件分類當中特徵選取的方式進行研究,並觀察在不同分類器中的精確率為何,以找出每個分類器所適合的特徵單位。首先我們使用兩種特徵擷取的技術:斷詞處理以及非斷詞處理來擷取單一語詞的特徵。之後我們利用單一語詞所組合而成的共現語詞來當作新的特徵。之後我們參考了VSM、kNN以及SVM來當作我們的分類器,並實驗四種不同的特徵在此三種不同的分類器下精確率的影響。經由實驗發現,在VSM的分類器下使用斷詞處理其精確度會比非斷詞處理要高出約2%,但在SVM以及kNN上,非斷詞處理卻比斷詞處理高出於1%。而非斷詞處理所擷取出的特徵的數量過大時,會在建立模型上耗費龐大的時間。由結果來看,雖然非斷詞處理比斷詞處理要耗費了更多的時間,但其精確度卻並無相當大的變化,大都在1%~2%的差距內。因此,若所實驗的分類器為VSM時,所建議的特徵擷取技術可以考慮使用斷詞處理,而在使用kNN以及SVM當作分類方法時,若只考慮精確度的話,非斷詞處理能產生較好的結果;但若要考慮速度以及空間的耗費多寡,則斷詞處理還是能帶來不錯的速度以及分類結果。
Text classification is an important research subject in the Text Mining. The objective is to judge a new document’s category using pre-defined model in the training phase. We can use this technology to preprocess the new document to give a category, then the user would find the information they wanted.
Automatic text classification usually has two phases: feature selection and function designed. We use two feature select technology: auto-tag, non-auto-tag, and three classifiers: VSM, kNN, and SVM. For the feature unit, we have single term and co-occurrence. Then we use two feature units and try to find the accuracy in the three classifiers. In the experiment results, VSM using auto-tag technology has the better accuracy, and kNN and SVM using non-auto-tag technology have the better accuracy than auto-tag.
中文摘要 i
英文摘要 ii
致謝 iii
目錄 iv
表目錄 v
圖目錄 vi
第壹章 序 論 1
第一節 研究背景與動機 1
第二節 研究問題與目的 2
第貳章 文獻探討 4
第一節 特徵選取 4
第二節 分類器 8
第參章 研究方法 16
第一節 實驗資料 16
第二節 實驗設計 18
第肆章 研究結果 19
第一節 向量空間模型實驗結果 21
第二節 k最鄰近法實驗結果 22
第三節 SVM實驗結果 24
第四節 向量空間模型、k最鄰近法
以及SVM實驗結果的比較 25
第伍章 結論與未來展望 26
參考文獻 27
附錄一 28
1. 王稔智和張俊盛,「適應性文件分類系統」,第十四屆計算語言學研討會論文集,民國90年,頁99-121。
2. 杜海倫,以標題進行新聞自動分類,國立清華大學資工系碩士論文,民國88年。
3. 柯淑津和許雅芬,新聞文件自動分類之研究,東吳大學資訊科學系碩士論文,民國91年。
4. Yiming Yang & Jan O. Pedersen, “A Comparative Study on Feature Selection in Text Categorization.” Proceeding of 14th International Conference on Machine Learning, 1997.
5. Jyh-Jong Tsay & Jing-Doo Wang, “Design and Evaluation of Approaches to Automatic Chinese Text Categorization.” Computational Linguistics and Chinese Language Processing Vol. 5, No. 2, pp. 43-58, August 2000.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top