研究生(外文):Wei-Ting Chen
論文名稱(外文):Multiclass Support Vector Learning with Applications to Text Classification
指導教授(外文):Jiann-Horng Lin
外文關鍵詞:Support Vector MachinesText ClassificationMulticlass classification
摘 要
在本論文中,我們提出了一個基於多類支持向量學習的新方法來做電子文件的分類。支持向量機(Support Vector Machines, SVMs)是一個在高維度特徵空間的線性學習系統。而其學習演算法是從最佳化理論以及統計學習理論得來的。本論文的主要動機來自於線上資訊的大量快速成長。電子文件分類便扮演處理與組織電子文件的關鍵技術。這可以用在全球網際網路-WWW如新聞電子文件的分類與搜尋上。由於電子文件有以下幾點特色:(1)高維度的輸入空間;(2)很少有不相關的Features;(3)文件向量(Document Vectors)是稀疏的;(4)大部分的電子文件分類問題是線性可分的。因此,SVM是一個非常合適的分類工具。在多類別支持向量學習中,我們提出了一個改善的決策單向非循環分類器策略,並將其應用電子文件分類上。我們發展一些快速且精確的電子文件分類的軟體工具。這將提供龐大資料庫搜尋/組織之複雜問題一個解決方法。我們更擴展我們建構支持向量學習系統的一些觀念,對電子文件分類做更深入的研究。
關鍵字: 支持向量機, 電子文件分類, 多類別分類

In this thesis, we propose a new method of text classification based on multiclass support vector learning. Support Vector Machines (SVMs) are learning systems that use a hypothesis space of linear functions in a high dimensional feature space, trained with a learning algorithm from optimization theory that implements a learning bias derived from statistical learning theory. With the rapid growth of online information, text classification has become one of the key techniques for handling and organizing text data. Text classification is used to classify news stories and to find interesting information on the World Wide Web. To find out what methods are promising for learning text classifiers, we should find out more about the properties of text: (1) High dimensional input space; (2) Few irrelevant features; (3) Document vectors are sparse; (4) Most text categorization problems are linearly separable. In multiclass support vector learning, we propose an improved Decision Directed Acyclic Graph classifier strategy with application in text classification. We develop software tools for rapid and accurate text classification. This provides an alternative approach to undertake the highly complex problems of database search and organization. Benchmark datasets with different characteristics are used for comparative study.
Keywords: Support Vector Machines, Text Classification, Multiclass classification

目 錄
誌謝………………………………………………………………………………… III
目錄………………………………………………………………………….. IV
圖目錄……………………………………………………………………….. VI
表目錄……………………………………………………………………….. VIII
第一章 緒論………………………………………………………………1
1.1 研究背景與動機……………………………………………………1
1.2 論文組織結構………………………………………………………7
第二章 電子文件分類探討………………………………………………8
2.1 電子文件分類介紹…………………………………………8
2.2 電子文件分類相關文獻探討………………………………………9
2.3 支持向量機方法優越的準確性……………………………………10
2.3.1 支持向量機與其他方法的比較…………………………..11
2.3.2 支持向量機在多類別分類決策比較……………………..14
第三章 支持向量機………………………………………………………15
3.1 支持向量機的基本概念……………………………………………15
3.2 支持向量機的演算法………………………………………………17
3.3 支持向量分類、分群、迴歸及模糊支持向量機…………………22
3.4 支持向量機的應用…………………………………………………24
第四章 多類別支持向量學習……………………………………………26
4.1 一對剩餘分類器策略………………………………………………26
4.2 一對一分類器策略…………………………………………………28
4.3 階層式或樹狀支持向量分類器策略………………………………29
4.4 決策單向非循環圖形分類器策略…………………………………31
4.5 各種多類別分類方法的優缺點比較………………………………33
第五章 多類別支持向量學習在電子文件分類上的處理………………34
5.1 整體架構……………………………………………………………34
5.2 處理過程簡介………………………………………………………36
5.3 輸入格式及來源……………………………………………………37
5.4 前置處理……………………………………………………………38
5.4.1 字之頻率計算……………………………………………..38
5.4.2 贅字的處理………………………………………………..42
5.4.3 特徵字的選擇……………………………………………..44
5.5 核心處理……………………………………………………………48
5.5.1 核心處理架構……………………………………………..48
5.5.2 多類別分類問題…………………………………………..50
第六章 實驗結果…………………………………………………………52
6.3 實驗結果………………………………………………………………….59
第七章 結論與未來研究方向……………………………………………61
7.1 結論…………………………………………………………………61
7.2 未來研究方向………………………………………………………62
圖3:Single Perceptron……………………………………………………………15
圖 4:SVM Binary Classification………………………………………….………..16
圖 5:Support Vector Machines 整體架構…………………………………………17
圖 9:Support Vector Clustering…………………………………………………….23
圖10:Support Vector Regression………………………………………………….. 23
圖11:Fuzzy Support Vector Machines…………………………………………….24
圖12:One-against-Rest Classifiers Strategy………………………………………..27
圖13:One-against-One Classifiers Strategy I……………………………………….28
圖14:One-against-One Classifiers Strategy II………………………………………29
圖15:Hierarchies or trees of binary SVM Classifiers Strategy……………………30
圖16:Decision Directed Acyclic Graph I………………………………………….31
圖17:Decision Directed Acyclic Graph II…………………………………………32
圖19:SVM for Text Classification………………………………………………….35
圖20:Input Vectors示意圖…………………………………………………………37
圖21:Northern Webs Spider View的網頁…………………………………………39
圖23:Web Frequency Indexer的網頁…………………………………………….40
圖24:Web Frequency Indexer計算頻率…………………………………………41
圖25:Pick Stop of Words in Bags of Words……………………………………….43
圖26:Example of the DDAG for multiclass classification………………………..49
圖27:Example of the proposed multiclass support vector learning…………………51
圖31:分類前的Training Data及Test Data格式…………………………………56
表1:Classification Accuracy from [26] Thorsten Joachims……………………….11
表2:Classification Accuracy from [29] Thorsten Joachims………………………11
表3:Classification Accuracy from [29] Thorsten Joachims……………………….12
表4:Classification Error from [42] Jason and Ryan……………………………….12
表5:Classification Error from [42] Jason and Ryan……………………………….13
表6:Classification Error from [43] Friedhelm schwenker………………………….13
表7:Classification Error from [40] John and Nello…………………………………14

