跳到主要內容

臺灣博碩士論文加值系統

(44.221.70.232) 您好!臺灣時間:2024/05/30 21:58
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:蔡憲文
研究生(外文):Tsai, Shiann-Wen
論文名稱:利用基因演算法來做文件自動分類之研究
論文名稱(外文):A Study on Automatic Document Classification by Using Genetic
指導教授:洪文斌洪文斌引用關係
指導教授(外文):Wen-Bing Horng
學位類別:碩士
校院名稱:淡江大學
系所名稱:資訊工程學系
學門:工程學門
學類:電資工程學類
論文種類:學術論文
論文出版年:1998
畢業學年度:86
語文別:中文
論文頁數:72
中文關鍵詞:文件分類基因演算法
外文關鍵詞:DocumentClassificationGenetic
相關次數:
  • 被引用被引用:11
  • 點閱點閱:292
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:7
在處理文件分類的問題時,最簡單且最成功的特徵表示法為二元
特徵表示法,它是根據文件中出現的關鍵詞所構成,並依之將該文件
判斷歸屬於某一類別。然而,此分類問題所蘊含的高維度特徵向量(約
含有104 至 106個特徵),對研究者而言,一直是一個艱鉅的挑戰。基
因演算法由Holland於1962-1965年間所提出,其特點在於能夠從龐大
的搜尋空間找出較佳解,同時其染色體結構亦是以二元表示。因此在
本論文中,我們嘗試利用Pei等人所提出的基因演算法分類器,來解
決文件自動分類的高維度問題,透過學習的過程,將文件內在的分類
規則隱含於染色體中;透過基因演算法的計算,經過數百代的演進,
我們選取最佳的解做為往後分類的規則。在本論文中,我們採用
Atmospheric Sciences作為分類的實驗資料,並將之分為訓練資料與測
試資料兩部分。為降低維度,我們僅以其論文題目做為文件之素描。
整個文件自動分類過程可分為二個階段:第一階段為前處理階段,將
訓練文件所出現的英文單字分離出來,當做候選關鍵詞。第二階段為
訓練及測試階段,利用基因演算法學習訓練文件內在分類規則,在世
代演進的同時對測試資料進行測試。實驗結果,對於訓練資料辨識率
為68.6%,測試資料辨識率為70.2%。由於Hamill的實驗也是採用文
章的題目做為素描,同時利用傳統的統計模式來做文件分類,因此我
們利用他的實驗方法做為對照,使用相同的資料,關鍵詞和素描,其
實驗結果顯示對於3674筆的訓練資料其辨識率為56.1%,測試1226
筆資料其辨識率為46.4%。
因此,使用基因演算法產生的分類器在辨識率方面高於Hamill的
統計方法,可見在文件自動分類的問題處理上,採用分類器的基因演
算法確實優於一般傳統的統計方法,可以有效地提昇辨識率,而基因
演算法對於在龐大特徵空間的搜尋亦表現出其優異性。
Abstract:
In the processing of text categorization problem, the simplest
and the most successful feature representation is the
binary representation, which categorizes a document by its
occurring keywords. However, in such a problem, high-
dimensionality of feature vectors (ranging from 104 to 106
features) has been a hard challenge to researchers.
Holland proposed genetic algorithms during 1962-
1965.The excellence of GA is that can find a optimal solution
from huge search space.The representation of
chromosome structure is binary.So in this thesis, we
try to utilize Pei''s classifiers based on genetic algorithms
(GA) to solve the high- dimensionality problem in text
categorization. In addition, Pei''s GA classifiers can
implicit classification rules from training documents.We adopt
the papers from Atmospheric Sciences as our
experimental data, which are divided into two parts:
training data and testing data. In order to decrease the
dimensionality, we use the title of each paper as its
document profile. The process of document
classification can be divided into two phases: Phase one is the
preprocessing phase, which isolates the words
occurring in the training data as candidate
keywords. Phase two is the training & testing phase, which use
genetic algorithms to learn the implicit classification
rules for each category in the training documents.
When it is evolving next generation , it classifies each testing
document based on the evolving rules in the same time. The
experimental results show that the identification rate
of our experiment is obviously higher that those of
traditional statistic methods. This demonstrates that GA
classifiers could be used to effectively increase the
identification rate of text categorization problem with
high-dimensionality.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊