研究生(外文):Chong-Cheng Lee
論文名稱(外文):Design of Optimal Classifiers for Microarray Data Analysis
指導教授(外文):Shiow-Fen HwangShinn-Yin Ho
外文關鍵詞:MicroarrayGenetic AlgorithmGene Selection
微陣列(Mircroarray)是一種能夠快速產生大量基因表現資料的技術。我們藉由分析微陣列基因表現資料而找出與疾病相關的關鍵基因,做為往後診斷之依據。但由於人類的基因數量相當龐大,若是逐一篩選不僅花費的時間成本過高且效果也不佳。因此藉由資訊領域中的分類器設計及特徵值選取技術即可自動化地達到上述目的。在特徵基因選取的問題上,由於微陣列測試基因的數量非常龐大且樣本數量通常不多,因此要從這些基因中挑選出對於分類辨識率有貢獻的特徵基因是一個非常高難度的挑戰。在微陣列分析領域中,過去許多文獻都曾提出各種不同的特徵基因選取方法來達到降低維度以利分析之目的。在著重於多類別微陣列資料的文獻中,曾有文獻以基因演算法(Genetic algorithm, GA)結合最相似分類法(Maximum Likelihood, MLHD)來做測試基因的過濾(簡稱GA/MLHD方法),並獲得不錯的效能。因此,本論文提出以智慧型基因演算法(Intelligent genetic algorithm, IGA)結合MLHD分類器,並改良過去文獻中所提出的適應值估評函式及編碼方式,來達到最大化分類器辨識率及最小化所需基因數量之目的;並希望藉此能夠提出適用於多類別微陣列資料的基因選取方法。本論文以11組常見的微陣列資料來進行實驗,在實驗的結果中,可以明顯看出本文所提出的IGA/MLHD方法不僅比GA/MLHD方法能夠獲得更高的辨識率,且所需的特徵基因數量也較少。此外,由特徵基因挑選頻率也能夠看出IGA/MLHD所挑選出的特徵基因也較為穩定。因此,IGA/MLHD不論是在分類器辨識率、特徵基因數量或是穩定性方面,都明顯優於GA/MLHD。
Microarray is a very useful technique for producing massive gene expression data. We attempt to find the relevant genes of a particular disease by analyzing the gene expression data of microarray. However, because the number of human genes is very large and most of human genes are not relevant to a particular disease, the computation cost will be high and the classification accuracy will likely be low if all human genes are sieved one by one. The expression data of microarray usually have a large number of features but a small amount of samples. Hence, it imposes a great challenge in the problem of selecting relevant genes from all test genes. One of existing efficient methods used to identify relevant genes and effectively discriminate the classes of samples is the hybrid approach based on genetic algorithm and maximum likelihood classification (GA/MLHD). In this thesis, an intelligent genetic algorithm (IGA) based method (IGA/MLHD) with control genes and an improved fitness function is proposed to determine the minimal number of relevant genes and identify these genes, while maximizing classification accuracy simultaneously. In the experiment results, it is shown that IGA/MLHD is superior to the existing method GA/MLHD in terms of the number of selected genes, classification accuracy and the stability.
誌 謝 i
摘 要 ii
Abstract iii
目錄 iv
圖目錄 v
表目錄 vi

第一章 導論 1
1.1 微陣列簡介 1
1.2 微陣列樣本分類 2
1.3 微陣列基因選取 4
1.4 研究目標 5
1.5 論文架構 6

第二章 相關研究 8
2.1 微陣列樣本分類器 8
2.2 基因選擇 12
2.3 基因演算法 15
2.4 智慧型基因演算法IGA 21

第三章 最佳分類器設計 24
3.1 設計方法 24
3.2 設計方法之分析 28

第四章 效能分析與比較 32
4.1 微陣列資料介紹 32
4.2 IGA/MLHD效能提昇之分析 33
4.3 GA/MLHD與IGA/MLHD效能比較 42
4.4 10等份交叉驗證實驗 46

第五章 結論與未來展望 48
5.1 結論 48
5.2 未來展望 50

參考文獻 51
