研究生(外文):TZU-TIEN YU
論文名稱(外文):Developing Entropy-Based Discretization Method to Discover the Rare Association Rules of Cerebrovascular Disease
指導教授(外文):Chao Ou-Yang
口試委員(外文):Ren-Jieh KuoHan-Cheng Wang
外文關鍵詞:Cerebrovascular DiseaseEntropyApriori –RareRare association rules
腦中風是國人所熟知的高風險疾病,雖然由腦部核磁共振(MRI, Magnetic Resonance Imaging)檢查可了解腦部血管阻塞之狀況,但由於腦部MRI並非一般健檢項目,因此民眾除非安排專門檢查,一般來說都無法得知自己腦部血管阻塞的程度。然而一般性的健康檢查則是國人可以定期安排的檢查,因此本研究擬運用腦部健檢資料集(包含一般性健檢資料與MRI檢查結果之診斷資料)去探勘一般健檢項目與腦中風的相關性。
由於Apriori關聯分析法運用高頻項目集之概念去找出滿足最小支持度(Minimum Support)與最小信賴度(Minimum Confidence)的關聯法則,因此往往探勘出的是一些引起中風的已知法則(例如:高齡、高血壓、高血脂、高膽固醇等)。但實務上仍有不少腦部血管病變患者只具有部分特徵(例如:中齡、BMI正常、高血脂、高膽固醇) ,但往往因其發生頻率不是很高而被忽略。而具有這些特徵的民眾,將來可能也有發生腦中風的風險。 所以本研究擬藉由探勘一般健檢項目中,支持度相對次高的項目集中所得的知識進而協助健檢醫師對腦中風的預防。
本研究擬先運用亂度找出雜亂程度最低的區間組合,以利於後續關聯法則的結果。而探勘這些尚未廣為人知之知識項目集的支持度往往比已知知識項目集支持度,因此使用Apriori -Rare演算法,找出支持度相對較低的項目及,挖掘出本研究目標的腦中風未察覺項目法則,找出一些可能引起腦中風的次要屬性區間之關聯預測模型。
Brain strokes have always been highlighted as a big threat to health in Taiwan as well as worldwide. It is costly to detect stroke through brain image examination like Magnetic Resonance Imaging (MRI). Therefore, most of the people don’t know their cerebrovascular conditions.
Apriori is a well known association mining methodology. It can identify the high frequencies itemsets fulfilled the required minimum support and confidence. However, when applying this method in cerebrovascular disease mining, the identified item sets are usually well known due to the concept of high frequency mining. However, in the real world, many patients with cerebrovascular disease might have few rare known symptoms such as medium BMI and medium ages. Therefore, this research will propose an entropy based discritization method along with a Apriori-Rare method to identify the association rules with those rare known knowledge.
This approach includes two stages. In the feature discretization stage, entropy is used as an index to identify the feature intervals with low uncertainty. Then the identified intervals will be applied by the Apriori-Rare algorithm to find the association rules with rare known symptoms. These rules can be a reference for doctors to identify the potential cerebrovascular disease patients.
摘要 I
Abstract II
誌謝 III
目錄 IV
圖目錄 VI
表目錄 VII
第一章 緒論 1
1.1 研究背景 1
1.2 研究目的 2
1.3 研究議題 3
1.3.1腦中風未察覺項目關聯法則 3
1.3.2屬性離散化 3
1.4 重要性 4
1.5 論文架構 5
第二章 文獻探討 6
2.1 腦血管疾病的症狀與分類 6
2.2 關聯法則 7
2.3 離散化 12
2.4 屬性篩選 13
第三章 研究方法 14
3.1 研究流程與架構 14
3.2 資料前處理 16
3.2.1 資料整理 16
3.3.2 處理不平衡資料 16
3.2.3 資料正規化 17
3.3 定義未察覺項目法則 17
3.3.1 關聯法則 17
3.3.2 稀少關聯法則 18
3.4 屬性離散化與篩選 18
3.4.1 Entropy離散化 18
3.4.2 屬性篩選 25
3.5 Apriori-Rare 26
第四章 個案與實驗成果 32
4.1資料介紹 32
4.2資料前處理 34
4.2.1資料整理 34
4.2.2樣本抽樣 36
4.2.3資料轉換 36
4.3 未察覺項目腦中風關聯知識 36
4.4實驗數據結果與分析 38
4.4.1屬性離散化 38
4.4.2屬性篩選 40
4.4.3關聯法則分析 45
4.4.4結果分析 58
第五章 結論與建議 62
5.1 結論 62
5.2 研究限制與未來建議 63
參考文獻 64
附錄 68
