研究生(外文):Chang Chien Ya-Wen
論文名稱(外文):A Study of Association Rules Based on Matrices and Boolean Expressions
指導教授(外文):Tsay Yuh-Jiuan
外文關鍵詞:Data MiningAssociation RuleMatrixBoolean Expression
關聯法則為資料探勘技術中最廣泛應用之技術。最具代表性之Apriori演算法,具有(1)產生大量候選項目集;(2)掃瞄資料庫次數過多之瓶頸,相關研究皆針對Apriori演算法之瓶頸進行改良。本研究以克服Apriori演算法之效能瓶頸為目標,提出兩個以矩陣及布林運算(AND)為基礎的新關聯法則演算法MABAR(Matrix_AND Based Association Rule)與MEBAR(Matrix_Equivalence Based Association Rule),其中MABAR演算法具有只需一次資料庫掃瞄,無需產生大量候選項目集,無需經過資料庫掃瞄即可發掘所有高頻項目集(利用AND運算)以及一次運算程序中可發掘多種長度之高頻項目集等特性。MEBAR演算法具有只需一次資料庫掃瞄,無需產生大量C2即可直接發掘L2,無需逐層產生候選項目集即可產生所有潛在候選項目集(利用布林上三角矩陣、等價關係特性)以及無需經過資料庫掃瞄即可發掘所有高頻項目集(利用AND運算)等特性。本研究所提出之MABAR與MEBAR演算法,經由模擬實驗證實可確保資料探勘結果之正確性,並達到降低資料庫掃瞄次數與時間成本,降低記憶體使用需求與提昇資料探勘效能之目標。
Algorithms of association rules in techniques of data mining are used to find associations of products. Proposed association algorithms in the present studies contain weaknesses such as generating a lot of candidate itemsets, and repeated scanning over the database. In this paper, we present two new algorithms named Matrix_AND Based Association Rule (MABAR) and Matrix_Equivlence Based Association Rule (MEBAR) for efficient association rule mining to overcome these described drawbacks. MABAR is designed based on Matrix and AND Boolean expressions, and MEBAR is designed based on Matrix and Equivlence. Both of MABAR and MEBAR require scan database once, discover frequent itemsets without level by level, and require less memory under ensure the correctness of the mined results. Besides, the results of experiments with real-life database show that we can discover all frequent itemsets with MABAR algorithm and MEBAR algorithm faster than Apriori algorithm. Hence, both of MABAR and MEBAR outperform Apriori, and are also helpful for the decision makers to make a promoting policy and gain more profits for the company.
摘要 I
英文摘要 II
誌謝 III
目錄 IV
圖目錄 VII
表目錄 IX
1、緒論 1
1.1 研究背景 1
1.2 研究動機 2
1.3 研究目的 3
1.4 研究流程 4
1.5論文架構 5
2、文獻探討 6
2.1 資料探勘 6
2.1.1資料探勘之定義 6
2.1.2資料探勘技術所面臨之困難與挑戰 7
2.1.3資料探勘技術之分類 8
2.1.4資料探勘技術介紹 8
2.1.5資料探勘之流程 10
2.1.6資料探勘技術之應用 11
2.2 關聯法則 13
2.2.1關聯法則之意義 13
2.2.2關聯法則之優點 14
2.2.3關聯法則之演進 15
2.3 Apriori演算法 19
2.4 Partition演算法 23
2.5 Dynamic Itemset Counting (DIC)演算法 25
2.6 Tree-Based Association Rule (TBAR)演算法 27
2.7矩陣法(Matrix Approach) 31
3、研究方法 35
3.1矩陣與AND運算為基礎之關聯法則(MABAR) 37
3.1.1 MABAR演算法 37
3.1.2 MABAR範例推演 41
3.2矩陣與等價關係為基礎之關聯法則(MEBAR) 45
3.2.1 MEBAR演算法 49
3.2.2 MEBAR範例推演 55
4、模擬實驗 59
4.1實驗平台與測試資料庫 59
4.2 實驗設計 61
4.3 實驗結果與分析 61
4.3.1 MABAR模擬實驗 61
4.3.2 MEBAR模擬實驗 68
5、結論與未來發展 76
5.1矩陣與AND運算為基礎之關聯法則(MABAR) 76
5.2矩陣與等價關係為基礎之關聯法則(MEBAR) 77
5.3 未來研究發展 78
參考文獻 79
作者簡介 84
