(3.239.33.139) 您好!臺灣時間:2021/03/08 17:30
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果

詳目顯示:::

我願授權國圖
: 
twitterline
研究生:陳怡靜
研究生(外文):Yi-Ching Chen
論文名稱:從資料庫中找出數值性序列型樣
論文名稱(外文):Mining Quantitative Sequntial Patterns form Databases
指導教授:呂永和
指導教授(外文):Yung-Ho Leu
學位類別:碩士
校院名稱:國立臺灣科技大學
系所名稱:資訊管理系
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2002
畢業學年度:90
語文別:中文
論文頁數:47
中文關鍵詞:資料探勘數值性序列型樣模糊分割
外文關鍵詞:data miningquantitative sequential patternsfuzzy partition
相關次數:
  • 被引用被引用:1
  • 點閱點閱:143
  • 評分評分:系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔系統版面圖檔
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
序列型樣對於使用者的購買行為方面是一個有用的分析方法,在以往的挖掘出序列型樣只考慮了兩個項目組之間購買的順序,但是在一些應用中,具有數量性的序列型樣可能更有用。一個{X}à{Y}的序列型樣代表的是假使一個顧客購買了項目組X,則大多數的時候他可能在之後也會購買Y這個項目組,我們定義了數值性序列型樣,在這個數值性序列型樣中的前因和後果都具有數值性的區段範圍。一個數值性序列型樣的例子就是B[10, 12]àA[17,18],這表示一個顧客購買了10到12個單位的B之後,他在之後可能也會購買17到18個單位的A。
在這篇論文中,我們提出演算法來找出數值性序列型樣,為了找出數值性序列型樣,首先,我們運用布林演算法來找出序列型樣,接著對選擇的序列型樣,我們利用分割推導出相關的數值區段,在這邊提出了兩個分割的方法,一個是模糊分割而另外一個是直接分割。經過實驗結果顯示,這兩個方法都能有效的找出數值區段,直接分割的方式比較有效率,而模糊分割的方式比較不受初始區段數的影響。

Sequential patterns are useful for analyzing the purchasing behaviors of Customers. Previous mining algorithms on sequential patterns consider only the purchasing order between two itemsets. In some applications, sequential patterns with quantities may be useful. A sequential pattern takes the form of {X}à{Y}, which means that if a customer buys itemset X then, most of the time, he will also buy itemset Y later. We define a quantitative sequential pattern as a sequential pattern in which both the antecedent and the consequence are associated with a quantity interval. One example of quantitative sequential pattern is B[10, 12]àA[17,18], which means that if a customer buys 10 to 12 units of B, he will also buy 17 to 18 units of A later.
In this Thesis, we develop algorithms for mining quantitative sequential patterns. To find quantitative sequential patterns, we first apply the Boolean algorithm to derive the set of all sequential patterns. Then for a selected sequential pattern, we use partition to derive the associated quantity intervals. Two partition methods have been proposed. One of them is fuzzy partition while the other is direct partition. Experiments show that both methods find all valid quantity intervals. Besides, the direct partition is more efficient while the fuzzy partition is less sensitive to the initial partition unit.

目 錄
第一章 緒論 …………………………………………………………… 1
1.1 資料探勘(Data Mining)簡介 …………………………………… 1
1.2 序列型樣(Sequential Pattern)的定義 ………………………… 2
1.3 數值性範圍(Quantitative Interval)的定義 ………………… 4
1.3 論文架構 ………………………………………………………… 4
第二章 相關研究 ……………………………………………………… 6
2.1序列型樣(Sequential Pattern) ………………………………… 6
2.2分群(Cluster) ……………………………………………………… 9
2.3模糊集合理論(Fuzzy Set Theory) ……………………………… 9
2.4布林演算法(Boolean Algorithm) ……………………………… 12
第三章 針對數值性欄位找出數值性序列化型樣 ………………… 14
3.1 資料型態的轉換 ………………………………………………… 16
3.2 產生高頻 1-項目組 ……………………………………………… 18
3.3 高頻項目組的產生 ……………………………………………… 19
3.4 高頻序列的產生 ………………………………………………… 21
3.5 找出相關的交易 ………………………………………………… 25
第四章 找出相關交易購買量的區段 ……………………………… 30
4.1 利用模糊概念找出滿足條件的範圍 …………………………… 30
4.1.1利用模糊分割求顧客的歸屬程度 ………………… 30
4.1.2找出滿足最小顧客支持度的方塊 ………………… 33
4.2 非模糊概念找出滿足條件的範圍 ……………………………… 34
4.3 縮減區段範圍 …………………………………………………… 37
4.4 產生區段範圍結果 ……………………………………………… 37
第五章 實驗結果與分析 …………………………………………… 39
5.1 測試資料和環境 ………………………………………………… 39
5.2 實驗結果分析 …………………………………………………… 39
5.2.1 各個階段所花時間 ………………………………… 40
5.2.2 分割區段數的影響 ………………………………… 42
5.2.3 不同顧客數的影響 ………………………………… 43
第六章 結論與建議 ………………………………………………… 44
參考資料 ……………………………………………………………… 45
作者簡介 ……………………………………………………………… 47
圖 表 次
圖2.1 找出序列化型樣的過程 …………………………………… 8
圖2.2 產生模糊序列化型樣的過程 ……………………………… 12
圖3.1 找出資料庫中數值性欄位的數值性序列化型樣 ………… 15
圖3.2 TI∪TCT的Count布林運算 ………………………………… 20
圖3.3 順序位元的計算 …………………………………………… 22
圖3.4 序列化型樣的例子 ………………………………………… 26
圖3.5 尋找相關交易的範例 ……………………………………… 27
圖4.1 交易購買量範例 …………………………………………… 31
圖4.2 模糊分割區段 ……………………………………………… 32
圖4.3 所有顧客對模糊方塊的歸屬程度 ………………………… 33
圖4.4 非模糊概念的分割 ………………………………………… 36
圖4.5 兩種找出區段範圍的結果 ………………………………… 38
圖5.1 各階段所需時間 …………………………………………… 40
圖5.2 利用模糊分割找出數值性序列化型樣之時間比例 ……… 41
圖5.3 利用非模糊分割找出數值性序列化型樣之時間比例 …… 41
圖5.4 分割區段數對於時間的影響 ……………………………… 42
圖5.5 不同顧客數對於時間的影響 ……………………………… 43
表1.1  資料庫中顧客序列的例子 ……….. 4
表3.1 交易資料範例 …………………….. 16
表3.2 產品編號表 ……………………….. 17
表3.3 TI∪TCT表格 …………………….. 17
表3.4 高頻1-項目組 …………………….. 19
表3.5 高頻1-序列 ……………………….. 21
表3.6 高頻2-序列 ……………………….. 22
表3.7 高頻3-序列 ……………………….. 23

[1]Jiawei Han, Micheline Kamber. Data Mining : Concepts and Techniques, Simon Fraser University(2000).
[2]Rakesh Agrawal and Ramakrishnan Srikant. “Mining Sequential Patterns," Proc. of IEEE International Conference on Data Engineering, pages 3-14(1995).
[3]Rakesh Agrawal and Ramakrishnan Srikant. “Mining Sequential Patterns: Generalizations and Performance Improvements,” Proc. 5th International Conference Extending Database Technology, EDBT(1996).
[4]顏秀珍, 何仁傑, 邱鼎穎, “從大型資料庫中挖掘感興趣的型樣,” The Fifth Conference on Artificial Intelligence and Applications, pp. 84-91,(2000).
[5]Rakesh Agrawal and Ramakrishnan Srikant. “Mining Quantitative Association Rules in Large Relational Tables," The ACM SIGMOD International Conference on Management of Data, pp. 1-12,(June 1996).
[6]B.Lent, A. Swami, and J. Widom. “Clustering Association Rules,” Proc. of IEEE International Conference on Data Engineering, pages 220-231(1997).
[7]Renée J. Miller, Yuping Yang. “Association Rules over Interval Data,” The ACM SIGMOD International Conference on Management of Data, pp. 452-461,(1997).
[8]張志遠,「關聯式資料庫下以分群為主的關聯是規則搜尋方法」,國立台灣科技大學資訊管理所,87學年度。
[9]K. Hirota and W. Pedrycz. “Linguistic Data Mining and Fuzzy Modeling,” IEEE International Conference on Fuzzy Systems, Vol.2, pp. 1488-1496,(1999).
[10]Don-Lin Yang and Wen-Sheng Yang. “An Efficient Mining Algorithm of Frequent Itemsets,” Proceedings of 2001 National Computer Symposium, pp. 107-118,(Dec. 2001).
[11] Been-Chian Chien, Zin-Long Lin, and Tzung-Pei Hong. “An Efficient Mining Algorithm for Mining Fuzzy Quantitative Rules,” IFSA World Congress and 20th NAFIPS International Conference,Vol.3, pp.1306-1311,(2001).
[12]Zadeh. L. A. Fuzzy Sets. Information Control, pp. 338-353,(1976).
[13]W. H. Au, and K. C. C. Chan. “An Effective Algorithm for Discovery Fuzzy Rules in Relational Databases,” IEEE International Conference on Fuzzy Systems, pp.1314-1319,(1998).
[14] W. H. Au, and K. C. C. Chan. “Mining Fuzzy Association Rules,” Proc. 6th ACM International Conference on Information and Knowledge Management, pp.209-215,( 1996).
[15]T. P. Hong, C. S. Kuo, and S. C. Chi. “A Data Mining Algorithm for Transaction Data with Quantitative Values,” Intelligent Data Analysis, Vol.3, No.5, pp. 363-376,(1999).
[16] T. P. Hong, C. S. Kuo, S. C. Chi, and S. L. Wang. “Mining Fuzzy Rules from Quantitative Data Based on the AprioriTid Algorithm,” Proc. of the 2000 ACM symposium on Applied computing 2000,(March 2000).
[17]T. P. Hong, K. Y. Lin, S. L. Wang. “Mining Fuzzy Sequential Patterns from Multiple-Item Transactions,” IFSA World Congress and 20th NAFIPS International Conference, Vol.3 , pp. 1317-1321,(2001).
[18]R. S. Chen, G. H. Tzeng, C.C. Chen, and Y. C. Hu. “ Discovery of Fuzzy Sequential Patterns for Fuzzy Partitions in Quantitative Attributes,” Computer Systems and Applications, ACS/IEEE International Conference on. 2001 , pp. 144 -150,(2001).
[19] Suh-Ying Wur and Yungho Leu. “An Effective Boolean Algorithm for Mining Association Rules in Large Databases," 6th International Conference on Database Systems for Advanced Applications (DASFAA), April 19-21, 1999.

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
系統版面圖檔 系統版面圖檔