跳到主要內容

臺灣博碩士論文加值系統

(3.236.110.106) 您好!臺灣時間:2021/07/24 06:20
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:吳文盛
研究生(外文):Wen-sheng Wu
論文名稱:應用屬性值切割與基因分群技術以推估遺漏值
論文名稱(外文):Applying Attribute Values Partitioning and GA Clustering Technique for Estimating Missing Values
指導教授:邱宏彬邱宏彬引用關係
指導教授(外文):Hung-pin Chiu
學位類別:碩士
校院名稱:南華大學
系所名稱:資訊管理學系碩士班
學門:電算機學門
學類:電算機一般學類
論文種類:學術論文
論文出版年:2009
畢業學年度:97
語文別:中文
論文頁數:71
中文關鍵詞:群集分析遺漏值資料探勘屬性值切割法基因演算法
外文關鍵詞:attribute values partitioningclustering analysismissing value estimationdata mininggenetic clustering algorithms
相關次數:
  • 被引用被引用:2
  • 點閱點閱:212
  • 評分評分:
  • 下載下載:38
  • 收藏至我的研究室書目清單書目收藏:0
  資料探勘是由大量資料中挖掘出隠藏知識的重要技術,目前企業或政府各方面決策幾乎是以歷史資料探勘結果分析為基礎,故資料庫的完整性則十分的重要。若是資料庫中出現過多的遺漏值,則容易影響資料分析結果的有效性。我們以群集分析為基礎來建立一個遺漏值推估模組,將物以類聚、群內同質、群間異質的特性應用在遺漏值推估上。再利用屬性值切割法來找出屬性之間的關聯,讓分群後的資料關聯與特性更為緊密;另外基因演算法具備隨機多點搜尋與演化過程的特性,可經由不斷演化找出較佳的分群結果。所以本研究嘗試結合屬性值切割法與基因分群技術,來進行遺漏值的推估,讓使用者可以在使用資料探勘方法時仍可保有最大的資訊量,期望探勘出的結果更具意義。本研究將此推估模式應用到四個真實資料集上,以驗證本研究方法之可行性與推估效能。
  Data mining is a vitally important technique to uncover hidden information from a set of raw data. The managers can exploit the mining results to make effective decisions. However, missing data significantly distort data mining results. Therefore, data preprocessing of missing values is very critical in successful data mining. Data clustering techniques is the partitioning of a dataset into subsets so that the data in each subset share common pattern. The shared pattern can be utilized to estimate the missing values. In this study, we propose an attribute values partitioning technique to preserve the relationships between attributes for estimating missing values. In addition, genetic algorithm is a powerful population-based stochastic search process for finding the robust clustering result. Therefore, we also propose a genetic clustering-based approach to estimate the missing data. Furthermore, we integrate the attribute values partitioning with the genetic clustering techniques to improve the estimation performance. Effectiveness of the proposed approaches is demonstrated on four datasets for four different rates of missing data. The empirical evaluation shows the integrated missing data processing approach provides competitive results or performs well compared with the existing methods.
論文口試合格證明…………………………iii
著作財產權同意書…………………………iv
論文指導教授推薦函………………………v
誌謝…………………………………………vi
中文摘要……………………………………vii
英文摘要……………………………………viii
目錄…………………………………………ix
表目錄………………………………………x
圖目錄………………………………………xiii
 
第一章 緒論 1
第一節 研究背景與動機 1
第二節 研究目的 4
第三節 研究程序 4
第四節 論文架構 6
 
第二章 文獻探討 7
第一節 遺漏值 7
第二節 群集分析 10
第三節 基因演算法 13
 
第三章 遺漏值推估方法 17
第一節 群集特性引導之遺漏值推估模組 17
第二節 屬性值切割回填遺漏值模組 20
第三節 基因分群推估遺漏值模組 31
第四節 本研究提出的遺漏值推估模組 41
 
第四章 實驗結果 44
第一節 實驗環境 44
第二節 參數設定 44
第三節 實驗資料集 45
第四節 實驗設計 51
第五節 實驗結果 53
 
第五章 結論與未來研究方向 66
第一節 研究結論 66
第二節 未來研究方向 67
 
參考文獻 69
[1] 李建逸,「基於間隙法與K-means分群法之遺漏值推估模式」,南華大學資訊管理學系研究所碩士論文,94年6月。
 
[2] 沈永勝,「整合自動分群技術與加權式灰關聯技術於大型資料庫內遺失值之處理」,國立臺灣科技大學電子工程學系研究所碩士論 文,94年6月。
 
[3] 邱宏彬、吳文盛及林宜德,「基於基因演算法分群技術之遺漏值推估模組」,八十五週年校慶暨第十六屆三軍官校基礎學術研討會, 高雄,cs-141~cs148,98年5月。
 
[4] 林俊男,「應用類神經網路法於遺漏值問題之研究」,南華大學資訊管理學系研究所碩士論文,94年6月。
 
[5] 林如梅,「整合遺傳演算法和粒子群最佳化演算法於分群分析之研究」,國立臺北科技大學工業工程與管理系研究所碩士論文,97年6月。
 
[6] 游裕昌,「應用基因群集技術於大型資料庫內遺失值之處理」,南華大學資訊管理學系研究所碩士論文,93年6月。
 
[7] 魏岑甄,「基於反彈機制KPSO分群之有效遺漏值推估方法」,南華大學資訊管理學系研究所碩士論文,97年6月。
 
[8] 曾憲雄著,資料探勘 (Data Mining),台北,旗標出版社,94年。
 
[9] 蘇木春、張孝德著,機器學習:類神經網路、模糊系統以及基因演算法則,全華科技圖書,89年。
 
[10] C.H. Cheng and J.W. Wang ” A new approach for estimating null value in relational database”,Soft Comput 10, pp.104-114 (2006).
 
[11] S. Bandyopadhyay and U. Maulik, “Genetic clustering for automatic evolution of clusters and application to image classification”, International Journal of Pattern Recognition, 35 , pp.1197-1208 (2002).
 
[12] S.M. Chen and H.R. Hsiao ” A New Method to Estimate Null Values in Relational Database Systems Based on Automatic Clustering Techniques”, Information Sciences 169, pp.47-69 (2005).
 
[13] Y.T. Kao, Erwie Zahara and I-W. Kao ” A hybridized approach to data clustering”, Expert Systems with Applications ,34, pp.1754-1762 (2005).
 
[14] U. Maulik and S. Bandyopadhyay “Genetic algorithm-based clustering technique”, International Journal of Pattern Recognition, 33 , pp. 1455-1465 (2000).
 
[15] Little, R. J. A. and Rubin, D. B. Statistical analysis with missingdata. New York:Wiley. (1987).
 
[16] Y.T. Kao,Erwie Zahara and I.W. Kao ” A hybridized approach to data clustering”,Expert Systems with Applications 34, pp.1754-1762 (2008).
 
[17].M. Negnevitsky. Artificial Intelligence: A Guide to Intelligent Systems (Second Edition). Addison Wesley, New York (2005).
 
[18] H. R. Hsiao and S. M. Chen, "A new automatic clustering algorithm for fuzzy query processing," Proceedings of the 6th Conference on Artificial Intelligence and Applications, Kaohsiung, Taiwan, Republic of China, pp. 550-555, November 2001.
 
[19] Fayyad, U., G. Piatetsky-Shapiro and P. Smyth, “From Data Mining to Knowledge Discovery: An Overview,” In: Advances in Knowledge Discovery and Data Mining, AAAI/MIT Press, (1996).
 
[20] Periklis, A., “Data Clustering Techniques”, March 2002. URL: http://www.cs.toronto.edu/~periklis/pubs/depth.pdf
 
[21] M. Dorigo, M. Birattari, and T. Stutzle. “Ant Colony Optimization: Artificial Ants as a Computational Intelligence Technique,” IEEE Computional Intellige- nce Magazine, November 2006, pp. 28-39.
 
[22] http://archive.ics.uci.edu/ml/
 
[23] http://www.stat.ualberta.ca/~mizera/441/oils.d
 
[24] http://www.isical.ac.in/~sushmita/patterns/vowel.dat
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top
無相關期刊