研究生(外文):Meng-Ting Liu
論文名稱(外文):A study of k-means clustering
指導教授(外文):Chu-Hui Lee
外文關鍵詞:Extending K-means clusteringImage segmentationClassifyK-means clustering
聚類是一種數據分析的技術,可將各自相似的對象透過聚類方法形成不同的子集,且同一個子集中的對象都具有一些相似的屬性,常見的方法包括同空間鄰近點數、與坐標軸中最短的空間距離等,應用領域含蓋機器學習(machine learning)、資訊探勘(data mining)、模式識別(pattern recognition)、影像分析(image analysis)以及生物資訊(bioinformatics)。本研究主要分為二個部份,首先是利用K-均值法聚類(K-means clustering)方法應用於食品影像切割;再者是利用K-均值法聚類方法應用於一般數值資料,這兩個部份經修正後都有助於影像切割,在第一個部份,本研究將證明應用於食品等級分析上可切割出較佳的群組數,而第二部份,是將K-均值法聚類應用更加擴大可應用於一般數值上,而修改K-均值法聚類的部分是,改善初始群中心點於亂數選取時的錯誤,再者是對分群組數的選取,希望選取出較佳的分群組數。最後,可由實驗驗證,本研究所提出的修改後的K-均值法聚類,有助於改善原K-均值法聚類之成效。
Clustering is the assignment of a set of observations into subsets (called clusters) so the traits of observations in the same cluster are similar. According to a distance measure or numbers of nearest neighbor points, similarity measurement can be assessed. Clustering is a method of common technique for statistical data analysis used in many fields, including machine learning, data mining, pattern recognition, image analysis and bioinformatics. There are two major parts in this thesis. The first part is K-means clustering applied in food images segmentation. The second part is K-means clustering applied in general data. In both part, we modified the K-means clustering to help the image segmentation. In the first part, we demonstrated our method can segment the food image in enough clusters for the food grading process. In the second part, we provided a heuristic approach on K-mean clustering. Initial centers would be chose in our proposed algorithm instead of randomly selection. And then we used the statistic approach to choose the suitable number of clusters. The experimental showed our proposed algorithm can help the clustering process.

中文摘要 I
目錄 III
表目錄 V
圖目錄 VI
第一章 緒論 1
1.1 研究背景 1
1.2 研究動機 2
1.3 研究目的 3
1.4 研究範圍 4
1.5 研究結構 4
第二章 文獻探討 5
2.1 分類技術 5
第三章 K-均值法聚類應用於影像分析之探討 8
3.1 影像切割的研究架構 8
3.2 應用於影像切割的架構流程 9
3.3 .1 影像切割演算法 10
3.3 .2 初始群中心點選取 10
3.3 .3 分群組數的選取 11
3.3 .3.1 基準組的選取 13
3.3 .3.2 較佳群組數的選取原則 13
第四章 延伸K-均值法聚類應用於一般數值資料之探討 14
4.1 延伸K-均值法聚類架構圖 14
4.2 延伸K-均值法聚類初始群中心點的選取 15
4.3 延伸K-均值法聚類分群組數的選取 16
第五章 實驗與討論 20
5.1 應用於影像切割 20
5.2 延伸K-均值法聚類初始群中心點的選取 27
5.3 延伸K-均值法聚類分群組數的選取 34
第六章 結論與未來工作 46

表 5.1.1 各分群組數中的群中心點及群點數 24
表 5.1.2 各分群組數中的群中心點及群點數 27
表 5.2.1資料分析c3_5數據 28
表 5.2.2資料分析c3群組錯誤率比較表 30
表 5.2.3資料分析c4群組錯誤率比較表 30
表 5.2.4資料分析c5群組錯誤率比較表 31
表 5.2.5資料分析c6群組錯誤率比較表 31
表 5.2.6資料分析c7群組錯誤率比較表 32
表 5.2.7資料分析群組錯誤率總表 32
表 5.3.1資料分析c2群組分群組數選取表 34
表 5.3.2資料分析c3群組分群組數選取表 35
表 5.3.3資料分析c4群組分群組數選取表 36
表 5.3.4資料分析c5群組分群組數選取表 37
表 5.3.5資料分析c6群組分群組數選取表 38
表 5.3.6資料分析c7群組分群組數選取表 39
表 5.3.7資料分析c8群組分群組數選取表 40
表 5.3.8資料分析c9群組分群組數選取表 41
表 5.3.9資料分析c10群組分群組數選取表 42
表 5.3.10資料分析群組分群組數選取正確率總表 43


圖 3.1.1 影像切割架構流程圖 8
圖 3.2.1 影像切割架構流程圖 9
圖 4.1.1延伸K-均值法聚類流程圖 14
圖 5.1.1 加拿大牛肉Prime級 21
圖 5.1.2 加拿大牛肉A級 21
圖 5.1.3 美國富士蘋果 22
圖 5.1.4 使用延伸的K-均值法聚類計算後輸出的牛肉影像 C=3~ 6的輸出結果。 22
圖 5.1.5使用延伸的K-均值法聚類計算後輸出的牛肉影像C=6~8的輸出結果。 23
圖 5.1.6使用延伸的K-均值法聚類計算後輸出的蘋果影像C=3~7的輸出結果。 25
圖 5.1.7使用延伸的K-均值法聚類計算後輸出的蘋果影像C=7~10的輸出結果。 26
圖 5.2.1數值分析之c3_5分佈圖 29
圖 5.3.1資料組c10_6的分群狀況 44
圖 5.3.2資料組c10_4的分群狀況 44
