|
資料分群的技術是將一群資料集分成很多小集合,使得在同一集合的資 料都非常相似,而要達到這種功能需要一種計算兩個資料相似度的策略, 傳統計算相似度的方法是將每一資料當做一長度為k的向量,再利用一演 算法計算兩資料間的相似度,像k-means 演算法和Fuzzy c-means演算法等。在這篇論文裡我們介紹一種架構來做資料分 群,在此架構裡每一資料被當成貝氏網路上的一個節點,藉由設定貝氏網 路裡非根節點的條件機率,然後給定一些證據,就可以求出貝氏網路上其 他節點可能機率值。貝氏網路是一種用來做機率推論方法,過去這幾年裡 他已被拿來應用在很多不同的領域裡,像醫學診斷和資訊檢索等。這篇論 文的想法主要來自貝氏資訊檢索,貝氏資訊檢索利用貝氏網路來計算文章 和資訊要求間的相似度,它的優點是它可以模擬各種不同資訊檢索的模型 ,而且它還有一清楚的理論基礎(貝氏理論),所以我們採用這種方法來 做文章分群。在這篇論文裡,我們還提出了兩個新的觀念,"相似區域"和 相似頻率,我們利用相似區域去建構背氏網路,利用相似頻率去選擇種子 文章。我們也提出一調整的方法刪除一群裡不相似的文章。當要將一文章 分配給某一群時,每一篇文章可以唯一屬於一個群也可以屬於一個以上的 群。
|