|
現今電腦的快速發展,已使得資料處理方面的步驟更加的快速,而其主要的運用之一,是有助於我們在眾多繁雜的資料中,能於最短時間內獲得重要且有用的資訊,資料探勘(data mining)的目的便是設法找出隱含於資料庫中的有用資訊。而分類(classification)則是資料探勘的主題之一,其目的是在給定的資料群中加以分析分類,以提供給往後作為分類預測一個重要的依據。但在作資料的分類之時,往往會受限於我們需要一個龐大的的資料庫,才能使得出的資料及訊息具有意義且具有說服力。然欲從資料中獲得有用的資訊時,有時又囿於資料庫過於龐大,實際操作起來必有其困難性。面對此情形,如何將龐大的資料庫以合理的方式將其縮小,或是過濾一些無用的“垃圾”。於是我們考慮經由「分解」的方法以簡化問題。有鑑於此,本研究希望利用因素分析法,過濾一些資料並且尋找出資料之間的相依性,以便於處理龐大資料庫時,能夠節省時間及空間,並且得出一個可令人滿意的答案。在統計學的領域中,因素分析法適用於將屬性變數適當的歸於不同因素之中,因此原屬性變數與分類結果間,又可產生介於期間之資料階層-因素。因此產生有意義的中間結果,衍生出資料階層由較低之屬性變數,繼而因素而最高層之資料階層為分類結果。因此原資料庫之資料分類若以函數y=F(X)描述之,其中X=(x1,…,xn)為屬性變數;則利用因素分析法,可將其分解為: y=G(F1(Z1),F2(Z2),……..Fk(Zk)) 其中F,....Fk為因素分析法所得之因素,而Z1∪Z2∪.....Zk=X,且任一i,j,1≦i,j≦K,Zi∩Zj中=ψ。 以上描述之方法,即為本文之主題,利用因素分析之技巧於函數分解法(Function Decomposition)中,其目的不僅於建構中間資料階層概念,並由其對應之分解函數,找出此原函數更為精簡之描述法,以期有效率的預測分類結果。 我們將我們的方法實作出來,並和利用ID3演算法為主軸,而實作出的程式SEE5[9],比較所得出的結果,並加以探討變異數間的相互關連性大小。經由本研究的結果發現到應用因素分析法,在瞭解資料庫上卻有其效益。
|