跳到主要內容

臺灣博碩士論文加值系統

(216.73.216.102) 您好!臺灣時間:2026/02/14 09:25
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:周鴻文
研究生(外文):Hung-Wen Chou
論文名稱:機率主成分分析於區間值資料之應用
論文名稱(外文):The Application of Probabilistic Principal Component Analysisto Interval-valued Data
指導教授:吳漢銘吳漢銘引用關係
指導教授(外文):Han-Ming Wu
口試委員:陳怡如蘇家玉
口試日期:2015-07-27
學位類別:碩士
校院名稱:淡江大學
系所名稱:數學學系碩士班
學門:數學及統計學門
學類:數學學類
論文種類:學術論文
論文出版年:2015
畢業學年度:103
語文別:中文
論文頁數:27
中文關鍵詞:區間資料維度縮減主成份分析機率主成份分析象徵性資料分析
外文關鍵詞:Interval-valued datadimension reductionprincipal component analysisprobabilistic PCAsymbolic data analysis
相關次數:
  • 被引用被引用:1
  • 點閱點閱:663
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
主成分分析法 (principal component analysis, PCA)是一個
常用的維度縮減方法, 在象徵性資料分析 (symbolic data
analysis, SDA)中,更是熱門的研究主題。在本研究中,我們嘗試使
用另外一種維度縮減方法, 稱為機率主成分分析 PPCA
(probabilistic PCA) ,來應用於區間資料。其目的是對高維度的區
間資料做維度縮減,使得我們可以在低維度空間中觀察此區間資料
的結構及特性。首先透過頂點法或中心法將區間資料轉化成傳統單
一數值資料,再透過 PPCA 做維度縮減,將維度縮減後的區間資料投
影到二維空間,以利觀察其結構。我們在模擬研究中,以四種不同分
配及不同資料遺失比例,利用 PCA 以及 PPCA 去估計傳統資料以及
區間資料的維度縮減方向。最後我們使用兩個實際資料,金融資料及
臉部資料,比較 PCA 及 PPCA 的表現。最後結果發現,在沒有遺失值
的模擬研究中以及在實際完整資料的分析下,兩者方法並無明顯差
異,但是在模擬研究中,四種不同分配隨著資料遺失比例越高,PPCA
在維度縮減方向的估計上都比 PCA 來的準確。

Principal component analysis (PCA) is a widely used dimension reduction method. It is also one of popular research topics in the field of Symbolic Data Analysis (SDA). In this study, we applied the probabilistic PCA (PPCA), an alternative dimension reduction method, to the interval-valued data. We aim to reduce the dimensionality of the interval-valued data in high-dimensional space so that the structures and characteristics of the interval-valued data can be investigated in the lower dimensional space.Firstly, the interval-valued data is converted into the form of the traditional data table using the vertices or center method. Then the classical PCA and PPCA can be applied directly. In this way, we could explore the structure of the projected intervals in the two-dimensional space. In the simulation studies, we generate data using four different distributions with various proportions of missing observations. We evaluate the performance of PCA and PPCA in estimating the true dimension reduction directions based on the simulated traditional data and the simulated interval-valued data. The results shows that there was no significant difference between PCA and PPCA for complete data sets. However, the performance of PPCA is better than those of PCA when the data contains the higher proportion of missing observations. Finally, we apply PCA and PPCA to two real interval-valued data sets, the finance data and the face data.


目錄
1 緒論 1
2 主成分分析於區間資料之維度縮減 2
2.1 中心式主成分分析 (Centers PCA, C-PCA) . . . . . . . . . . . . . . . . . . . . . . 2
2.2 頂點式主成分分析 (Vertices PCA, V-PCA) . . . . . . . . . . . . . . . . . . . . . . 3
3 機率主成分分析於區間資料之應用 4
3.1 機率主成分分析 (Probabilistic PCA, PPCA) . . . . . . . . . . . . . . . . . . . . . 5
3.2 中心式機率主成分分析 (Centers Probabilistic PCA, C-PPCA) 及頂點式機率主成分
分析 (Vertices Probabilistic PCA, V-PPCA) . . . . . . . . . . . . . . . . . . . . . 6
4 模擬研究 6
4.1 PCA 與 PPCA 的模擬研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4.2 PCA 與 PPCA 於區間資料之模擬研究 . . . . . . . . . . . . . . . . . . . . . . . . . 12
5 實際區間資料之維度縮減 19
5.1 金融紀錄資料 (Finance data) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5.2 人臉資料 (Face Data) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
6 結論與討論 24
7 參考文獻 26

圖目錄
圖 1 Normal(0, 1) 函數圖形 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
圖 2 Gamma(2, 1) 函數圖形 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
圖 3 Beta(6, 2) 函數圖形 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
圖 4 Beta(0.5, 0.5) 函數圖形 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
圖 5 X 1 ,··· ,X 5 來自 Normal(0, 1) 的模擬區間直方圖 :(a) 固定帶寬 , (b) 不固定帶寬。 . . 13
圖 6 X 1 ,··· ,X 5 來自 Gamma(2, 1) 的模擬區間直方圖 :(a) 固定帶寬 , (b) 不固定帶寬。 . . 14
圖 7 X 1 ,··· ,X 5 來自 Beta(6, 2) 的模擬區間直方圖 :(a) 固定帶寬 , (b) 不固定帶寬。 . . . . 15
圖 8 X 1 ,··· ,X 5 來自 Beta(0.5, 0.5) 的模擬區間直方圖 :(a) 固定帶寬 , (b) 不固定帶寬。 . . 16
圖 9 Finance data 透過 C-PCA 、 C-PPCA 、 V-PCA 、 V-PPCA 等四種方法降維並視覺化之
圖形 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
圖 10 Face data 中的六個變數示意圖 (Leroy et al, 1996) . . . . . . . . . . . . . . . . . 22
圖 11 face data 透過 C-PCA 、 C-PPCA 、 V-PCA 、 V-PPCA4 種方法降維並視覺化之圖形 . 23

表目錄
表 1 PCA 與 PPCA 在 Normal(0, 1) 分配與各種遺失比例下維度縮減至一個方向 , 並重複
模擬 200 次計算其特徵向量之平均值與標準差 ( 真實方向為 (1, 1, 1, 1, 0, 4)) 。 . . . . 8
表 2 PCA 與 PPCA 在 Gamma(2, 1) 分配與各種遺失比例下維度縮減至一個方向 , 並重複
模擬 200 次計算其特徵向量之平均值與標準差 ( 真實方向為 (1, 1, 1, 1, 0, 4)) 。 . . . . 9
表 3 PCA 與 PPCA 在 Beta(6, 2) 分配與各種遺失比例下維度縮減至一個方向 , 並重複模
擬 200 次計算其特徵向量之平均值與標準差 ( 真實方向為 (1, 1, 1, 1, 0, 4)) 。 . . . . . 10
表 4 PCA 與 PPCA 在 Beta(0.5, 0.5) 分配與各種遺失比例下維度縮減至一個方向 , 並重複
模擬 200 次計算其特徵向量之平均值與標準差 ( 真實方向為 (1, 1, 1, 1, 0, 4)) 。 . . . . 11
表 5 C-PCA 與 C-PPCA 在 Normal(0, 1) 之模擬區間值資料且在各種遺失比例下 , 維度縮
減至一個方向 , 並重複模擬 200 次計算其特徵向量之平均值與標準差 ( 真實方向為 (1, 1, 1, 1, 0, 4)) 。 13
表 6 C-PCA 與 C-PPCA 在 Gamma(2, 1) 之模擬區間值資料且在各種遺失比例下 , 維度縮
減至一個方向 , 並重複模擬 200 次計算其特徵向量之平均值與標準差 ( 真實方向為 (1, 1, 1, 1, 0, 4)) 。 14
表 7 C-PCA 與 C-PPCA 在 Beta(6, 2) 之模擬區間值資料且在各種遺失比例下 , 維度縮減至
一個方向 , 並重複模擬 200 次計算其特徵向量之平均值與標準差 ( 真實方向為 (1, 1, 1, 1, 0, 4)) 。 15
表 8 C-PCA 與 C-PPCA 在 Beta(0.5, 0.5) 之模擬區間值資料且在各種遺失比例下 , 維度縮
減至一個方向 , 並重複模擬 200 次計算其特徵向量之平均值與標準差 ( 真實方向為 (1, 1, 1, 1, 0, 4)) 。 16
表 9 V-PCA 與 V-PPCA 在 Normal(0, 1) 之模擬區間值資料且在各種遺失比例下 , 維度縮
減至一個方向 , 並重複模擬 200 次計算其特徵向量之平均值與標準差 ( 真實方向為 (1, 1, 1, 1, 0, 4)) 。 17
表 10 V-PCA 與 V-PPCA 在 Gamma(2, 1) 之模擬區間值資料且在各種遺失比例下 , 維度
縮減至一個方向 , 並重複模擬 200 次計算其特徵向量之平均值與標準差 ( 真實方向為 (1, 1, 1, 1, 0, 4)) 。 17
表 11 V-PCA 與 V-PPCA 在 Beta(6, 2) 之模擬區間值資料且在各種遺失比例下 , 維度縮減
至一個方向 , 並重複模擬 200 次計算其特徵向量之平均值與標準差 ( 真實方向為 (1, 1, 1, 1, 0, 4)) 。 18
III
表 12 V-PCA 與 V-PPCA 在 Beta(0.5, 0.5) 之模擬區間值資料且在各種遺失比例下 , 維度
縮減至一個方向 , 並重複模擬 200 次計算其特徵向量之平均值與標準差 ( 真實方向為 (1, 1, 1, 1, 0, 4)) 。 18
表 13 金融紀錄資料 (Finance data) (Vu, Vu & Foo, 2003) . . . . . . . . . . . . . . . . 19
表 14 Finance data 使用 C-PCA 、 C-PPCA 、 V-PCA 、 V-PPCA 4 種方法之特徵向量。 . . . 20
表 15 Face data 使用 C-PCA 、 C-PPCA 、 V-PCA 、 V-PPCA 4 種方法之特徵向量。 . . . . . 22

Billard, L. and Diday, E. (2006). Symbolic data analysis: conceptual statistics and data mining.
WILEY SERIES IN COMPUTATIONAL STATISTICS.
Billard, L. and Le-Rademacher, J. (2012). Symbolic covariance principal component analysis
and visualization for interval-valued data. Journal of Computational and Graphical Statis-
tics, 413-432.
Cazes, P., Douzal-Chouakria, A., Diday, E. and Schecktman, Y. (1997). Extension de l’analyse
en Composantes Principales des donnes de Type Intervalle. Revue Statistique Applique,
45, 5-24.
Chen, Y. S. and Wu, H. M. (2013). The application of sliced inverse regression for dimension
reduction of the interval-valued symbolic data. Journal of the Chinese Statistical Associa-
tion, 51(3), 327-351.
Douzal-Chouakria, A., Billard, L. and Diday, E. (2011). Principal components for interval-valued
observations. Statistical Analysis and Data Mining, 4(2), 229 - 246.
Douzal-Chouakria, A., Diday, E. and Cazes, P. (1998). An improved factorial representation of
symbolic objects. Advances in Data Science and Classification, 397-402.
Giordani, P. and Kiers, H. A. L. (2006). A comparison of three methods for principal compo-
nent analysis of fuzzy interval data. Computational Statistics and Data Analysis, 51(1),
379-397.
Gioia, F. and Lauro, C. N. (2006). Principal component analysis on interval data. Computa-
tional Statistics, 21, 343-363.
Lauro N. C. and Palumbo F. (2000). Principal Component Analysis with interval data: a
symbolic data analysis approach. Computational Statistics, 15(1), 73-87.
Palumbo, F. and Lauro, N. C. (2003). A PCA for interval valued data based on midpoints and
26
radii. New developments in Psychometrics, 641-648.
Tipping, M. E. and Bishop, C. M. (1997). Probabilistic principal component analysis. Journal
of the Royal Statistical Society, Series B, 61, 611-622.
Wang, H., Guan, R. and Wu, J. (2012). CIPCA: complete-information-based principal compo-
nent analysis for interval-valued data. Neurocomputing, 86, 158-169.
Zuccolotto, P. (2011). Principal component analysis with interval imputed missing values. AStA
Advances in Statistical Analysis, 96(1), 1-23.

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top