跳到主要內容

臺灣博碩士論文加值系統

(100.28.132.102) 您好!臺灣時間:2024/06/25 17:52
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:陳柏彰
研究生(外文):CHEN,PO-CHANG
論文名稱:大量資料遺漏下缺失處理方法之研究-以傾向分數配對法為例
論文名稱(外文):Missing treatment for Mass missing data-A case study on Propensity Score Matching Method
指導教授:王鴻龍王鴻龍引用關係
指導教授(外文):WANG, HUNG-LUNG
口試委員:王鴻龍宋文昌鄭天澤
口試委員(外文):WANG, HUNG-LUNGSONG,WEN-CHANGJENG,TIAN-TZER
口試日期:2014-07-10
學位類別:碩士
校院名稱:國立臺北大學
系所名稱:統計學系
學門:數學及統計學門
學類:統計學類
論文種類:學術論文
論文出版年:2014
畢業學年度:102
語文別:中文
論文頁數:50
中文關鍵詞:不完整資料插補法缺失資料處理傾向分數配對法
外文關鍵詞:Incomplete dataImputationMissing treatmentPropensity score matching
相關次數:
  • 被引用被引用:0
  • 點閱點閱:817
  • 評分評分:
  • 下載下載:43
  • 收藏至我的研究室書目清單書目收藏:0
隨著資料缺失處理越來越被重視,資料的缺失已不能僅是捨去或以平均數、眾數來取代,應透過資料型態以及缺失結構來選擇合適的插補方法,這樣不但可以解決缺失帶來樣本數不足的影響,更可以提升分析結果的可信度及效率。本研究以「台灣教育長期追蹤資料庫」中第一波至第三波學生為分析樣本,來探討缺失處理的效果。由於主要探討的第三波學生資料是「追蹤資料」,所以樣本資料的缺失比例相對偏高。以此資料型態來進行缺失處理並分析,更能看出缺失資料處理方法的重要性。
在資料插補方面,先從問卷中找尋可能影響缺失情況的顯著變數,並使用這些顯著變數從完整資料集(baseline)中,建構50組仿缺失資料集。
然後比較四種缺失處理方法(整筆刪除法、判別函數插補法、邏輯斯迴歸插補法、蒙地卡羅-馬可夫鏈單一插補法),在二元邏輯斯迴歸分析下對模型係數及顯著變數的改變與影響。分析結果顯示,蒙地卡羅-馬可夫鏈單一插補法是表現相對較佳的且較穩定的缺失資料處理方法。
最後再以蒙地卡羅-馬可夫鏈單一插補法對原始資料進行插補,並對插補過後的資料進行複迴歸分析及實驗組真正的平均處理效果(ATT)來探討補習期間長度是否能提升學習成效。本研究的缺失資料處理步驟與過程可以做為在面對資料大量遺漏的情形時之參考。
With more and more emphasis on handling missing data, missing data can not only be rounded up or replaced by mean, mode, instead, should be to select the appropriate imputation through the missing pattern. It will not only solve the affect by missing data, but also to enhance the credibility and efficiency of the analysis results.This study use the first wave to the third wave of survey data in "Taiwan Education Panel Survey" to investigate the effect of missing treatment.Since the third wave of student data in the "Core Panel", the proportion of missing data samples are relatively high.Using this type of the missing data to analyze, would better reveal the importance of missing data processing methods.

In the imputation, we start to find significant variables that may affect the missingness, and then we use of these significant variables to construct 50 groups imitation missing data sets from the complete data set.Then we compare the four missing treatment methods (list-wise deletion, discriminant function imputation, logistic regression imputation , Monte Carlo - Markov chain single imputation) regarding the changes and influence in variables and coefficients of the binary logistic regression model.The results show that Monte Carlo - Markov chain single imputation method has relatively better performance and more stable imputation methods.Finally, we use Monte Carlo - Markov chain single imputation to imputate the original data and analysis, and discuss whether the length of the tutorial can enhance learning through multiple regression analysis and the average treatment effect on the treated (ATT) by completed data after imputated.

1 緒論
1.1 研究背景....................... 1
1.2 研究目的....................... 2
1.3 研究架構....................... 2
2 文獻探討 3
2.1 缺失資料的機制與處理 ................ 3
2.2 缺失比例....................... 6
2.3 反事實推論及傾向分數配對法............. 6
2.3.1 反事實推論分析 ............... 6
2.3.2 傾向分數及配對法 .............. 8
3 研究方法 10
3.1 影響資料缺失的顯著變數............... 10
3.1.1 樣本資料分析前初步整理........... 10
3.1.2 影響缺失的顯著變數 ............. 15
3.2 建立缺失與否之預測模型............... 17
3.3 建構缺失資料集.................... 19
3.4 缺失資料處理方法 .................. 20
3.5 缺失處理前後差異的比較............... 21
3.6 統計分析之比較.................... 24
3.6.1 複迴歸分析比較 ............... 24
3.6.2 實驗組及控制組真正的平均處理效果 (ATT & ATU) .................... 24
4 分析結果 25
4.1 建立補習變項缺失與否的預測模型 .......... 25
4.2 基準資料集之二元邏輯斯迴歸分析結果 . . . . . . . . 27
4.3 各缺失處理方法之二元邏輯斯迴歸分析結果 . . . . . . 28
4.3.1 自變數顯著情形的相同比例.......... 29
4.3.2 自變數係數的差異 .............. 32
4.4 引進最佳缺失資料處理方法分析之結果 . . . . . . . . 37
4.5 複迴歸分析...................... 39
4.6 實驗組真正處理效果(ATT) ............. 39
5 結論與建議 41
參考文獻 43
附錄 A : 配對變項對四種連續補習的組合變項之預測 (基準資料集)46
附錄 B : 原始資料的缺失結構49


圖目錄
2.1 MCAR、MAR及MNAR定義圖 ................. 4
4.1 自變數顯著情形相同比例...................... 30
4.2 自變數顯著情形相同比例(相同顯著)................ 31
4.3 自變數顯著情形相同比例(相同不顯著)............... 32
4.4 自變數MAE比較圖........................ 33
4.5 自變數SD(MAE)比較圖 ..................... 34
4.6 自變數RMSE比較圖....................... 35
4.7 自變數SD(RMSE)比較圖 .................... 36


表目錄
3.1 預測資料缺失與否的顯著變數 ................... 16
3.2 原始資料中各集群的缺失結構及比例................ 19
3.3 缺失資料集目標缺失結構...................... 20
4.1 邏輯斯迴歸係數表 ......................... 27
4.2 自變數顯著情形相同率比較表 ................... 29
4.3 自變數顯著情形相同率比較表(相同顯著) ............. 30
4.4 自變數顯著情形相同率比較表(相同不顯著) ............ 31
4.5 自變數MAE比較表........................ 33
4.6 自變數RMSE比較表....................... 35
4.7 缺失資料處理前後之分析結果 ................... 38
4.8 缺失資料處理前後之分析結果(續)................. 38
4.9 連續補習對數學表現於缺失處理前後之比較............ 39
4.10連續補習對數學表現於缺失處理後之ATT ............ 40

王鴻龍、楊孟麗、陳俊如、林定香 (2012)。缺失資料在因素分析上的處理方法之研究。教育科學研究期刊,第五十七卷第一期,29-50。

廖培珊、江振東、林定香、李隆安、翁宏明、左宗光 (2011)。葛特曼量表之拒答處理:簡易、多重與最鄰近差補法的比較。臺灣社會學刊,第47期,頁143-178。

林欣潔 (2012)。缺失資料處理方法對巢狀迴歸分析之影響。台北大學統計學系碩士論文。

廖志峰 (2013)。兩波成對資料之缺失資料處理方法對交叉延宕分析影響之研究-以「自我決定歷程與愛情依戀對約會暴力行為之影響」研究資料為例。台北大學統計系碩士論文。

江文楷 (2013)。大量資料遺失情形下缺失資料處理方法效用之研究-「以青少年家庭中的親職壓力與親子衝突」研究資料為例。台北大學統計系碩士論文。

關秉寅、李敦義 (2008)。補習數學有用嗎?一個「反事實」的分析。臺灣社會學刊,第41期,頁97-148。

關秉寅、李敦義 (2010)。國中生數學補得愈久,數學成就愈好嗎?傾向分數配對法的分析。教育研究集刊,第五十六輯第二期,頁105-139。

黃玉麗、張元、沈中華 (2012)。不請自來的銀行信用評等有向下偏誤的現象嗎?-配對方法。經濟論文叢刊 (Taiwan Economic Review),40:2 (2012),149-188。

林大森、陳憶芬 (2006)。臺灣高中生參加補習之效益分析。教育研究集刊,第五十二輯第四期,35-70頁。

劉正 (2006)。補習在臺灣的變遷、效能與階層化。教育研究集刊,第五十二輯第四期,頁1-33。

林文德、謝其政、邱尚志、吳慧俞、黃一展 (2010)。以傾向分數配對法評估糖尿病論質計酬方案之成效。台灣衛誌, Vol.29, No.1。

A. P. Dempster, N. M. Laird and D. B. Rubin (1977). Maximum Likelihood from Incomplete Data via the EM Algorithm. Journal of the Royal Statistical Society. Series B, Vol.39, No.1, pp.1-38.

Cohen,J. and Cohen,P. (1983). Applied multiple regression/correlational analysis for the behavioral sciences.Hillsdale, NJ: Erlbaum.

Joseph L. Schafer and John W. Graham (2002). Missing Data: Our View of the State of the Art. Psychological Methods, Vol.7, No.2, 147-177.

Little R. J. A. and Rubin D. B. (1987). Statistical Analysis with Missing Data. John Wiley and Sons, New York.

Morgan, S. L., and Harding, D. J. (2006). Matching estimators of causal e ects prospects and pitfalls in theory and practice. Sociological Methods and Research, 35(1), 3-60.

Raymond, M. R., and Roberts, D. M. (1987). A comparison of methods for treating incomplete data in seletion reserch. Educational and Psychological Measurement, 13-26.

Rajeev H.Dehejia and SadekWahba (2002). Propensity Score-Matching Methods for Nonexperimental Causal Studies. Review of Economics and Statistics, Vol.84, No.1, Pages 151-161.

Rosenbaum, P. R., and Rubin, D. B. (1983). The central role of the propensity score in observational studies for causal e ects. Biometrika,70, 41-55.

Rubin, D.B.(1976). Inference and missing data. Biometrika 63: 581-592.

Smith, Je ery A. and Petra Todd, (2005). Does Matching Overcome LaLonede's Critique of Nonexperimental Estimators? Journal of Econometrics, 125: 305-353.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top