跳到主要內容

臺灣博碩士論文加值系統

(3.236.23.193) 您好!臺灣時間:2021/07/24 13:36
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:陳琬珊
研究生(外文):WAN-SHAN CHEN
論文名稱:家庭收入之遺失值插補研究-以臺灣地區家庭收支調查為例
論文名稱(外文):A Research of Household Income for Imputation Missing Data- The Survey of Family Income and Expenditure in Taiwan
指導教授:梁德馨梁德馨引用關係
指導教授(外文):Liang, Te-Hsin
學位類別:碩士
校院名稱:輔仁大學
系所名稱:應用統計學研究所
學門:數學及統計學門
學類:統計學類
論文種類:學術論文
論文出版年:2007
畢業學年度:98
語文別:中文
論文頁數:66
中文關鍵詞:遺失值平均數插補法眾數插補法迴歸插補法EM (expectation – maximization)插補法熱卡法賽爾預測法(Theil Prediction Power)均差平方和開方法(Root
外文關鍵詞:Missing ValueAverage ImputationMode ImputationRegression ImputationEM (expectation - maximization) Imputation
相關次數:
  • 被引用被引用:0
  • 點閱點閱:728
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
「家庭收入」在許多研究中皆為重要之變項,其為問卷調查中常遺失之變項,涉及隱私問題,人們常常不願回答,因此發生遺失值之機率很高。本研究以行政院主計處之「臺灣地區家庭收支調查」88年至93年六年之資料庫進行遺失值插補研究,插補方式分別以平均數插補法、眾數插補法、迴歸插補法、EM(expectation – maximization)插補法及熱卡法進行「家庭收入」之插補研究。並利用賽爾預測法(Theil Prediction Power)、均差平方和開方法(Root Mean Squared Deviation)、均差絕對值法(Mean Absolute Deviation)進行評估,具檢定插補後之資料結構是否與原始資料結構相同。研究結果發現,對家庭收入而言,若只考慮評估方式以「熱卡法」為最佳之插補法,若加以考慮插補後之資料結構則以「熱卡法」及「迴歸插補法」為較佳之插補法。
"Family income" is an important variable in numerous researches and it is a variable frequently missing in questionnaire surveys. The variable is involved with personal privacy issues that people often do not want to answer. Therefore, the database of “Household Family Income Survey in Taiwan” made by the Directorate-General of Budget, Accounting and Statistics of the Executive Yuan in the duration from 1999 to 2004 is operated with imputation for missing values. The imputation methods include an average Imputation method, a mode imputation, a regression imputation, EM (expectation - maximization) and a hot deck imputation to explore the imputation research on "family income". Theil Prediction Power, Root Mean Squared Deviation and Mean Absolute Deviation are also used to evaluate whether data structures are the same as the structures of original data. From research results, it was found that for family income, if only taking evaluation methods into consideration, the hot deck imputation is exactly the best Imputation method. If data structures after imputation are also taken into consideration, the hot deck imputation and the regression imputation are better ones for imputation exploration.
目 錄
第一章  緖論 1
第一節 研究動機 1
第二節 研究目的 2
第三節 研究步驟 3
第二章  文獻探討 5
第一節 遺失值 5
2.1.1 遺失值之定義 5
2.1.2 遺失值之類型 5
第二節 遺失值之處理方式 8
2.2.1 完整資料分析法 8
2.2.2 插補法(imputation) 9
2.2.3 模型建構法 13
第三節 相關文獻探討 14
第三章  研究方法 16
第一節 研究架構 16
第二節 資料來源及資料整理 17
3.2.1 資料來源、範圍與內容 17
3.1.2 原始資料型態 19
第三節 資料整理及模擬過程 20
3.3.1 資料型態轉換 20
3.3.2 資料整理 20
3.3.3 變數選取 21
3.3.4 模擬抽取觀察值 23
第四節 插補方法 24
3.4.1 平均數插補法(Mean Substitution Method) 24
3.4.2 眾數插補法 (Mode Method) 24
3.4.3 迴歸插補法(Regression Method) 25
3.4.4 EM插補法(expectation - maximization algorithm) 26
3.4.5 熱卡法(Hot-deck) 27
第五節 評估方法 29
第六節 研究限制 30
第四章  實證分析 31
第一節 資料檢定 31
4.1.1 模擬遺失值之資料檢定 31
4.1.2 EM(expectation - maximization)插補法之資料檢定 34
第二節 插補過程 35
4.2.1 平均數、眾數、EM插補及迴歸插補插補法 35
4.2.2 熱卡法插補過程 35
第三節 插補結果之評估 36
4.3.1 插補後與插補前分配情況之比較 36
4.3.2 評價指標評估插補結果 40
第五章  結論與建議 59
第一節 結論 59
第二節 建議 63
參考文獻 64




表 次
表3.3.1 刪除重覆值及遺失值之各年結果 21
表3.3.2 原始資料選取之變數(18個) 21
表3.3.3 選取之類別變數(Eta 平方值) 22
表3.3.4 選取之連續變數(pearson 相關係數) 22
表3.3.5 各年創造出之遺失值筆數 23
表3.4.1 所得收入人口數之次數分配表 28
表3.4.2 各年度合併後所得收入人口數與依變項之相關係數(Eta值) 28
表4.1.1 一千次模擬10%遺失值之隨機性次數占比 33
表4.1.2 一千次模擬20%遺失值之隨機性次數占比 33
表4.1.3 一千次模擬30%遺失值之隨機性次數占比 34
表4.3.1 符合原始資料結構之占比 39
表4.3.2 符合原始結構之占比 40
表4.3.3 賽爾預測法93年各型態之評估結果 41
表4.3.4 賽爾預測法92年各型態之評估結果 42
表4.3.5 賽爾預測法91年各型態之評估結果 43
表4.3.6 賽爾預測法90年各型態之評估結果 44
表4.3.7 賽爾預測法89年各型態之評估結果 45
表4.3.8 賽爾預測法89年各型態之評估結果 46
表4.3.9 RMSD93年各型態之評估結果 47
表4.3.10 RMSD92年各型態之評估結果 48
表4.3.11 RMSD91年各型態之評估結果 49
表4.3.12 RMSD90年各型態之評估結果 50
表4.3.13 RMSD89年各型態之評估結果 51
表4.3.14 RMSD88年各型態之評估結果 52
表4.3.15 MAD93年各型態之評估結果 53
表4.3.16 MAD92年各型態之評估結果 54
表4.3.17 MAD91年各型態之評估結果 55
表4.3.18 MAD90年各型態之評估結果 56
表4.3.19 MAD89年各型態之評估結果 57
表4.3.20 MAD88年各型態之評估結果 58
表5.1.1 賽爾預測法、RMSD及MAD之評估結果比較 59
表5.1.2 評估方法之各年遺失值比率之評分 61
表5.1.3 符合原始資料結構之占比 62

圖 次
圖1.3.1 研究流程圖 4
圖3.1 本論文之研究架構 16
參考文獻
一、 中文文獻
1.王國何,「整合叢集與迴歸技術以處理大型資料庫遺失值之新方法」,國立成功大學資訊工程學系碩士論文,2002年。
2.曹志弘,「遺漏值插補方法的比較」,國立中央大學統計研究所碩士論文,1999年。
3.王靖怡,「統計調查中家庭收入問項遺失值插補研究」,私立輔仁大學應用統計研究碩士論文,2006年。
4.林志哲,「以EM法則來解決時間序列資料遺漏問題之研究」,國立中正大學數理統計研究所碩士論文,1996。
5.鄭中平&翁儷禎,「遺漏值處理法與模型設定對結構方程模型適合度指標之影響」,中華心理學刊,2003年,45卷,4期,頁345-360。
6.劉曜德,「隱藏馬可夫模型預測序列遺漏值處理之研究」,國立台中師範學院教育測驗統計研究所碩士論文,2003年。
7.李興南,「在樣本完全隨機闕失之多重差補方法的比較分析」,國立靈大學流行病學研究所,2003年。
8.葉瑞鈴,「統計調查中遺漏值處理之研究-以臺灣地區消費者動向調查為例」,私立輔仁大學應用統計研究所碩士論文,2000年。
9.賴柔伶,「統計調查中插補法之研究」,私立輔仁大學應用統計研究所碩士論文,2000年。
10.林曉芳,「熱卡插補法應用於成就測驗不完整作答反應之推估研究」,國立政治牽定「教育與心理研究」,2003,26期,頁527-555。
11.黃齡葦,「遺失資料之多重插補法模擬比較研究」,國立台灣大學農藝學研究所生物統計組碩士論文,2005年。
12.陳信木&林佳瑩,「調查資料之遺漏值的處理-以熱卡插補法為例」,調查研究,第3卷,頁75-106。
13.溫千慧,「利用貝氏估計與關聯式法則進行資料庫遺失值的預測」,樹德科技大學資訊管理系碩士班碩士論文,2004年。
14.游裕昌,「運用基因群集技術於大型資料庫內遺失值之處理」,國立台灣科技大學電子工程研究所計算機組碩士論文,2004年。
15.楊棋全,「指數與韋伯分佈遺失值之處理」,國立中央大學統計研究所碩士論文,2004年。

二、 英文摘要
1.Barnard J and Rubin D.B.(1999), Small sample degrees of freedom with multiple imputation, Biometrika 86:948-955.
2.Dempster, A.P., Laird, N. M. and Rubin, D. B.(1977), Maximum likelihood from incomplete data via the EM algorithm, J. R. Statist. Soc.Ser B 39:1-38.
3.Little, R.J.A., and Rubin, D.B.(1987), Statistical Analysis with Missing data, New York: J. Wiley.
4.Reilly, M.(1993), Data analysis using hot-deck multiple imputation, Statistician 42:307-313.
5.Rubin, D.B.(1976), Inference and missing data, Biometrika 63:581-592.
6.Rubin, D.B.(1987), Multiple Imputation for Nonresponse in Surveys, New York: John Wiley.
7.Andrew Gelman, Iven Van Mechelen, Geert Verbeke, Daniel F. Heitjan, and Michel Meulders(2005), Multiple Imputation for Model Checking: Completed-Data Plots with Missing and Latent Data, BIOMETRICS 61:74-85.
8.Yang C. Yuan, SAS Institute Inc., Rockville, MD, Multiple Imputation for Missing Data: Concepts and New Development SAS Institute Inc., Cary,NC. 267-251.
9.Patricia A. Patrician, Focus on Research Methods Multiple Imputation for Missing Data(2002), Research in Nursing & Health, 25,76-84.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top