跳到主要內容

臺灣博碩士論文加值系統

(44.200.122.214) 您好!臺灣時間:2024/10/07 06:20
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

我願授權國圖
: 
twitterline
研究生:王靖怡
研究生(外文):Chi-Yi Wang
論文名稱:調查統計中家庭收入問項遺失值插補研究
論文名稱(外文):A Study of Imputating Missing Data for Household Income in survey
指導教授:梁德馨梁德馨引用關係
指導教授(外文):Te-Hsin Liang
學位類別:碩士
校院名稱:輔仁大學
系所名稱:應用統計學研究所
學門:數學及統計學門
學類:統計學類
論文種類:學術論文
論文出版年:2006
畢業學年度:94
語文別:中文
論文頁數:89
中文關鍵詞:遺失値插補多元羅吉斯迴歸法熱卡法
外文關鍵詞:Missing DataHot DeckMode Imputation MethodMultinomial Logistic RegressionMultiple Imputation method
相關次數:
  • 被引用被引用:1
  • 點閱點閱:383
  • 評分評分:
  • 下載下載:0
  • 收藏至我的研究室書目清單書目收藏:0
「家庭平均月收入」在許多研究中皆為重要的影響或觀察變數,但其發生項目無反應(item nonresponde)的機會很高。本研究以2006 年「台灣寬頻網路使用調查」資料集作為實證資料,分別以熱卡法、眾數插補法、機率分配插補法、多元羅吉斯迴歸法及整合插補法等方法進行「家庭平均月收入」遺失值之插補研究。並利用2005 年「台灣寬頻網路使用調查」資料集驗證評估結果的一致性。研究結果發現,對家庭平均月收入而言,個人教育程度及居住城鄉別為較佳的插補輔助變數。整體而言,以使用個人教育程度及居住城鄉別為解釋變數之「多元羅吉斯迴歸法」為最適插補模型;但若考慮插補後結構不變情況下,則以依個人教育程度及居住城鄉別分層之「熱卡法」為最適插補模型。
'Household Income' is one of the main factors that will significantly affect many social issues. Due to privacy considering, many people do not willing to answer their household income and lead to item nonresponse happen. In this research, the adaptable imputation model for household income will be exhibited. Base on the data of ' 2006 Survey of Internet Broadband Usage in Taiwan' and compared the imputation effects of the Hot Deck, the Mode Imputation method, the Multinomial Logistic Regression, and the Multiple Imputation method, ‘the education degree’ and ‘town of resident’ were found to be the best auxiliary variables to impute the missing data for household income.
Generally, the Multinomial Logistic Regression with ‘personal education degree ‘and ‘town of resident’, has the best imputation assessment. In order to evidence the universality of our conclusion, data of '2005 Survey of Internet Broadband Usage in Taiwan' was used and the result showed it has consistency.
目 錄
第一章 緒論 1
第一節 研究背景與動機 1
第二節 研究目的 3
第三節 研究流程 4
一、設定研究主題 4
二、選擇本論文欲探討插補研究之目標變數及插補法 4
三、文獻探討 4
四、進行遺失值插補 4
五、結論與建議 4
第四節 研究限制 6
第二章 文獻探討 7
第一節 遺失值的定義 7
第二節 遺失值的類型 8
一、以資料型態分 8
二、依資料結構分 9
第三節 遺失資料的處理方式 10
一、完整的觀察體分析(complete-case analysis) 10
二、加權法(weight) 11
三、插補法(imputation) 12
四、模型建構法(model-based procedures) 16
第三章 研究方法 17
第一節 研究架構 17
一、目標插補變數之選取 18
二、以95年資料模擬抽取30%當作遺失值 18
三、探討輔助變數之選取順序 18
四、進行遺失值插補研究 19
五、插補效果之評估 20
六、以94年資料驗證 20
七、提出結論與建議 20
第二節 「台灣寬頻網路使用調查」資料集之簡介 21
一、調查目的 21
二、實證資料集 21
三、驗證資料集 21
第三節 變數介紹 22
第四章 實證分析 26
第一節 模擬抽取遺失值 26
第二節 輔助變數之選取順序 28
第三節 各種分層下之家庭平均月收入結構 30
一、不分層 30
二、依「個人教育程度(三)」分層 31
三、依「個人教育程度(三)」及「居住城鄉別」分層32
第四節 多元羅吉斯模型之檢定 34
一、以「個人教育程度(三)」為解釋變數之多元羅吉斯模型檢定 34
二、以「個人教育程度(三)」及「居住城鄉別」為解釋變數之多元羅吉斯模型檢定 35
第五節 各種插補法之效果及結構比較 36
一、熱卡法 37
二、眾數插補法 41
三、機率分配插補法 46
四、多元羅吉斯迴歸法 50
五、整合插補法 55
六、綜合比較 59
第五章 驗證分析 68
第一節 驗證輔助變數之合適性 68
第二節 94年依「個人教育程度(三)」及「居住城鄉別」分層下之家庭平均月收入結構 70
第三節 94年多元羅吉斯模型之檢定 73
第四節 94年各種插補法之最佳模型插補效果比較 74
一、正確率與誤判率 74
二、結構 78
第六章 結論與建議 83
第一節 結論 83
一、插補家庭平均月收入最適使用之輔助變數 83
二、最適之家庭平均月收入插補模型 83
第二節 建議 85
一、家庭平均月收入遺失值插補建議 85
二、後續研究建議 86
參考文獻 87
附件一 90
一、中文文獻
1.王國河,「整合叢集與迴歸技術以處理大型資料庫遺失值問題之新方法」,國立成功大學資訊工程學系碩士論文,2002年。
2.李俊龍,「多元不完整時間序列」,國立台北大學統計學系碩士論文,2003年。
3.林曉芳,「以Hot Deck插補法推估成就測驗之不完整作答反應」,國立政治大學教育學系教育心理與輔導組博士論文,2002年。
4.林慧玲及陳正倉,「基礎統計學」,台北:雙葉書廊有限公司,2004年。
5.陳信木、林佳瑩,「調查資料之遺漏值的處置_以熱卡插補法為例」,調查研究,3期,1997年,頁75-106。
6.許禎元,「問卷調查資料的處理與統計分析_以SPSS for Windows 7.0的處理為例」,復興岡學報,61期,1997年,頁76-91。
7.曹志弘,「遺漏值插補方法的比較」,國立中央大學統計研究所碩士論文,1999年。
8.黃登源及李仁棻,「應用多變量分析」,台北:台灣智慧科技與應用統計學會,2004年。
9.游裕昌,「運用基因群集技術於大型資料庫內遺失值之處理」,國立台灣科技大學電子工程研究所計算機組碩士論文,2004年。

10.葉瑞鈴、黃正翰、李國隆及林千芩,「統計調查中遺漏值處理之研究-以臺灣地區工程技術顧問服務業調查為例」,數據分析,1卷1期,2006年2月,頁97-119。
11.楊棋全,「指數與韋伯分佈遺失值之處理」,國立中央大學統計研究所碩士論文,2004年。
12.溫千慧,「利用貝氏估計與關聯式法則進行資料庫遺失值的預測」,樹德科技大學資訊管理系碩士班碩士論文,2004年。
13.趙民德及謝邦昌,「探索真相」,台北:曉園出版社公司,1999年。
14.鄭子韋,「加權調整方法的探討」,中原大學應用數學系碩士學位論文,2004年。
15.蔣妍,「調查數據中無回答問題處理方法研究」,中國民眾大學博士論文,2001年。

二、英文文獻
1.Fay, R. E., “Alternative paradigms for the analysis of imputed survey data”, J. Am. Statist.l Assoc,Vol.91, 1996,409-498.
2.Little, R. J. A. and Rubin D. B., “Statistic Analysis with Missing Data”,John Wiley & Sons, 1987.
3.Little,R. J. A., “Missing data adjustments in large survey”, Journal of Business and Economic Statistics,Vol.6, 1988,287-289.

4.Little, R. J. A. and Rubin D. B., “Statistic Analysis with Missing Data 2nd edition”, John Wiley & Sons, 2002.
5.Pyle, D., “Data preparation for data mining”,Morgan Kaufmann Publishers , 1999.
6.Periklis, A.,“Data Clustering Techniques”,2002.Available from:URL: http://www.cs.toronto.edu/~periklis/pubs/depth.pdf.
7.Panagiotis Sentas and Lefteris Angelis,“Categorical missing data imputation for software cost estimation by multinomial logistic regression”,The Journal of Systems and Software,Vol.79,2006, pp404-414.
8.Rubin , D. B., “Multiple imputation for nonresponse in surveys”, John Wiley & Sons, 1987.
9.Rubin, D. B., “Statistical matching using file concatenation with adjusted weights and multiple imputations”, Journal of Business and Economic Statistics,Vol.4, 1986,87-94.
QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top