跳到主要內容

臺灣博碩士論文加值系統

(18.97.9.172) 您好!臺灣時間:2025/02/12 01:36
字體大小: 字級放大   字級縮小   預設字形  
回查詢結果 :::

詳目顯示

: 
twitterline
研究生:曾昰翔
研究生(外文):TSENG,SHIH - HSIANG
論文名稱:擾動方法在變異數分析模型的隱私分析
論文名稱(外文):Privacy Analysis of Perturbation Method in ANOVA Model
指導教授:吳建華吳建華引用關係
指導教授(外文):CHIEN-HUA WU
口試委員:孫天佑吳建華萬淑美
口試委員(外文):SUN,TIEN-YUWU,CHIEN-HUAWAN,SHU-MEI
口試日期:2022-07-21
學位類別:碩士
校院名稱:中原大學
系所名稱:應用數學系
學門:數學及統計學門
學類:數學學類
論文種類:學術論文
論文出版年:2022
畢業學年度:110
語文別:中文
論文頁數:47
中文關鍵詞:擾動方法變異數分析模型
外文關鍵詞:Perturbation MethodANOVA Model
相關次數:
  • 被引用被引用:0
  • 點閱點閱:321
  • 評分評分:
  • 下載下載:50
  • 收藏至我的研究室書目清單書目收藏:0
隨著當今社會資訊量越來越豐富,個人資訊被竊取的風險也越來越高,其中全民健康保險研究資料庫(National Health Insurance Data, NHIRD)裡面包含大量的個人資料,作為一個研究用途的資料庫在提供給研究人員之前會隱藏姓名和打亂身分證字號,但包含的資訊越多很容易導致個人隱私被辨識出來,例如:可以透過名人的出生年月、性別和就診的醫院就可以找出他的疾病史。
本文的研究目的是探討擾動方法對資料的影響,要在達到最小披露風險的同時也要保留資料在統計分析上的解釋能力。
在本研究中使用的擾動方法為添加噪音、交換組別及添加噪音後交換組別。在文中將比較原始資料和擾動後資料的差異,從中我們可以發現噪音的選擇和交換比例很大程度的影響假設檢定的檢定力,要使資料的檢定力越高就必須慎重的選擇噪音和交換比例的大小。

With the increasing amount of information in today's society, the risk of personal information being stolen is also increasing. Among them, the National Health Insurance Data (NHIRD) contains a large amount of personal data. A database for research purposes anonymizes and scrambles ID numbers before being made available to researchers, but the more information it contains, the more likely it is that personal privacy can be identified. For example, a celebrity's medical history can be found out by his date of birth, gender and hospital.
The perturbation methods used in this study are adding noise, swapping groups, and adding noise before swapping groups. In this paper, we will compare the differences between original data and perturbation data, from which we can find that the proportion of noise selection and exchange ratio are largely affected the power of hypothesis test, to make the test power of the data higher, we must carefully choose the size of the noise and the exchange ratio.

目錄
摘要 I
Abstract II
表目錄 IV
圖目錄 V
第一章:背景說明 1
第二章:統計披露控制 3
2.1發佈型態 3
2.2風險衡量(Measuring Risk) 5
2.2.1披露型態 5
2.2.2變數分類 6
2.2.3風險等級 7
2.3匿名化方法 8
2.3.1非擾動法 8
2.3.2擾動法(perturbation method) 9
2.4有效性衡量與訊息損失(Measuring Utility and Information Loss) 11
2.4.1 類別資料的訊息損失衡量 11
2.4.2 連續資料的訊息損失衡量 12
2.4.3 資料視覺化 12
第三章:統計方法 13
3.1雙樣本T檢定(Two Sample T-test) 13
3.2變異數分析模型(ANOVA Model) 14
第四章:模擬 15
4.1兩組模擬 15
4.2三組模擬 22
第五章:健保資料庫應用 31
5.1兩組資料 31
5.2三組資料 35
第六章:結論與討論 41
參考資料 42


表 2.3.1非擾動法 9
表 2.3.2擾動法 10
表 4.2.1原始資料及轉換後資料型一誤差之比較:σ²=1 25
表 4.2.2原始資料及轉換後資料型一誤差之比較:σ²=2 26
表 4.2.3原始資料及轉換後資料檢定力之比較: σ²=1 27
表 4.2.4原始資料及轉換後資料檢定力之比較: σ²=2 28
表 5.1.1兩組原始資料之敘述統計量 32
表 5.1.2兩組加入噪音資料之敘述統計量 32
表 5.1.3兩組交換資料之敘述統計量 32
表 5.1.4兩組加噪音交換資料之敘述統計量 32
表 5.1.5兩組原始資料之檢定統計量 35
表 5.1.6兩組加噪音資料之檢定統計量 35
表 5.1.7兩組交換資料之檢定統計量 35
表 5.1.8加噪音兩組交換資料之檢定統計量 35
表 5.2.1三組原始資料之敘述統計量 36
表 5.2.2三組加噪音資料之敘述統計量 36
表 5.2.3三組交換資料之敘述統計量 36
表 5.2.4三組加噪音交換資料之敘述統計量 37
表 5.2.5三組原始資料之檢定統計量 39
表 5.2.6三組加噪音資料之檢定統計量 39
表 5.2.7三組交換資料之檢定統計量 40
表 5.2.8三組加噪音交換資料之檢定統計量 40



圖目錄
圖 2.1變數分類 6
圖 4.1.1原始資料及轉換後資料檢定力之比較: n=50、μ₁=1、μ₂=3、σ₁²=σ₂²=1、σ²=1 21
圖 4.1.2原始資料及轉換後資料檢定力之比較: n=1000、μ₁=1、μ₂=3、σ₁²=σ₂²=1、σ²=1 21
圖 4.1.3原始資料及轉換後資料檢定力之比較: n=50、μ₁=1、μ₂=3、σ₁²=σ₂²=1、σ²=2 22
圖 4.1.4原始資料及轉換後資料檢定力之比較: n=1000、μ₁=1、μ₂=3、σ₁²=σ₂²=1、σ²=2 22
圖 4.2.1原始資料及轉換後資料檢定力之比較: n=50、μ₁=1、μ₂=2、μ₃=3、σ₁²=σ₂²=σ₃²=1 σ²=1 29
圖 4.2.2原始資料及轉換後資料檢定力之比較:n=1000、μ₁=1、μ₂=2、μ₃=3、σ₁²=σ₂²=σ₃²=1、σ²=1 29
圖 4.2.3原始資料及轉換後資料檢定力之比較: n=50、μ₁=1、μ₂=2、μ₃=3、σ₁²=σ₂²=σ₃²=1、σ²=2 30
圖 4.2.4原始資料及轉換後資料檢定力之比較:n=1000、μ₁=1、μ₂=2、μ₃=3、σ₁²=σ₂²=σ₃²=1、σ²=2 30
圖 5.1.1兩組原始資料之盒狀圖 33
圖 5.1.2兩組加噪音資料之盒狀圖 33
圖 5.1.3兩組交換資料之盒狀圖 34
圖 5.1.4兩組加噪音交換資料之盒狀圖 34
圖 5.2.1三組原始資料之盒狀圖 37
圖 5.2.2三組加噪音資料之盒狀圖 38
圖 5.2.3三組交換資料之盒狀圖 38
圖 5.2.4三組加噪音交換資料之盒狀圖 39




[1] Cheng-Yang Hsieh, Chien-Chou Su, Shih-Chieh Shao, Sheng-Feng Sung, Swu-Jane Lin, Yea-Huei Kao Yang, and Edward Chia-Cheng Lai.(2019)Taiwan’s National Health Insurance Research Database: past and future.
[2] L. Sweeney(2002).k-Anonymity: A Model for Protecting Privacy
[3] Peter Kooiman,Jose Gouweleeuw(1997).PRAM: a method for disclosure limitation of microdata.
[4] Peter-Paul de Wolf(1998).Risk,Utility and PRAM.
[5] Leon Willenborg, Ton de Waal(2001).Elements of Statistical Disclosure Control.
[6] Gerd Ronning(2005).Randomized response and the binary probit model.
[7] Ardo van den Hout,Elsayed Elamir(2006).Statistical Disclosure Control Using Post Randomisation: Variants and Measures for Disclosure Risk.
[8] Ardovan den Hout,Peter Kooiman(2006).Estimating the linear regression model with categorical covariates subject to randomized response.
[9] M.J.L.F Cruyff(2008).The analysis of randomized-response sum score variables.
[10] Wan(2021). Regrouped design in privacy analysis for multinomial microdata.
[11] Thijs Benschop,Cathrine Machingauta,Matthew Welch(2021). Statistical Disclosure Control: A Practice Guide,4.1-7.5,17-92.
[12] Food and agriculture organization of the united nation(2014)
Statistical Disclosure Control Protocol,chapterⅢ,21-31.

QRCODE
 
 
 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                               
第一頁 上一頁 下一頁 最後一頁 top