优秀硕士论文--基于匿名机制的数据发布中隐私泄露控制技术

下载本文档

阅读 87
下载 9
格式 doc
大小 485 KB
约40页
2025-07-24 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/40页

2/40页

3/40页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/40

文本预览下载提示常见问题

第一章引言1.1 讨论背景数据发布环境中存在的隐私泄露问题使得数据发布隐私泄露控制技术的讨论成为学术界和工业界关注的一个焦点。数据发布中的原始数据由记录构成，每个记录均与一个个体相对应，数据的属性分为标识符、准标识符、敏感属性三类。数据发布时直接删除标识符以保护个体隐私。但是可能存在攻击者通过准标识符与外部公开的数据源进行链接攻击(Linking Attack) [1]，导致个体隐私的泄露。讨论表明，这种链接攻击可以识别大量美国公民的身份[1]。例如，假设一个网站上发布了一个医疗信息表，为保护个体隐私，将原始数据中能识别个体身份的标识符（姓名）删除之后得到数据发布表，如表 1-1 所示。表 1-1 属性组(年龄，性别，邮编 )为准标识符，敏感属性为疾病。若攻击者可以从另一个网站上浏览如表 1-2 选民登记表的信息，获知表中法兰克的年龄属性值为 45，性别属性值为男，邮编属性值为 734532。攻击者很容易从表 1-1 推出法兰克患有心脏病，造成了法兰克的隐私泄露。为了阻止数据发布中的链接攻击，一个有效的手段是对原始数据进行匿名化处理，从而控制个体隐私信息的泄露。表 1-1 医疗信息表年龄性别邮编疾病t141女734562失眠t240女734552心脏病t341男734532失眠t444男734555心脏病t544男734555失眠t645男734532心脏病t741男734561禽流感t842男734533禽流感t943女734553禽流感表 1-2 选民登记表姓名年龄性别邮编爱丽丝41女734562贝蒂40女734552约翰41男734532比尔44男734555艾迪44男734555法兰克45男734532凯恩41男734561杰克42男734533珍妮43女7345531.2 国内外讨论进展分析数据发布要求匿名数据既具有安全性又具有可用性，然而两者是相互矛盾的。因此，数据匿名化讨论的重点是设计高效的匿名保护模型和匿名算法，以使得匿名数据在保证安全性的同时，最大限度地提供可用性。目前，国内外匿名化技术的讨论已经取得了许多的成果。1.2.1 匿名保护模型1.2.1.1 k-匿名模型(k-anonymity)定义 1.1[1] k-匿名假设 T{A1,A2,…,An}为一个数据集，QIT为与之相关的准标识符。当且仅当数据集 T 中每个记录的准标识符属性值在数据集中至少出现 k 次，则该数据集满足 k-匿名。定义 1.2[1] 等价类一个等价类即数据集 T{A1,A2,…,An}中一组具有相同准标识符属性值的记录。针对数据发布中的链接攻击，文献[1,2]提出了 k-匿名技术。文献[3]提出实现 k-匿名的泛化和隐匿方法，泛化是指在数据集中用抽象的属性...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容