百摩网
当前位置: 首页 生活百科

协作式数据处理的优缺点(即使对数据作了匿名化处理)

时间:2023-06-02 作者: 小编 阅读量: 2 栏目名: 生活百科

各种公共机构保护个人身份信息的最常用方法是数据匿名化。来自伦敦帝国理工学院和比利时鲁汶大学的研究人员创建了一个机器学习模型,可以准确估计从匿名数据集中重新识别一个人的难易程度。这篇论文表明了目前数据匿名化技术还远落后于匿名识别技术的发展。这项技术将在明年首次经历重大考验,它正被用来确保美国人口普查数据库的中数据的安全。

大数据文摘出品

来源:technologyreview

编译:李雷、夏雅薇

数字时代的生活使我们不断留下各种数据痕迹,大部分都不是那么有趣,比如外卖订单、网购记录等,其中一些是涉及个人隐私的,如医疗诊断信息、个人性取向以及纳税记录。

各种公共机构保护个人身份信息的最常用方法是数据匿名化。这包括剥离明显的可识别信息(去标识),如姓名、电话号码、电子邮件地址等。数据会模糊处理,数据表中的某些数据会被整列删除(抑制),并且引入一定“噪声”。这些隐私政策确保我们不会被定位到个人。

然而,Nature Communications期刊发表的一项新研究表明,情况并非如此。

来自伦敦帝国理工学院和比利时鲁汶大学的研究人员创建了一个机器学习模型,可以准确估计从匿名数据集中重新识别一个人的难易程度。你可以在这个链接中输入你的邮政编码、性别和出生日期来查看自己的得分。

链接:

https://cpg.doc.ic.ac.uk/individual-risk/

平均而言,在美国,使用这三个信息(邮编、性别、出生日期),有81%的概率可以在“匿名”数据集中准确地追踪到你。一个住在马萨诸塞州的人,如果你手里有与他相关的15个人口统计特征数据,那你有99.98%的概率可以在任何匿名数据库中找到他。

伦敦帝国理工学院的研究员,该项研究的作者之一Yves-Alexandre de Montjoye说:“你掌握的信息越多,识别错误的可能性就大大降低。”

这个模型背后的数据库汇集了来自五个数据源的210个不同数据集,其中包括美国人口普查信息。研究人员将这些数据输入到该机器学习模型中,让其学习哪些数据组合近乎唯一,哪些组合不唯一,然后给出正确的识别概率。

这并非第一个研究从匿名数据库中识别个人的项目。在2007年的一篇论文中,只需少量的Netflix电影评分数据就可以像社保号码一样轻松识别一个人。这篇论文表明了目前数据匿名化技术还远落后于匿名识别技术的发展。de Montjoye说,数据集的不完整(泛化和抑制)并不能保护人们的隐私。

匿名识别并非都是坏事,今年早些时候,《纽约时报》的记者使用相同的识别技术曝光了特朗普从1985年到1994年的纳税申报表。但是,同样的方法也可能被那些想要进行身份欺诈或获取信息用于勒索的人所使用。

“问题在于我们认为数据在匿名化后是安全的,各种机构和公司也告诉我们这么做是安全的,但事实证明不是。”de Montjoye说。

英国数据隐私公司Privitar的研究负责人Charlie Cabot认为,要想真的高枕无忧,应该使用差分隐私(differential privacy)技术,这是一种复杂的数学模型。利用这项技术,公司间可以共享有关用户习惯的统计数据,但同时也可以保护个人身份信息。

这项技术将在明年首次经历重大考验,它正被用来确保美国人口普查数据库的中数据的安全。

相关报道:

https://www.technologyreview.com/s/613996/youre-very-easy-to-track-down-even-when-your-data-has-been-anonymized/

    推荐阅读
  • 完美关系在那个台几点播出(你知道吗)

    接下来我们就一起去研究一下吧!完美关系在那个台几点播出当代都市题材电视剧《完美关系》的播出时间:2020年2月18日,首播平台:湖南卫视、爱奇艺、腾讯视频。若是VIP会员24点更新,非会员次日24点观看,2018年7月拍摄,由浙江金溪影视有限公司制作,制作周期12个月,该剧由安建导演,主演:黄轩,佟丽娅,陈数。

  • 堂哥的儿子是我的外甥还是侄子(堂哥的儿子是我的外甥还是侄子呢)

    亦称朋友的儿子,属于客套话,而哥哥的小孩其实就是弟兄的孩子,所以叫“侄子”最恰当不过。姑侄对称,与亲兄弟之子无关。在此之前,兄弟之子称为兄子和弟子,多用作亲属的“转述叙称”称谓。

  • 晨跑和夜跑哪个更减肥瘦身(晨跑和夜跑哪个减肥更快)

    但是对于减肥的人而言,还是要有所限制。

  • 施瓦辛格成功绝非偶然(从穷小子到国际巨星)

    在加入美国国籍后,他就报名参加了美国举办的国际健美比赛,而在本场比赛上,施瓦辛格凭借着接近完美的男性身材而获得了比赛冠军,也因此得到了健美先生的称号。施瓦辛格心里一直有一个梦想——成为美国总统。施瓦辛格弃影从政,成功当选州长施瓦辛格在健美界和影坛所取得的成就也使得他闻名世界,他所积攒下的财富也使得他跻身亿万富翁。另外施瓦辛格还提出了使用清洁能源等政策,为此他还放弃

  • 汉服简介(汉服的介绍)

    与汉人一词类似,汉服中的“汉”字的词义外延亦存在着由汉朝扩大为整个民族指称的过程。汉服“始于黄帝,备于尧舜”,源自黄帝制冕服。定型于周朝,并通过汉朝依据四书五经形成完备的冠服体系,成为神道设教的一部分。汉服还通过华夏法系影响了整个汉文化圈,亚洲各国的部分民族如日本、朝鲜、越南、蒙古、不丹等等服饰均具有或借鉴汉服特征。

  • 山楂的保存方法(山楂的保存方法简述)

    下面内容希望能帮助到你,我们来一起看看吧!山楂的保存方法对于已经切开的山楂,想要保存可以放进盐水中,也可放在阳光下晾晒,让水分尽快蒸发掉。完整的山楂保存可以装入塑料袋中,扎紧袋口放进冰箱冷藏。在容器底部放一层细沙将山楂装入,再放一层细沙密封保存。最简单的方法是放入保鲜膜中,把里面空气放干净,密封袋口保存。

  • 象棋中的马怎么算撇脚(撇脚的具体情况如下)

    以下内容大家不妨参考一二希望能帮到您!象棋中的马怎么算撇脚比如马要向前跳!那马前面也就是马头上如果有棋子就是挡马脚!无论马往哪边跳!马前面有一颗棋子挡着,比如想向前跳,紧挨着马的正前方有一颗棋子,都叫撇脚马,同理,你想向左跳,紧挨着马的左方有一颗棋子也叫撇脚马。

  • 赘婿楼舒婉为什么要杀死家人 赘婿楼舒婉报仇了吗

    在对方强占檀儿时,被宁毅给撞见了,一向有仇必报的他,自然要将楼家给灭掉。之前宣威营的小头目绑走了苏檀儿,最终卖给了楼书恒。之后楼舒婉制作了防水衣送给了刘西瓜,刘西瓜又给了宁毅。之后宁毅发现了防水衣的秘密,急冲冲的跑到了楼家的布店,刚好撞见楼书恒在欺负苏檀儿。如此看来,这一切都是楼舒婉布下的局,就是为了弄死自己的哥哥和父亲。之后他的所作所为,都是为了报复自己之前遭遇的不公。

  • 自制瓷砖胶(瓷砖胶配方及制作方法)

    接下来我们就一起去研究一下吧!自制瓷砖胶先将冷水按比例加入到容器内,开启搅拌机再将胶粉徐徐撒入,高速搅拌10-15分钟即为胶水。批重钙、滑石粉,每1000公斤水加107胶粉13-14公斤、杀菌防腐剂3公斤,或加入甲醛2.5-3公斤,制成胶水。批硅酸盐灰白水泥:每1000公斤水直接加入107胶粉10-11公斤,制成胶水。

  • 研教学评一体化(备教学)

    只有经历这一大循环的教学,才能呈现一种持续评价教与学的目标达成度、教与学的进步度、决定教与学的需求,并实现螺旋上升的态势,使教与学和质量评价更有意义。所以,在“备、教、学、评一体化”教学指导下的教学新格局,应该是一个高效的课堂。