百摩网
当前位置: 首页 生活百科

协作式数据处理的优缺点(即使对数据作了匿名化处理)

时间:2023-06-02 作者: 小编 阅读量: 4 栏目名: 生活百科

各种公共机构保护个人身份信息的最常用方法是数据匿名化。来自伦敦帝国理工学院和比利时鲁汶大学的研究人员创建了一个机器学习模型,可以准确估计从匿名数据集中重新识别一个人的难易程度。这篇论文表明了目前数据匿名化技术还远落后于匿名识别技术的发展。这项技术将在明年首次经历重大考验,它正被用来确保美国人口普查数据库的中数据的安全。

大数据文摘出品

来源:technologyreview

编译:李雷、夏雅薇

数字时代的生活使我们不断留下各种数据痕迹,大部分都不是那么有趣,比如外卖订单、网购记录等,其中一些是涉及个人隐私的,如医疗诊断信息、个人性取向以及纳税记录。

各种公共机构保护个人身份信息的最常用方法是数据匿名化。这包括剥离明显的可识别信息(去标识),如姓名、电话号码、电子邮件地址等。数据会模糊处理,数据表中的某些数据会被整列删除(抑制),并且引入一定“噪声”。这些隐私政策确保我们不会被定位到个人。

然而,Nature Communications期刊发表的一项新研究表明,情况并非如此。

来自伦敦帝国理工学院和比利时鲁汶大学的研究人员创建了一个机器学习模型,可以准确估计从匿名数据集中重新识别一个人的难易程度。你可以在这个链接中输入你的邮政编码、性别和出生日期来查看自己的得分。

链接:

https://cpg.doc.ic.ac.uk/individual-risk/

平均而言,在美国,使用这三个信息(邮编、性别、出生日期),有81%的概率可以在“匿名”数据集中准确地追踪到你。一个住在马萨诸塞州的人,如果你手里有与他相关的15个人口统计特征数据,那你有99.98%的概率可以在任何匿名数据库中找到他。

伦敦帝国理工学院的研究员,该项研究的作者之一Yves-Alexandre de Montjoye说:“你掌握的信息越多,识别错误的可能性就大大降低。”

这个模型背后的数据库汇集了来自五个数据源的210个不同数据集,其中包括美国人口普查信息。研究人员将这些数据输入到该机器学习模型中,让其学习哪些数据组合近乎唯一,哪些组合不唯一,然后给出正确的识别概率。

这并非第一个研究从匿名数据库中识别个人的项目。在2007年的一篇论文中,只需少量的Netflix电影评分数据就可以像社保号码一样轻松识别一个人。这篇论文表明了目前数据匿名化技术还远落后于匿名识别技术的发展。de Montjoye说,数据集的不完整(泛化和抑制)并不能保护人们的隐私。

匿名识别并非都是坏事,今年早些时候,《纽约时报》的记者使用相同的识别技术曝光了特朗普从1985年到1994年的纳税申报表。但是,同样的方法也可能被那些想要进行身份欺诈或获取信息用于勒索的人所使用。

“问题在于我们认为数据在匿名化后是安全的,各种机构和公司也告诉我们这么做是安全的,但事实证明不是。”de Montjoye说。

英国数据隐私公司Privitar的研究负责人Charlie Cabot认为,要想真的高枕无忧,应该使用差分隐私(differential privacy)技术,这是一种复杂的数学模型。利用这项技术,公司间可以共享有关用户习惯的统计数据,但同时也可以保护个人身份信息。

这项技术将在明年首次经历重大考验,它正被用来确保美国人口普查数据库的中数据的安全。

相关报道:

https://www.technologyreview.com/s/613996/youre-very-easy-to-track-down-even-when-your-data-has-been-anonymized/

    推荐阅读
  • 奇葩说23期观后感(多元化的价值观始终是其坚持的内核)

    】文/康小葵系冷眼看电视签约作者策划/冷眼君2016年5月21日,第三季《奇葩说》鸣金收官。虽然是第三季,却是马东创办米未之后的第一档节目。最后逃不开的决赛魔咒,崛起的姜思达在和黄执中的BBking争夺中乱了节奏,与BBking失之交臂,但依然不能掩盖他崛起后的光芒。其中脑洞大开的非常规性议题成为本季奇葩说的亮点。同时也说明有些嘉宾完全不适合《奇葩说》,比如赵薇、海清。第一《奇葩说》做到第三季,依然在不断突破自己。

  • caution是什么意思中文(caution的意思是什么)

    我们一起去了解并探讨一下这个问题吧!caution是什么意思中文v.谨慎;小心;慎重;警告;警告,告诫。n.警告;告诫;提醒;提醒;警告。

  • 小米糕的做法(很好吃的一道菜)

    以下内容大家不妨参考一二希望能帮到您!小米糕的做法分离蛋清和蛋黄,料理机中倒入蛋黄,玉米油和小米打成细腻的小米蛋黄糊。蛋清中滴几滴柠檬汁打起粗泡,分三次加入细砂糖,打发至提起打蛋器能拉起小尖角。蛋白霜中分三次,倒入小米蛋黄糊翻拌均匀,倒入模具中震出大气泡,盖保鲜膜。放入蒸笼蒸20分钟,蒸好后继续焖5分钟取出,马上倒扣在晾网上,放凉后脱模切块即可。

  • 吃番石榴有什么好处和坏处(吃番石榴有哪些好处和坏处)

    番石榴中的蛋白质物质能偶帮助肌肤吸收蛋白质,恢复肌肤弹性。但是相对于脾胃虚弱的人来说吃番石榴反而会造成拉肚子,所以还是适当摄入不要造成肠胃负担。如果吃番石榴引起水肿,要及时就医,引起重视。

  • 粉底液用不完怎么办(用不完的粉底液怎么办)

    对于30ML左右的粉底液来说,它的保质期是在三年左右,如果使用频率高的话,其实可以在3-4个月左右就使用完了。其实不然,粉底液其中一个功能是有遮瑕的效果。特别是在夏天,我们需要这样功能的粉底液给我们身体其他部位进行表面遮瑕工作,例如我们可以将粉底液涂抹在锁骨位置、颈部位置、肩部位置等等,蘸取一点点粉底液,用于其他部位的遮瑕,这样也可以大大提高粉底液的使用率。

  • 抗癌水果有哪些(你最爱吃哪种)

    抗癌水果有哪些第一抗癌水果就是大枣,研究发现大枣的提取物对肿瘤细胞有抑制作用,抑制率可以高达90%,主要是大枣中含有这个磷酸腺苷,以及维生素。第二抗癌水果就是猕猴桃,因为猕猴桃里面含有天然的VC,它能够清除体内自由基,预防癌症。第六个水果就是苹果,苹果含有大量的纤维素,经常食用可以使肠道内胆固醇含量减少,便量增多,减少直肠癌的发生。

  • 王者荣耀不为人知的英雄台词(王者荣耀中那些不明所以的台词)

    英雄的台词是塑造角色非常重要的一个部分,王者荣耀中有很多设计十分成功的英雄台词,比如李信的“侯非侯,王非王,千乘万骑走北芒”,铠爹的“以绝望挥剑,着逝者为铠”,以及王昭君的“白梅落下之日,归去故里之时”等等。大概正是由于这个原因,孙策的猫狗日记又被称为“舔狗皮肤”。可怜的关二爷,历史上三国时期还没有“绿帽子”的说法,游戏中偏偏此地无银三百两的给他强调一下这个设定,看来不买皮肤是不行了。

  • 数列求和方法汇总(数列中的项数如何确定)

    接下来我们就一起去研究一下吧!数列求和方法汇总1.公式法:使用已知求和公式求和的方法。项数=÷公差+1。

  • 幸福的人不需要太多的执着(一个人的幸福无需取悦)

    不知不觉,上半年已悄然滑过。这其中,有自己主动想要完成的梦想,也有更多身不由己的“迫不得已”。这些迫不得已或许并不是你内心所想,但是你又没有办法真正的推脱与拒绝。他回答,发到朋友圈好多人点赞呢!忙碌是一方面,最重要我不想发朋友圈是觉得不用去刻意为了让人点赞,只需要想表达自我心声时发一些就好。

  • 叫女孩子杰尼龟是什么意思(叫女孩子杰尼龟是什么梗)

    叫女孩子杰尼龟是什么意思?因为口袋妖怪go的火爆,杰尼龟也被网友们纷纷用来调侃。杰尼龟的样子就像是乌龟,身体是蓝色的,头部很圆,可以提高杰尼龟游泳的速度。杰尼龟看起来像是基于海龟和陆龟,长有陆龟具有的龟壳,尾巴为了彰显其水系的特征,长成海浪的形状。