数据科学中的隐私保护

在 2017-10-30 发布于 播客 分类

本期嘉宾:宋爽(UCSD 博士候选人)
话题:差分隐私

在网购一个物件,豆瓣网上打一个分数的同时,我们也无条件地把自己的大量隐私信息交给了不同的网站、商家,因为我们知道自己的信息会相对安全,即使公布也会做匿名化处理。 然而我们拱手交给互联网的信息真的那么安全吗?2006年,Netflix 举办的机器学习竞赛所用的数据集中的隐私泄露 让我们意识到隐私保护远远比简单的匿名化复杂的多。 尽管 Netflix 把数据集中的用户ID和识别码等的识别用户的信息都抹去了,两位研究者通过挖掘一些包含用户信息的电影浏览记录,把这些记录和 Netflix 数据集里的浏览记录进行匹配, 反向识别出了在 Netflix 数据集中的个体对应的是哪些人,从而获得了这些用户的其他信息。在这期节目中,我们来讨论在数据收集、公布、使用的过程中,有哪些方法可以减少用户隐私的泄露。 其中,宋爽主要介绍了近几年的主流方法,差分隐私(Differential Privacy)。

收听节目

提到的一些内容

阅读文字版

关注德塔赛

谢谢收听!