在淘宝购物、在豆瓣网上打一个分数的同时,我们也无条件地把自己的大量隐私信息交给了不同的网站、商家,因为我们知道自己的信息会相对安全,即使公布也会做匿名化处理。然而我们拱手交给互联网的信息真的那么安全吗?2006年,Netflix 举办的机器学习竞赛所用的数据集中的隐私泄露让我们意识到隐私保护远远比简单的匿名化复杂的多。尽管 Netflix 把数据集中的用户ID和识别码等的识别用户的信息都抹去了,两位研究者通过挖掘一些包含用户信息的电影浏览记录,把这些记录和 Netflix 数据集里的浏览记录进行匹配,反向识别出了在 Netflix 数据集中的个体对应的是哪些人,从而获得了这些用户的其他信息。在这期节目中,我们来讨论在数据收集、公布、使用的过程中,有哪些方法可以减少用户隐私的泄露。其中,宋爽主要介绍了近几年的主流方法,差分隐私(Differential Privacy)。
提到的一些内容
Differential Privacy 这个概念是由 C Dwork, F McSherry, K Nissim and A Smith 等人在2006年提出的。宋爽提到了早期的保护隐私的方法 k-anonymity,通过降低数据的精度,使得数据集中的每条记录不可识别。基于 Stochastic Gradient Descent (SGD) 可以满足 differential privacy,并且很多深度学习模型可以用 SGD 来训练,Ian Goodfellow 等人将差分隐私进一步引入了深度学习。具体文章可见M Abadi, A Chu, I Goodfellow, H. B McMahan, I Mironov, K Talwar, L Zhang(2016)。
在 Boosting 的那期节目中,张家鹏也和我们分享了 Boosting 在差分隐私上的应用,具体的工作可以参见 C Dwork, G.N Rothblum and S Vadhan(2010)。苹果在官方网站上特意提到他们使用差分隐私技术保护用户数据安全,参见保护隐私的措施