机器可以学习,它们能不能遗忘呢?

本文翻译自英文原文的部分内容:Now that machines can learn, can they unlearn? (August 2021 Tom Simonite)

各类公司纷纷利用机器学习来分析人们的喜好、憎恶或面部特征。现在,有些研究人员提出了一个然不同的问题:如何使机器遗忘?

作为计算机科学的一个新兴领域,“机器遗忘”(machine unlearning)设法使人工智能软件实现选择性遗忘。其目标是在不影响机器学习系统性能的情况下,从系统中删除特定人员或数据点的所有痕迹。

如果能成为现实,机器遗忘可以让人们在更大程度上掌控自己的数据以及从这些数据中获取的价值。虽然用户已经可以要求一些公司删除个人数据,但他们通常不知道自己的信息被用来改进或训练了哪些算法。而机器遗忘可以让人们收回自己的数据,使企业无法利用他们的数据牟利。 对于那些后悔在网上分享自身数据的人来说,机器遗忘是一个非常直观的概念,但要想做到这一点,必须计算机科学必须另辟蹊径。企业花费巨资训练可识别人脸或者对社交帖子进行排序的机器学习算法,因为与人类程序员相比,这些算法能够更快地解决问题。然而,机器学习系统一旦经过训练,就不容易被改变,甚至是令人费解。想要消除特定数据点的影响,传统的方法是从零开始重新构建系统,但这种做法可能代价高昂。研究机器遗忘的宾夕法尼亚大学教授亚伦·罗斯(Aaron Roth)说:“机器遗忘研究旨在找到折中办法。当人们要求删除他们的数据时,能不能既清除其数据的所有痕迹,又在一定程度上避免重新训练的代价?”

人们越来越关注人工智能对个人隐私的侵害,这在一定程度上推动了有关机器遗忘的研究。很早以前,世界各地的数据管机构就有权要求企业删除非法获取的信息。在欧盟和加利福尼亚州等地区,如果公民对自己已披露的个人信息改变了态度,他们有权要求企业删除他们的数据。近来,美国和欧洲的监管机构表示,人工智能系统的拥有者有时必须更进一步:删除使用敏感数据进行训练的系统。

去年,英国数据监管机构警告企业,某些机器学习软件可能受到数据删除等GDPR权利的约束,因为人工智能系统可能包含个人数据。安全研究人员已经证明,算法有时会被迫泄露其开发过程中使用的敏感数据。今年早些时候,美国联邦贸易委员会(FTC)迫使人脸识别初创公司Paravision删除了许多不当获取的人脸照片以及使用这些照片进行训练的机器学习算法。FTC委员罗希特·乔普拉(Rohit Chopra)称赞道,这一新的执法策略迫使那些违反数据保护条例的公司“丧失其靠欺骗得来的成果”。

作为小众领域的机器遗忘研究致力于解决监管变化所带来的一些现实问题和数学问题。研究人员已经证明,他们能够在某些条件下使机器学习算法遗忘数据,但这项技术尚未成熟。罗斯表示:“想要做什么与现在能做什么之间存在差距,这对于一个年轻的科研领域来说是常有的事。”

2019年,多伦多大学和威斯康星大学麦迪逊分校的研究人员提出了一种有望成功的方法。该方法把机器学习项目的数据源分成多个部分,每个部分单独处理,然后将处理结果合并到最终的机器学习模型中。如果以后要遗忘某个数据点,只需重新处理数据源的一部分即可。研究结果显示,这一方法适用于在线购物的数据以及包含100多万张照片的数据集。

罗斯与来自宾夕法尼亚大学、哈佛大学和斯坦福大学的合作者最近证实上述方法存在一个缺陷,也就是如果数据删除请求按特定的顺序提交,不管是出于偶然还是恶意为之,机器遗忘系统就会崩溃。他们还论证了如何缓解该问题。 同样从事于机器遗忘研究的滑铁卢大学教授高塔姆·卡马斯(Gautam Kamath)表示,罗斯等人发现并解决了一个问题,这表明在真正实现机器遗忘方面还有许多问题有待解决。他自己的研究小组一直在研究如果连续遗忘多个数据点,系统的准确性会降低多少。

卡马斯还希望找到方法,让企业可以证明——或者让监管机构能够核实——系统确实已经遗忘了它应该遗忘的数据。他说:“机器遗忘还有很长的路要走,但他们可能最终会为这类事情聘请审计师。”

随着FTC和其他机构更加密切地关注算法的力量,促使人们探究机器遗忘的监管理由可能会日益增多。研究数据保护的牛津大学教授鲁本·宾斯(Reuben Binns)表示,近年来,在美国和欧洲,人们越来越意识到,个人应该对其数据的命运和价值拥有一定的发言权。

科技公司必须取得出色的技术成果,才能真正实现机器遗忘,使人们得以在更大程度上掌控其数据的算法命运。但即便是到了那个时候,机器遗忘可能也无法大幅降低人工智能时代的隐私风险。

差分隐私就是一个很好的例子。作为一项非常巧妙的技术,差分隐私利用数学工具,对系统可能泄露的个人信息进行了限制。苹果、谷歌和微软都对这项技术赞不绝口,但其应用相对较少,隐私风险仍然层出不穷。

宾斯 (Reuben Binns) 表示,差分隐私虽然可以真正发挥作用,但“在其他情况下更像是面子工程,被企业用来塑造自身的创新形象”。他怀疑机器遗忘可能也是如此,更像是具备技术敏锐性的证据,而不是数据保护方面的重大进展。即使机器学会了遗忘,用户仍将不得不牢记一点:在分享数据时必须小心谨慎。