出台《数据权利法案》 正当其时

本文翻译自英文原文的部分内容:Its time for a Bill of data rights (Dec 2018 Martin Tisne )

当美国议员正展开激辩时,数据管理专家也提出了一项如何在数字时代保护自由权的方案。

2023年夏天的某个晚上,身无分文的蕾切尔走进酒吧。当她在手机上浏览招聘信息时,突然收到了一条来自某个肝功能研究项目人员发来的短信。她加入了酒吧会员,这样每次点芝士玉米片都能享受“欢乐时光”折扣价,而研究人员正是通过这个途径知道了她的名字。他们开出了每周50美元的条件,前提是获取她未来3个月手机里的健康数据及酒单明细。

一开始,蕾切尔很讨厌这种侵扰行为,但她需要钱,所以对着手机点了点头,边继续吃芝士玉米片,边找工作——在那个时代,对着手机点头表示一种微妙而明确的认可,如同签名一样具有法律效应。

然而,随着夏天渐渐过去,蕾切尔不断收到拒信,朋友们却获得了不少工作机会。其实,那个肝功能项目研究团队已经把某些数据连同她的历史酒单,全部发给了市场上数一数二的劳工公司。只是由于她没有研究合同细则,所以对此一无所知。只要有雇主浏览她的应聘材料,就会发现她已经被归于“抑郁而不可靠”的群体。难怪一直找不到工作!但就算她知道自己已经被打上了这样的标签,又能挽回什么?

未来的一天

读到这篇文章的你大有可能像蕾切尔一样,在阅读、购物、记录健身情况,甚至只要揣上手机出门的时候就已经制造出了大量数据。或许某些数据是你有意为之,但更多数据是在你不知情——自然也是不同意的情况下制造的。

面对最近几十年的数据扩散,某些改革家高声疾呼:“数据的所有权应归属用户!”芝加哥大学教授艾力克·波斯纳(Eric Posner)、微软研究院首席研究员艾力克·维尔(Eric Weyl)、虚拟现实之父杰伦·拉尼尔(Jaron Lanier)等人都认为,我们应把数据看作财产。Facebook创始人、CEO马克·扎克伯格也有此一说。Facebook表示:“在Facebook上发布的所有信息和通讯,统统归用户所有。用户有权决定如何共享上述信息。”《金融时报》宣称:“把个人数据的所有权交还给消费者,这是解决方案的核心。”苹果公司CEO蒂姆·库克在最近一场演说中表示:“各个企业应当认识到,数据属于用户。”

数据所有权”不仅解决不了现有的问题,还会制造新问题

本文认为,“数据所有权”的提法是对数据的一种错误认知,只会造成反效果。这个提法不仅解决不了现有的问题,还会制造新问题。相反,我们需要的是一套制度,既赋予了人们以自主使用数据的权利,又不强求人们自己掌握数据所有权。12月12日,美国夏威夷州民主党议员布里恩·夏兹(Brian Schatz)递交的《数据保护法案》(The Data Care Act),在这方面开了个好头(究竟结果如何,取决于法案细则如何设置)。正如法案另一位推动者、阿拉巴马州民主党派议员道格·琼斯(Doug Jones)指出的:“在网络上享有隐私和安全是一项根本权利。”

“所有权”的提法之所以吸引人,无非是因为这个词对应着“赋权”,意味着我们有权掌握个人数据。问题在于,“拥有—租让”的类比在这个语境下是不合适的。能否控制特定字节的使用方式,仅仅只是众多问题的一个方面。关键在于,数据如何塑造社会和身处其中的个体。蕾切尔的遭遇不仅揭示了数据权利的重要性,还有利于阐明数据权利如何保护蕾切尔本人和整个社会的安全。

未来难以预见

为了说清楚“数据所有权”的缺陷,让我们继续以读者正在阅览的这篇文章为例。读者在电子设备点击、打开本文的同时,就已经在浏览器里留下历史记录。网页把缓存发送到给浏览器,数据被创造出来(“缓存”指网站服务器日志用来记录某一IP地址访问历史的数据)。只要是上网,无论阅读、购物,抑或只是带着联网的手机出趟门,要想不留下“数字阴影”一般的历史记录,几乎不可能。然而正如晴天追随我们身后的暗影那样,这些“数字阴影”也不可能像自行车那样归谁“所有”。

对营销人员或保险公司来说,个体数据本身没有什么太大的用处。但是,如果把成千上万条相似数据集合到一起,加以分析,就能形成若干算法,将个体打上标签归入某一类(如“一个有酒瘾的老烟枪”,或“从不迟到的健康跑者”)。如果某种算法本身是不公平的,那么让个体“拥有”其私人数据也无济于事。什么是不公平的算法?例如,基于扭曲的数据集,或者由于某一个体属于离群值,就将其错断为患病风险人群。要想隔绝算法的影响,除非永远不泄露任何个人数据。然而,就算我们设法隐藏好相关数据,那些掌握大量他人数据的企业和政府机构,还是能通过数据来影响你。数据不是现实的客观映射。数据的创造和消费过程,反映了权力在社会内的分配方式。

如果想防止数据的不利影响,你当然可以将全部个人数据设定为私密状态。但如果这么做,最后可能也无法享受公开数据偶尔所能提供的好处。例如,开车时,智能手机的导航软件将信息匿名进行实时分享,并转化成精准的路况信息(若早上8:16出发,开车上班预计耗时26分钟)。对个体来说,这种数据是私密的,具体方位不会透露给陌生人;但对集体来说,这种数据的整合是一件好事。

数据的创造和消费与权力有关

这个例子说明,用于使个人数据发挥作用的大量数据与其中的个人数据存在根本性的区别。即便是关于“数据所有权”的善意主张,也是基于以下假定——只要妥善管控个人数据,就会获得积极的社会后果。况且,这一假定还站不住脚。

也因如此,很多关于数据使用公平性的问题,不能简单地通过访问控制来解决。在美国某些辖区,法官会使用一种由算法生成的“风险分数”,来帮助做出保释和处刑决定。这种软件能够预测某人在未来犯罪的概率。想象一下,某种算法认为你有99%的概率再次犯罪或弃保潜逃,原因就是人口学意义上与你相似的人经常犯罪或在保释期间逃脱。或许这对你不公平,但你的犯罪记录和人口档案不可能归你所有,你也不能拒绝法律体系查阅这些资料。就算你拒绝同意“属于你的”数据为人所用,某组织也能根据其他人的数据来做出足以影响你的推断。这个例子阐明了数据与权力的关系。被指控犯罪或被定罪的人,他们的权力往往比那些做出保释和刑罚决定的法官要小。

同样地,针对数据不公平使用现状的解决方案往往不在于控制谁能获取数据,而在于数据如何使用。根据《美国平价医疗法案》(Under the US Affordable Care Act),医疗保险公司不得因为某人的之前的情况而拒绝承保或提高保费。政府并没有禁止这些企业掌握病人数据,只是要求保险公司忽略这些信息。这就是说,某人虽然不“拥有”其患糖尿病的事实,但却有权要求保险公司不得因此产生歧视。

在数据使用问题上,“基于用户认可”是一条根本原则,理应受到重视。但是,由于政府管控的缺位,医疗保险公司依然会参考投保者的先前的情况,个体消费者根本没有能力去“认可”——因为保险公司掌握着更大的权力。说白了,这条路行不通。

数据权理应保护隐私,同时应该体现隐私并非将个体与社会隔绝开来的被动权利。数据权是不受商务影响和政府管控地发展自身的自由。但数据权又不仅仅关乎隐私。正如言论自由权一样,数据权从根本上也是个体在融入现代社会过程中保留自由的一种方式和媒介,其具体内涵也应像既有的《权利法案》一样,遵循一些基本原则。过去,我们在实现基本原则过程中,时常迷失在杂乱无章的“选择性加入的认可模型”中,最后陷入困境,很快被时间所淘汰。

世界各国都需要出台符合各国自身法律体系的,清晰而广泛适用的原则。美国现有的宪法条款在这方面是不充分的,只是要求同等保护、禁止“无理搜查和扣押”。然而,长期、持续性地追踪个人与公众动态却很难归属于搜查的范畴。但就其侵犯性的影响而言,这类监控当与“无理搜查”同属一类。我们不能将全部希望都寄托给法庭,要求法庭把18世纪的法律条款恰当的加以解释,应用到21世纪的技术问题上。

“数据权利法案”应当包含下列权利:

第一,免受无理监视的权利不受侵犯。

第二,个人行为不应受到秘密操纵。

第三,个人不应遭受基于数据的不公和歧视。

一个长期有效的法案绝不仅仅包含上述条款。这些只是开始,是这样一个法案所需要的清晰度和普适性的范例。

“数字权利法案”还有待于一整套全新的制度体系和法律机构,才能确保其规定的种种权利。美国应学习欧盟2018年通过的《通用数据保护条例》,保护并界定数据权利。这一全新权利的基础设施内涵和外延也应有所拓展,包括评审团、数据联合体(他们可以代表用户开展联合行动以及主张权利)、道德数据证书计划、专业的诉讼者与审计员、数据代表(以社会公众受托人的身份分析数据对生活造成的复杂影响)。

在这方面,科技不能解决问题。

假如未来没有数据权利保护会怎么样?回到蕾切尔的求职之路。她被归为“抑郁、不可靠”,这个标签可能是对的,也可能是错的;或许算法只是出了个差错,蕾切尔身心完全健康、适合工作。但是,随着算法的改进和更大规模数据的输入,输出不精准成果的可能性越来越小。但是,成果精准,就能避免不公和歧视吗?

如果蕾切尔确实有那么一点儿抑郁呢?假如有份理想的工作,蕾切尔或许就能克服抑郁的发作。但正因缺少数据权利保护,蕾切尔的档案迅速沦为自我实现的预言。求职无路的她果然变得抑郁、不可靠。

再假设蕾切尔活在一个注重保护数据权利的时代。虽然认可参与肝功能研究,但当她浏览合同条款时,数据代表马上标示出隐私问题,就像防火墙弹出病毒蠕虫侵入警示。随后,隐私问题被转交给审计组(审计组对当地的数据保护评审团负责)。翻阅研究团队的算法之后,审计组发现该算法可链接到用人档案。评审团由此得出结论,蕾切尔已被归档,且根据2022年通过的《就业平等法》《数据保护法案》,这属于违法行为。不待蕾切尔亲自动手,评审团马上会以滥用数据罪对研究者进行制裁。

蚕食隐私的过程是隐秘而几乎无害的,就像二氧化碳无形无迹,对环境的影响难以名状

如我所提出的,“数据所有权”是一个概念性的错误,会引发极其恶劣的后果。人不可能“拥有”其个人信息。就算真的“拥有”,也不可能以此来避免不公和歧视。既然如此,为什么“数据所有权”还成了热门方案?

因为政策专家和技术人员大都暗自接受了“数据资本主义”的概念。在他们眼中,数据要么是资本的源泉(Facebook就用我的数据来设定广告),要么是劳动力产品(我生产了我的数据,所以我应得到报偿)。但数据的本质并非如此。在这个时代,数据与公民、国家、私人部门的关系已发生深刻变革。如果把数据类比为自行车、油或者钱,就会看不清这种变化。要想创造出面向21世纪的公平体系,就必须打造一种以认知数据的本质和规范的全新范式。

所谓的全新范式,或许可以比作环保。假设数据类似于温室气体或其他外部性。虽然少量、个体的污染是无害的,但大量排放会造成毁灭性的后果。人们大都珍惜洁净的空气,正如人们珍视个人隐私。个人隐私的蚕食过程是隐性的、几乎无害的,正如二氧化碳无形无迹、对环境的影响难以名状一样。但如果把个体隐私的蚕食上升到世界层面,就会发现,隐私本质的深刻变革足以对社会结构造成根本性的破坏。大量排放温室气体,也会产生类似的恶果。

为了理解这种恶果,我们也需要这种新范式。这个范式,“新”就“新”在要能体现出整体数据如何改变人与人之间的关系,如何改变家庭、朋友、同事、消费者、公民的关系。政府必须保护人享有的数据权,这是根本性的问题。

可以预见将会有不少挑战。数据权利的技术法律基础设施还很不成熟。关于究竟存不存在这种权利,还很难达成共识。推动立法监管、保护数据权利,道路还很漫长。在美国国会的辩论现场,利益团体和产业游说人员正就重要细节展开论战。各国的取舍必然不同。但可以认同的是,开放、民主的社会不能没有强大、充满活力的数据权利基础设施。