Sidney Fussell丨作者

数旗智酷数字政府实验室丨编译

李    遇丨编辑

学生们的面部数据被记录下来进行研究,然后成为永久在线的数据集的一部分,任何人都可以访问。

如果一家咖啡店里有20个人,那么至少有21个摄像头:每个人的手机里都有一个摄像头,通常情况下,每个摄像头都藏在高高的角落里。你说的话可能会被偷听和发在推特上;你甚至可能出现在另一位顾客的自拍或Skype会话的背景中。但即使是最注重隐私的人,也无法阻止他们走进咖啡馆。他们接受进入公共场所所固有的风险。

这种对隐私的“合理”预期引导着研究人员希望在公共场合观察对象。但什么是“合理”的想法本身就很复杂。杜克大学、斯坦福大学和科罗拉多大学这三所大学的教职员工在创建数据库时使用了学生在咖啡馆和大学校园里走动的监控录像,这一做法遭到了强烈反对。你可能有理由认为在咖啡馆里会被偷听,但这与突然成为研究对象、成为可以永久存在的数据集的一部分是不同的。

伦理委员会批准了所有三个研究项目,这些项目使用学生数据来改进机器学习算法。杜克大学(Duke University)研究员卡洛·托马西(Carlo Tomasi)拒绝接受《大西洋月刊》(The Atlantic)的采访,但他在给《杜克纪事报》(Duke Chronicle)的一份声明中表示,他“真心认为”自己在遵循机构审查委员会的指导方针。在他们的研究中,他和他的同事在公共区域的所有入口张贴了海报,告诉人们他们正在被录音,并提供联系信息,如果他们想要删除他们的数据。托马西告诉《旧金山纪事报》,没有人联系他。

但是当他的研究参数发生变化时,Tomasi承认他没有通知IRB。对于较小的更改,这是允许的。但托马西获得了在室内录音的许可,而不是在室外。更重要的是,他承诺只有在请求时才允许访问数据库。相反,他向《旧金山纪事报》承认,他向任何人开放下载。“这不能怪IRB,因为我没有在关键时刻咨询他们。我为我的错误承担全部责任,我向所有被记录在案的人道歉,并为他们的后果向杜克大学道歉。”

杜克大学最终决定删除与该研究相关的数据集。斯坦福大学(Stanford)对其研究人员从旧金山一家咖啡馆的顾客那里拍摄的数据集做了同样的处理。在UCCS,研究人员记录学生来测试识别软件,首席研究员说,该团队从未收集过个人识别信息。斯坦福大学和UCCS项目的研究人员没有回复置评请求。两所大学在各自的声明中重申,伦理委员会批准了所有的研究,并强调其对学生隐私的承诺。

但问题是,大学伦理委员会的范围本质上是有限的。他们监督研究如何进行的特定的、狭窄的方面,但并不总是在哪里结束。在信息时代,大多数学术研究都是在网上进行的,什么是永远在线的。其他研究人员,不受IRB标准的约束,可以下载数据集,并按照自己的意愿使用它,从而为那些没有得到通知或提供同意的人带来各种后果。

这些结果可能远远超出研究人员的想象。Counter Surveillance专家亚当·哈维在德国,发现全球100多个机器学习项目引用了公爵的数据集。他创建了一个地图,跟踪数据集世界各地的传播就像一个飞行追踪,杜克大学长蓝线从各个方向。世界各地的大学、初创企业和机构都使用了包括SenseTime和Megvii在内的数据集。(此处省略28字)

每次访问一个新项目的数据集时,其意图、范围和潜在的危害都会发生变化。数据的便携性和灵活性满足了互联网的速度,极大地扩展了任何一个研究项目的可能性,并将风险扩大到任何一所大学都无法承担的程度。无论好坏,它们只能调节原始研究者的意图。

联邦政府人类研究保护办公室明确要求委员会成员不要考虑“应用研究中获得的知识可能产生的长期影响”。相反,他们被要求只专注于与研究直接相关的主题。如果这些人大部分都是在公共场所短暂闲逛的匿名者,那么就没有理由相信他们受到了明显的伤害。

“这不是(IRB)的初衷,”米歇尔·迈耶(Michelle Meyer)说。正如她所解释的那样,IRB对公开观察研究的主要隐私关注是研究对象是否被单独识别,以及被识别是否会使他们面临经济或医疗伤害的风险。她说:“从理论上讲,如果你正在制造一枚核弹,并且……(进行调查或采访人类受试者的)研究,那么IRB将考虑的风险将是直接参与该项目的人所面临的风险,而不是下游核毁灭的风险。”

向其他研究人员开放数据集会增加这些下游风险。但是IRB在这里可能没有太多的管辖权;从根本上说,数据共享不是研究。事后应用数据本身并不是研究,所以它“有点处于奇怪的监管模糊地带,”Meyer解释说。

科罗拉多大学博尔德分校(University of Colorado at Boulder)信息科学系助理教授凯西•菲斯勒(Casey Fiesler)撰写了一篇关于在研究中使用公共数据的伦理问题的文章。菲斯勒提出了一种类似于版权使用的系统来审查数据集访问。她指出,合理使用条款是主观的,但有基于请求者计划如何使用材料的标准。

“为这些数据集设置某种形式的看门人是一个好主意,”她说,“因为如果您告诉我们您将如何处理它,(请求者)就可以访问它。”类似的规则也适用于开源软件和知识产权知识共享(Creative Commons intellectual property),这是一个基于许可的系统,在此系统中,请求者只能将媒体用于建立在原创基础上的非商业作品,而不能复制原创作品,如果他们说谎或歪曲了自己的意图,他们将承担责任。这些都是主观的指标,与高度官僚化的学术环境并不相符,但至少在试图切断下游危害方面是有用的。菲斯勒说:“这并不是建议(繁重的)规则,而是建议当你决定要做什么的时候,应该考虑特定的上下文因素。”

原文链接:

https://www.nextgov.com/emerging-tech/2019/06/you-no-longer-own-your-face/158110/