OpenAI对数据的渴求又回来了

该公司的人工智能服务可能违反了数据保护法，目前尚无解决方案。

梅利萨·海基拉存档页面

2023年4月19日

斯蒂芬妮·阿内特/MITTR

继意大利的临时禁令和其他欧盟国家的一系列调查之后，OpenAI只有一周多的时间来遵守欧洲数据保护法。如果失败，它可能面临巨额罚款，被迫删除数据，甚至被禁止。

但专家告诉《麻省理工技术评论》，OpenAI几乎不可能遵守这些规则。这是因为用于训练人工智能模型的数据的收集方式：从互联网上收集内容。

在人工智能开发中，主导范式是训练数据越多越好。OpenAI的GPT-2模型有一个由40GB文本组成的数据集。ChatGPT所基于的GPT-3是基于570GB的数据进行训练的。OpenAI还没有分享其最新模型GPT-4的数据集有多大

但是，对更大型号的渴望现在又回来咬公司了。在过去几周里，一些西方数据保护机构已经开始调查OpenAI如何收集和处理ChatGPT所需的数据。他们认为，它窃取了人们的个人数据，如姓名或电子邮件地址，并在未经他们同意的情况下使用了这些数据。

意大利当局已阻止将ChatGPT用作预防措施，法国、德国、爱尔兰和加拿大数据监管机构也正在调查OpenAI系统如何收集和使用数据。欧洲数据保护委员会（European Data Protection Board）是数据保护机构的伞式组织，它也正在建立一个欧盟工作队协调ChatGPT的调查和执行。

意大利提供OpenAI至4月30日遵守法律。这意味着OpenAI必须征得人们的同意才能删除他们的数据，或者证明它对收集数据有“合法的兴趣”。OpenAI还必须向人们解释ChatGPT是如何使用他们的数据的，并赋予他们纠正聊天机器人吐出的任何错误的权力，如果他们愿意，可以删除他们的数据，并反对让计算机程序使用它

如果OpenAI无法说服当局其数据使用做法是合法的，那么它可能会在特定国家甚至整个欧盟被禁止。法国数据保护机构CNIL的人工智能专家Alexis Leautier表示，该公司还可能面临巨额罚款，甚至可能被迫删除模型和用于训练模型的数据。

纽卡斯尔大学（Newcastle University）互联网法教授莉莉安·爱德华兹（Lilian Edwards）表示，OpenAI的违规行为如此公然，很可能导致此案最终在欧盟最高法院——欧盟法院（Court of Justice of the European Union）审理。我们可能需要数年时间才能看到意大利数据监管机构提出的问题的答案。

高难度游戏

OpenAI的风险再高不过了。欧盟的《通用数据保护条例》是世界上最严格的数据保护制度，它已在世界各地广泛复制。从巴西到加州，各地的监管机构都将密切关注接下来会发生什么，结果可能会从根本上改变AI公司收集数据的方式。

除了对其数据实践更加透明之外，OpenAI还必须表明它正在使用两种可能的合法方法之一来收集其算法的训练数据：同意或“合法利益”

OpenAI似乎不太可能辩称，它在删除数据时获得了人们的同意。爱德华兹说，这样做可能需要该公司向监管机构提出一个令人信服的案例，说明ChatGPT对于证明未经同意的数据收集是多么重要。

OpenAI告诉我们，它相信自己符合隐私法博客帖子该公司表示，“在可行的情况下”，将根据要求从培训数据中删除个人信息

该公司表示，其模型经过了公开内容、授权内容和人工审查人员生成内容的培训。但对于GDPR来说，这个标准太低了。

Edwards说：“美国有一个原则，即当事情公开时，就不再是私人的，这根本不是欧洲法律的运作方式。”。GDPR赋予人们作为“数据主体”的权利，例如有权了解他们的数据是如何收集和使用的，以及有权从系统中删除他们的数据，即使这些数据最初是公开的。

大海捞针

OpenAI还有一个问题。意大利当局表示，OpenAI在培训后阶段如何收集用户数据方面并不透明，例如用户与ChatGPT交互的聊天日志。

Leautier说：“真正关心的是它如何使用你在聊天中提供的数据。”。人们倾向于与聊天机器人分享私密的私人信息，告诉聊天机器人他们的精神状态、健康状况或个人意见。Leautier表示，如果ChatGPT存在风险，则存在问题反刍这些敏感数据给其他人。他补充道，根据欧洲法律，用户需要能够删除他们的聊天日志数据。

创业公司Hugging Face的人工智能研究员兼首席道德科学家玛格丽特·米切尔（Margaret Mitchell）表示，OpenAI将发现几乎不可能识别个人数据并将其从模型中删除。她曾是谷歌人工智能道德联合负责人。

她说，通过从一开始就建立强大的数据记录保存功能，该公司本可以避免巨大的麻烦。相反，在人工智能行业中，为人工智能模型构建数据集是很常见的，方法是不分青红皂白地抓取网络，然后外包删除重复或不相关数据点的工作，过滤不需要的内容，并修复输入错误。这些方法，以及数据集的庞大规模，意味着科技公司往往对培训模型的内容了解甚少。

谷歌前研究科学家、企业家尼蒂亚·萨姆巴西万（Nithya Sambasivan）表示，科技公司没有记录他们如何收集或注释人工智能训练数据，甚至不知道数据集中有什么2021年论文列出了人工智能行业低估数据的方式。

在ChatGPT庞大而笨重的训练数据集中查找意大利数据就像大海捞针。即使OpenAI成功删除了用户的数据，也不清楚这一步骤是否是永久性的。研究数据集被删除后很长一段时间都会留在互联网上，因为原始数据的副本往往会保持在线。

米切尔说：“数据收集的技术水平非常、非常不成熟。”。这是因为在为人工智能模型开发尖端技术方面做了大量工作，而数据收集方法在过去十年几乎没有改变。

Sambasivan说，在人工智能社区，人工智能模型的工作被过分强调，而牺牲了其他一切。米切尔同意：“在文化上，机器学习中存在这样一个问题，即处理数据被视为愚蠢的工作，而处理模型被视为真正的工作。”。

Sambasivan说：“总体而言，数据工作需要更大的合法性。”。

更新：这个故事已经过修改，使尼蒂亚·萨姆巴西万在数据领域的角色更加清晰。