在人工智能开发中,主导范式是训练数据越多越好。OpenAI的GPT-2模型有一个由40GB文本组成的数据集。ChatGPT所基于的GPT-3是基于570GB的数据进行训练的。OpenAI还没有分享其最新模型GPT-4的数据集有多大
但是,对更大型号的渴望现在又回来咬公司了。在过去几周里,一些西方数据保护机构已经开始调查OpenAI如何收集和处理ChatGPT所需的数据。他们认为,它窃取了人们的个人数据,如姓名或电子邮件地址,并在未经他们同意的情况下使用了这些数据。
意大利当局已阻止将ChatGPT用作预防措施,法国、德国、爱尔兰和加拿大数据监管机构也正在调查OpenAI系统如何收集和使用数据。欧洲数据保护委员会(European Data Protection Board)是数据保护机构的伞式组织,它也正在建立一个欧盟工作队协调ChatGPT的调查和执行。
意大利提供OpenAI至4月30日遵守法律。这意味着OpenAI必须征得人们的同意才能删除他们的数据,或者证明它对收集数据有“合法的兴趣”。OpenAI还必须向人们解释ChatGPT是如何使用他们的数据的,并赋予他们纠正聊天机器人吐出的任何错误的权力,如果他们愿意,可以删除他们的数据,并反对让计算机程序使用它
如果OpenAI无法说服当局其数据使用做法是合法的,那么它可能会在特定国家甚至整个欧盟被禁止。法国数据保护机构CNIL的人工智能专家Alexis Leautier表示,该公司还可能面临巨额罚款,甚至可能被迫删除模型和用于训练模型的数据。
纽卡斯尔大学(Newcastle University)互联网法教授莉莉安·爱德华兹(Lilian Edwards)表示,OpenAI的违规行为如此公然,很可能导致此案最终在欧盟最高法院——欧盟法院(Court of Justice of the European Union)审理。我们可能需要数年时间才能看到意大利数据监管机构提出的问题的答案。
高难度游戏
OpenAI的风险再高不过了。欧盟的《通用数据保护条例》是世界上最严格的数据保护制度,它已在世界各地广泛复制。从巴西到加州,各地的监管机构都将密切关注接下来会发生什么,结果可能会从根本上改变AI公司收集数据的方式。
除了对其数据实践更加透明之外,OpenAI还必须表明它正在使用两种可能的合法方法之一来收集其算法的训练数据:同意或“合法利益”