你的个人信息可能被用来训练生成性人工智能模型

公司正在互联网的大片区域上训练他们的生成性人工智能模型，没有真正的方法可以阻止它们

由二进制代码构成的数字眼 — seamartini/Getty Images公司

艺术家和作家举起武器关于生成性人工智能系统，这是可以理解的。这些机器学习模型之所以能够输出图像和文本，是因为它们经过了大量真人创作的训练，其中大部分都是受版权保护的。包括OpenAI、Meta和Stability AI在内的主要AI开发人员现在面临多起诉讼。这些法律主张得到独立分析的支持；例如，在八月大西洋据报道，Meta在一定程度上训练了其大型语言模型（LLM）在名为Books3的数据集上其中包含17万多本盗版和受版权保护的书籍。

这些模型的训练数据集不仅包括书籍。在急于构建和训练越来越大的人工智能模型的过程中，开发人员已经席卷了大部分可搜索的互联网。这不仅有可能侵犯版权，还威胁到数十亿在线共享信息的人的隐私。这也意味着所谓的中立模型可以根据有偏见的数据进行训练。公司透明度的缺乏使得很难准确地确定公司从何处获得培训数据，但科学美国人采访了一些有总体想法的人工智能专家。

人工智能训练数据来自哪里？

论支持科学新闻

如果您喜欢这篇文章，请考虑通过以下方式支持我们屡获殊荣的新闻业认购。通过购买订阅，您将有助于确保关于影响当今世界的发现和想法的有影响力的故事的未来。

为了构建大型的生成性人工智能模型，开发人员转向面向公共的互联网。华盛顿大学计算语言学和语言技术专业的语言学家艾米丽·本德（Emily M.Bender）说：“没有一个地方可以下载互联网。”。相反，开发人员通过自动工具收集他们的培训集，这些工具可以对互联网上的数据进行分类和提取。Web“爬虫”从一个链接移动到另一个链接，为数据库中的信息位置建立索引，而Web“抓取器”下载并提取相同的信息。

非营利机构艾伦人工智能研究所的机器学习研究人员杰西·道奇表示，资源丰富的公司，如谷歌的所有者Alphabet，可以选择使用自己的工具来完成这项任务，该公司已经构建了网络爬虫来支持其搜索引擎。然而，其他公司则转向现有资源，例如普通爬网，其中帮助喂食OpenAI的GPT-3或数据库，如大规模人工智能开放网络（LAION），其中包含指向图像及其附带标题的链接。Common Crawl和LAION均未回应置评请求。想要使用LAION作为人工智能资源的公司（道奇说，这是图像生成器稳定扩散训练集的一部分）可以访问这些链接，但必须自己下载内容。

网络爬虫和抓取器可以从登录页面之外的任何地方轻松访问数据。不包括设置为私有的社交媒体配置文件。但道奇表示，在搜索引擎中可以查看的数据或未登录网站（如公共LinkedIn个人资料）可能仍会被清空。然后，他补充道，“有些事情绝对地最终会出现这些网络垃圾”，包括博客、个人网页和公司网站。这包括流行照片共享网站Flickr、在线市场、选民登记数据库、政府网页、维基百科、Reddit、研究库、新闻媒体和学术机构上的任何内容。此外，还存在盗版内容汇编和网络档案，其中通常包含从其在网络上的原始位置删除的数据。刮取的数据库不会消失。道奇指出：“如果2018年有从公共网站上刮来的文本，无论[网站或帖子]是否被删除，这些文本都将永远可用。”。

一些数据爬虫和抓取器甚至能够通过付费墙（包括科学美国人芝加哥大学（University of Chicago）的计算机科学家本·赵（Ben Zhao）表示，通过在付费账户后伪装自己。赵说：“你会惊讶于这些爬行器和模型训练器在多大程度上愿意获取更多数据。”。据报道，付费新闻网站是谷歌C4数据库（用于培训谷歌的LLM T5和Meta的LLaMA）中的顶级数据源之一联合分析由华盛顿邮报和艾伦研究所。

网络爬虫还可以收集来源不明的令人惊讶的个人信息。赵举了一个特别引人注目的例子，一位艺术家发现自己的私人诊断医学图像包含在LAION数据库中。报告来自热门科技博客网站确认了艺术家的帐户和相同的数据集包含的病历还有数千人的照片。不可能确切地知道这些图像最终是如何被包含在LAION中的，但Zhao指出，数据被放错了位置，隐私设置经常松懈，泄密和违规现象屡见不鲜。非用于公共互联网的信息总是出现在那里。

除了这些网络抓取的数据外，人工智能公司可能会有意识地将其他来源（包括他们自己的内部数据）纳入模型培训。OpenAI基于用户与聊天机器人的交互来微调其模型。Meta表示其最新AI部分训练在Facebook和Instagram的公开帖子上。据社交媒体平台X（前称推特）Elon Musk称计划也这样做使用自己的用户内容。亚马逊也表示将使用来自客户Alexa对话的语音数据培训新的LLM。

但除了这些承认，近几个月来，公司在披露数据集的细节方面变得越来越谨慎。虽然Meta在其技术文件在LLaMA的第一个版本上，几个月后发布了LLaMA 2包含的更少信息。谷歌也一样，没有具体说明其数据来源于其最近发布的PaLM2人工智能模型，不仅如此，用于训练PaLM2的数据要比训练原始版本的PaLM的数据多得多。OpenAI写道不会透露关于GPT-4训练数据集或方法的任何详细信息，以竞争为主要关注点。

为什么不可靠的训练数据是个问题？

人工智能模型可以把同样的材料倒流这是用来训练他们的，包括敏感的个人数据和受版权保护的作品。许多广泛使用的生成性人工智能模型都有阻止它们共享个人识别信息的块，但研究人员已经反复证明四处走动的方式这些限制对于创意工作者来说，即使人工智能的输出并不完全符合剽窃的标准，赵表示他们也可以通过模仿特定艺术家独特的视觉技术等方式，蚕食付费机会。但由于数据来源缺乏透明度，很难将这种输出归咎于人工智能的训练；毕竟，它可能是巧合的“幻觉”有问题的材料。

纽约大学研究人工智能的数据记者Meredith Broussard表示，培训数据缺乏透明度也引发了与数据偏见相关的严重问题。她说：“我们都知道互联网上有精彩的内容，互联网上也有极其有毒的材料。”。例如，Common Crawl等数据集包括白人至上主义网站和仇恨言论。即使是不太极端的数据源，也包含助长陈规定型观念的内容。另外，网上有很多色情内容。Broussard指出，因此，AI图像生成器倾向于制作色情图像女性。她说：“这是一种偏向，一种偏向。”。

本德回应了这种担忧，并指出，这种偏见甚至深入到谁可以首先将内容发布到互联网上。她说：“这将扭曲富人、扭曲西方人、扭曲特定年龄段的人等等。”。本德补充说，网络骚扰迫使边缘化群体离开一些网络空间，加剧了问题。这意味着从互联网上搜集的数据不能代表现实世界的完全多样性。本德说，很难理解一项充斥着扭曲信息的技术的价值和适当应用，尤其是如果公司对潜在的偏见来源不坦率的话。

你如何保护你的数据免受人工智能的影响？

不幸的是，目前很少有办法有效地将数据挡在人工智能模型的深渊之外。赵和他的同事一种叫做Glaze的工具，可用于使图像对AI模型有效地不可读。但研究人员只能用一部分人工智能图像生成器测试其功效，其用途有限。首先，它只能保护以前未在网上发布的图像。任何其他内容都可能已经被吸尘到Web抓取和训练数据集中。至于文本，不存在类似的工具。

赵说，网站所有者可以插入数字标志，告诉网络爬虫和抓取器不要收集网站数据。然而，这取决于刮板开发人员选择遵守这些通知。

在加利福尼亚州和其他几个州，最近通过的数字隐私法赋予消费者请求公司删除其数据的权利。在欧盟，人们也有权删除数据。然而，到目前为止，人工智能公司通过声称数据的来源不可能是完全忽略请求-斯坦福大学隐私和数据研究员詹妮弗·金说。

赵说，即使公司尊重这些要求，并将您的信息从培训集中删除，也没有明确的策略来让人工智能模型忘记它以前吸收的内容。道奇说，要真正从这些人工智能模型中提取所有受版权保护或潜在敏感信息，就必须从头开始有效地重新培训人工智能，这可能需要花费数千万美元。

目前，还没有重大的人工智能政策或法律规定要求科技公司采取此类行动，这意味着它们没有动力重新开始行动。