你的个人信息可能被用来训练生成性人工智能模型

公司正在互联网的大片区域上训练他们的生成性人工智能模型,没有真正的方法可以阻止它们

由二进制代码构成的数字眼

艺术家和作家们对可生成的人工智能系统非常愤怒,这是可以理解的。这些机器学习模型只能输出图像和文本,因为他们接受过大量真实人的创造性工作的培训,其中大部分都是受版权保护的。包括OpenAI、Meta和Stability AI在内的主要AI开发人员现在面临着多起诉讼。这些法律主张得到独立分析的支持;例如,2023年大西洋据报道,Meta在一个名为Books3的数据集上训练了其大型语言模型(LLM),该数据集包含17万多本盗版和受版权保护的书籍。

这些模型的培训数据集不仅包括书籍。在急于构建和训练更大的人工智能模型的过程中,开发人员已经席卷了大部分可搜索的互联网。这种方法不仅有可能侵犯版权,还威胁到数十亿在线共享信息的人的隐私。此外,这意味着本应中立的模型可以根据有偏见的数据进行训练。公司透明度的缺乏使得很难准确地确定公司从何处获得培训数据,但科学美国人采访了一些有总体想法的人工智能专家。

人工智能训练数据来自哪里?


论支持科学新闻

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻业 认购。通过购买订阅,您将有助于确保关于影响当今世界的发现和想法的有影响力的故事的未来。


为了构建大型的生成性人工智能模型,开发人员转向面向公共的互联网。华盛顿大学计算语言学和语言技术专业的语言学家艾米丽·本德(Emily M.Bender)说:“没有一个地方可以下载互联网。”。相反,开发人员通过使用自动工具从互联网上编目和提取数据来收集他们的培训集。网络“爬虫”从一个链接到另一个链接,对数据库中信息的位置进行索引,网络“抓取器”下载并提取相同的信息。

非营利机构艾伦人工智能研究所的机器学习研究人员杰西·道奇表示,一家资源非常丰富的公司,例如谷歌的所有者Alphabet,可以选择使用自己的工具来完成这项任务,该公司已经构建了网络爬虫来支持其搜索引擎。然而,其他公司则转向现有资源,如Common Crawl,这有助于为OpenAI的GPT-3或大型人工智能开放网络(LAION)等数据库提供信息,该数据库包含图像及其附带字幕的链接。Common Crawl和LAION均未回应置评请求。想要使用LAION作为人工智能资源的公司(道奇说,这是图像生成器稳定扩散训练集的一部分)可以访问这些链接,但必须自己下载内容。

网络爬虫和抓取器可以从登录页面之外的任何地方轻松访问数据。设置为私人的社交媒体资料不包括在内。但道奇表示,在搜索引擎中可以查看的数据或未登录网站(如公共LinkedIn个人资料)可能会被清空。然后,他补充道,“有些东西最终肯定会出现在这些网络垃圾中”,包括博客、个人网页和公司网站。这一类别包括流行照片共享网站Flickr、在线市场、选民登记数据库、政府网页、维基百科、Reddit、研究库、新闻媒体和学术机构上的任何内容。此外,还有盗版内容汇编和网络档案,其中通常包含的数据已从其在网络上的原始位置删除。刮取的数据库不会消失。道奇指出:“如果2018年有从公共网站上刮来的文本,那么无论该网站或帖子是否被删除,这些文本都将永远可用。”。

一些数据爬虫和抓取器甚至能够通过付费墙(包括科学美国人芝加哥大学(University of Chicago)的计算机科学家本·赵(Ben Zhao)表示,通过在付费账户后伪装自己。赵说:“你会惊讶于这些爬行器和模型训练器在多大程度上愿意获取更多数据。”。根据该机构的联合分析,付费新闻网站是谷歌C4数据库(用于培训谷歌的LLM T5和Meta的LLaMA)中的顶级数据源之一华盛顿邮报和艾伦研究所。

网络爬虫还可以收集来源不明的令人惊讶的个人信息。赵举了一个特别引人注目的例子,一位艺术家发现LAION数据库中包含了她的私人诊断医学图像。报告来自热门科技博客网站证实了这位艺术家的说法,并且同一数据集还包含数千人的医疗记录照片。不可能确切地知道这些图像最终是如何被包含在LAION中的,但Zhao指出,数据被放错了位置,隐私设置经常松懈,泄密和违规现象屡见不鲜。非用于公共互联网的信息总是出现在那里。

除了这些网络抓取的数据外,人工智能公司可能会有目的地将其他来源(包括他们自己的内部数据)纳入模型培训。OpenAI基于用户与聊天机器人的交互来微调其模型。Meta表示,其人工智能部分是在脸书和Instagram公开帖子上接受培训的。社交媒体平台X(以前称为推特)现在对其用户的内容也采取了同样的做法。亚马逊也表示,它使用客户Alexa对话中的一些语音数据来培训LLM。

但除了这些承认,近年来,公司在披露其数据集的细节方面变得越来越谨慎。Meta在其关于LLaMA第一版的技术文件中提供了一般数据分类,但几个月后发布的LLaMA 2包含的信息少得多。谷歌也没有为其PaLM2人工智能模型指定数据来源,只是表示用于训练PaLM2的数据比训练PaLM的原始版本要多得多。OpenAI写道,它不会透露GPT-4训练数据集或方法的任何细节,并将竞争作为主要关注点。

为什么不可靠的培训数据是一个问题?

人工智能模型可以返回用于训练它们的相同材料,包括敏感的个人数据和受版权保护的作品。许多广泛使用的生成性人工智能模型都有阻止它们共享有关个人的识别信息的块,但研究人员反复证明了绕过这些限制的方法。赵说,对于创意工作者来说,即使人工智能输出不完全符合剽窃的资格,他们也可以通过模仿特定艺术家独特的视觉技术等方式,蚕食付费机会。但由于数据来源缺乏透明度,很难将这种输出归咎于人工智能的训练;毕竟,这可能是巧合,“幻觉”的问题材料。

纽约大学研究人工智能的数据记者Meredith Broussard表示,培训数据缺乏透明度也引发了与数据偏见相关的严重问题。她说:“我们都知道互联网上有精彩的内容,互联网上也有极其有毒的材料。”。例如,Common Crawl等数据集包括白人至上主义网站和仇恨言论。即使是不太极端的数据源,也包含助长陈规定型观念的内容。另外,网上有很多色情内容。因此,布罗萨德指出,人工智能图像生成器倾向于生成女性的性爱图像。她说:“这是一种偏向,一种偏向。”。

本德回应了这一担忧,并指出,这种偏见甚至深入到谁可以首先将内容发布到互联网上。她说:“这将扭曲富人、扭曲西方人、扭曲特定年龄组的人等等。”。本德补充说,网络骚扰迫使边缘化群体离开一些网络空间,加剧了问题。这种排除意味着从互联网上搜集的数据不能代表现实世界的完全多样性。本德说,很难理解一项充斥着扭曲信息的技术的价值和适当应用,尤其是如果公司对潜在的偏见来源不坦率的话。

你如何保护你的数据免受人工智能的影响?

不幸的是,目前很少有办法有效地将数据挡在人工智能模型的深渊之外。赵和他的同事开发了一个名为Glaze的工具,可以用来使图像对人工智能模型有效地不可读。但研究人员只能用人工智能图像生成器的一个子集来测试其功效,而且其用途有限。首先,它只能保护以前未在网上发布的图像。其他的东西可能已经被吸尘到了网络抓取和培训数据集中。至于文本,不存在这样的工具。

赵说,网站所有者可以插入数字标志,告知网络爬虫和抓取器不要收集网站数据。然而,这取决于刮板开发人员选择遵守这些通知。

在加利福尼亚州和其他几个州,最近通过的数字隐私法赋予消费者请求公司删除其数据的权利。在欧盟,人们也有权删除数据。然而,斯坦福大学隐私和数据研究员詹妮弗·金(Jennifer King)表示,到目前为止,人工智能公司一直在推迟此类请求,声称无法证明数据的来源,或者无视这些请求。

赵说,即使公司尊重这些要求,并将您的信息从培训集中删除,也没有明确的策略来让人工智能模型忘记它以前吸收的内容。道奇说,要真正从这些人工智能模型中提取所有受版权保护或潜在敏感信息,就必须从头开始有效地重新培训人工智能,这可能需要花费数千万美元。

目前,还没有重大的人工智能政策或法律规定要求科技公司采取此类行动,这意味着这些企业没有重返绘图板的动机。

是时候站起来支持科学了

如果你喜欢这篇文章,我想请求你的支持。 科学美国人180年来一直是科学和工业的倡导者,现在可能是这两个世纪历史上最关键的时刻。

我一直是科学美国人 从我12岁开始订阅,它帮助我形成了看待世界的方式。 科学美国人永远教育我,让我感到快乐,让我对我们广阔美丽的宇宙充满敬畏。我希望它也能为你做到这一点。

如果你 订阅 科学美国人,您帮助确保我们的报道以有意义的研究和发现为中心;我们有资源报告威胁美国各地实验室的决策。;在科学本身的价值常常被忽视的时候,我们既支持初出茅庐的科学家,也支持正在工作的科学家。

作为回报,你会得到重要消息, 迷人的播客、精彩的信息图表、, 不容错过的新闻稿,必须观看的视频, 具有挑战性的游戏以及科学界最好的写作和报道。你甚至可以 给某人订阅.

对于我们来说,最重要的时刻莫过于站起来展示科学的重要性。我希望你能支持我们完成这项任务。

谢谢您,

David M.Ewalt,主编:,科学美国人

订阅