维基百科在生成人工智能时代的价值—

如果有一个生成性人工智能系统，它可以自己写下维基百科中包含的所有信息，它会和今天的维基百科》一样吗？

这似乎是一个哲学问题，但由于生成性人工智能和大型语言模型（LLM）的最新进展，它现在是一个非常实际的问题。由于广泛采用旨在预测和模拟人类反应的生成性人工智能技术，现在几乎可以毫不费力地创建与维基百科相似的文本。

我对这个问题的回答很简单：不，不会是一样的。

20年来，在公众和数十万志愿者的帮助下，自由创造知识、分享知识并随着时间不断完善知识的过程，从根本上塑造了维基百科和许多其他维基媒体项目。维基百科包含可靠来源的可靠知识因为它是由人们创造、辩论和策划的。它还以开放、非商业模式为基础，这意味着维基百科可以自由访问和共享，而且永远都是这样。在充斥着机器生成内容的互联网中，这意味著维基百科甚至更多有价值。

在过去的六个月里，公众已经被介绍给了几十个LLM，他们接受了大量数据集的培训，这些数据集可以阅读、总结和生成文本。维基百科是互联网上最大的开放信息库之一，有300多种语言的版本。迄今为止，每个法律硕士都接受过维基百科内容培训，而且几乎总是最大的培训数据来源在他们的数据集中。

使用这些新系统中的一个显然要做的事情是尝试生成维基百科文章。当然，人们已经尝试过了。而且，我相信许多读者都有亲身经历，这些尝试突显了使用LLM生成维基百科人称之为知识的许多挑战，这是值得信赖的、来源可靠的百科全书写作和图像。其中一些缺点包括：

LLM的输出目前没有进行事实检查，而且已经有很多人使用生成性人工智能来尝试完成自己的工作。有很多低风险的情况，比如提示写感谢信、计划一个有趣的假期，或者写一篇文章的提纲，在这些情况下，输出是有益的，而不是有害的。然而，在其他情况下，情况就不那么好了，比如LLM捏造的法庭案件而在法庭上使用答案的律师最终被罚款.在另一种情况下，一位医生演示当在急诊室看到患者的症状时，生成性人工智能系统会做出糟糕的诊断。随着时间的推移，我的猜测是，这些系统将变得更好，并在各种环境中变得更加可靠。一个令人兴奋的可能性是，对更好采购的需求将改善可在线使用的研究和书籍的获取。但实现这一目标需要时间，而且监管机构和公众可能会施加巨大压力，要求他们以造福所有人的方式进行改进。
LLM无法使用未经培训的信息来响应提示。这意味着，世界上所有没有全文在线阅读的书籍、互联网前研究的内容以及英语以外的语言信息，都不是典型的法学硕士“知道”的内容。因此，如今用于培训LLM的数据集可以放大许多领域的现有不公平和偏见，比如招聘,医学、和刑事判决。也许有一天这种情况会改变，但我们离能够自由访问和培训LLM，了解人们目前使用的各种语言为维基百科编写的各种不同类型的信息，还有很长的路要走。即便如此，还需要额外的工作来减轻偏见。
最后，我们发现接受过LLM输出培训的LLM表现明显较差甚至忘记了他们曾经“知道”的事情，这种痛苦被称为“模型崩溃”。这意味着，为了让LLM变得更好，他们需要稳定地提供人类编写的原创内容，使维基百科和其他人类生成内容的来源更有价值。这也意味着世界上具有创造力的人工智能公司需要找出如何保持原始人类内容的来源，这是我们信息生态系统中最关键的元素，随着时间的推移而持续增长。

这些只是互联网用户探索如何使用LLM时需要解决的一些问题。我们相信，互联网用户将越来越重视经过人们审查的可靠信息来源。维基百科的政策和我们十多年来使用机器学习支持人类志愿者的经验为未来提供了有价值的教训。

生成性人工智能的使用原则

机器生成的内容和机器学习工具不是新的维基百科和其他维基媒体项目。在维基媒体基金会（Wikimedia Foundation），我们围绕着同样的原则开发了机器学习和人工智能工具，这些原则使维基百科成为如此众多人的有用资源：以人为中心的内容节制和人类治理。我们继续尝试新方法，以负责任的方式满足人们的知识需求，包括使用生成性人工智能平台，旨在将人类贡献和互惠放在首位。维基百科编辑控制着所有机器生成的内容——他们编辑、改进和审计人工智能所做的任何工作——他们创建政策和结构来管理用于为维基百科》生成内容的机器学习工具。

这些原则可以成为使用当前和新兴大型语言模型的良好起点。首先，LLM应考虑其模型如何以三种关键方式支持人员：

持续性。生成性人工智能技术有可能对人类创建内容的动机产生负面影响。为了保护和鼓励更多的人将他们的知识贡献给公共领域，LLM应该寻求增加和支持人类参与增长和创造知识。它们永远不应该阻碍或取代人类创造知识。要做到这一点，可以始终让人类参与其中，并适当地将其贡献归功于人类。根据维基媒体运动的战略使命，不仅要继续支持人类共享知识，还需要继续扩展我们的整体信息生态系统，这正是创建LLM所依赖的最新培训数据的原因。
股权。在最佳状态下，LLM可以扩大信息的可访问性，并提供创新的方式向知识寻求者提供信息。要做到这一点，这些平台需要建立制衡机制，以避免信息偏见长期存在，扩大知识差距，继续消除传统上被排除在外的历史和观点，或造成人权损害。LLM还应考虑如何识别、解决和纠正培训数据中可能产生不准确和极不公平结果的偏差。
透明度LLM及其接口应允许人们理解模型输出的来源、验证和更正模型输出。提高产出产生方式的透明度可以帮助我们理解并缓解有害的系统性偏见。通过允许这些系统的用户评估培训数据或输出中可能存在的偏见的原因和后果，创作者和用户可以参与理解和深思熟虑地应用这些工具。

一个值得信赖的未来愿景

人类贡献是互联网的重要组成部分。人是推动在线增长和扩展的引擎，为学习、商业和与他人联系创造了一个令人难以置信的场所。

生成性人工智能能否取代维基百科？它可以尝试，但它将导致没有人真正想要的替代品。新技术没有什么不可避免的。相反，这取决于我们所有人选择什么是最重要的。我们可以将人类对知识的理解和贡献以可持续、公平和透明的方式放在优先地位，作为生成性人工智能系统的关键目标，而不是事后考虑。这将有助于减少LLM不断增加的错误信息和幻觉；确保人类创造的知识得到认可；最重要的是，它将确保LLM和人们能够继续长期依赖最新、不断发展和值得信赖的信息生态系统。

Selena Deckelmann是维基媒体基金会的首席产品和技术官。

阅读更多信息人工智能,博客帖子,股权,持续性,技术,维基百科,维基百科,大型语言模型,透明度

新闻

维基百科在生成人工智能时代的价值

生成性人工智能的使用原则

一个值得信赖的未来愿景

在追求知识的过程中进一步阅读

新的维基百科编辑器功能使每个人都可以轻松地进行贡献

维基媒体基金会对俄罗斯法院关于删除与俄罗斯入侵乌克兰有关的维基百科信息的裁决提出上诉

帮助我们释放世界知识。

联系我们

跟随

照片署名