鹦鹉螺会员享受无广告体验。立即加入.
探索

A类罗森·莫斯克维切夫梦想有一天他能与人工智能进行有意义的对话。这位认知和计算机科学家说:“我所说的有意义的对话,是指能够改变你的对话。”。“问题是,”莫斯克维切夫说,“LLM是完全失忆症患者。他们只能关注太多的上下文。如果你离开了上下文,他们就会忘记你和他们谈论的一切。”

即使是最先进的聊天机器人,在与人类用户对话时,也只能在提示内处理大约16000个单词的文本。这被称为“上下文窗口”。他们无法将在与人的不同“对话”中收到的信息联系起来,也无法构建故事情节。

鹦鹉螺会员享受无广告体验。登录立即加入.

为了帮助聊天机器人学会进行改变生活的对话,并提高他们对人、事件和支配人类生活的时间线之间关系网的深层复杂性的理解,莫斯科维切夫和他的同事正在教他们阅读小说,我们在高中文学课上学习阅读它们的方式。

阅读小说似乎是一种放松的消遣,但它需要细致入微的智慧我们利用记忆和复杂的层次理解,通过扭曲的情节、场景变化和叙事来跟随多个角色。虽然我们可能不会去想,但平均每本小说大约有80000个单词。道连·格雷的画像比如奥斯卡·王尔德,82000字,而黑人的灵魂,W.E.DuBois, 总数约为72000。小王子安托万·德·圣埃克塞里(Antoine de Saint-Exupéry)的儿童读物,约17000字。所有这些话逐渐构建了一个我们在脑海中持有和审视的故事。但这些技能目前还不适用于大型语言模型(LLM),如Open AI的ChatGPT,它可以处理文本,但不能说阅读我们的方式。

鹦鹉螺会员享受无广告体验。登录立即加入.

问题是,LLM是完全失忆症患者。

莫斯科维切夫与加州大学欧文分校(University of California,Irvine)研究复杂性的凯·芬·迈(Ky-Vinh Mai)一起,建立了一个新的数据库,训练LLM阅读和分析长文本,作为圣菲研究所(Santa Fe Institute)博士后的一部分。圣菲研究院是一家独立的非盈利理论研究机构。这对夫妇展示了他们的新工具,叙事XL,在自然语言处理的实证方法会议去年年底在新加坡。“这是一个具有很长上下文的数据集,”莫斯克维切夫说。作为一个培训工具,它为LLM提供了一百多万个问题供他们练习,“远远超过了以前的所有问题。”他说,这是一个“监督”的数据集,这意味着AI需要正确评分,从而可以进行评估。

Moskvichev和Mai从古腾堡计划公开的1500本书中构建了叙事XL。他们通过让人工智能阅读数据库中的一本书,然后要求人工智能从众多选项中找到正确的场景摘要,来训练LLM的阅读理解能力。一些总结是准确的,而另一些则包含了诱饵场景或是被其他书籍中的角色“腐蚀”了,比如德古拉在傲慢与偏见.

为了训练记忆力,莫斯科维切夫和梅伊编写了一些自述题,如果人工智能在书中读得更深入,那么他们应该会对情节有更多的了解,但除此之外什么都不知道。例如,如果AI只读取了一半傲慢与偏见,贝内特小姐是否嫁给达西先生仍应“担忧”。(剧透提醒道,她是这样做的,但奥斯汀把婚礼留到了大结局!)因为记忆是时间的函数,事件的顺序很重要,对未来事件的偶然了解,即使事实正确,也算是错误的记忆。在书的摘要中,如果提到这对夫妇结婚了,人工智能会将其认定为虚假,除非上下文窗口中显示了全文。

鹦鹉螺会员享受无广告体验。登录立即加入.

作为叙事XL培训的一部分,还可以要求LLM识别和纠正损坏的书籍场景中的错误。因此,德古拉不仅必须从傲慢与偏见,一个正在接受训练的法学硕士需要用正确的性格来代替他。这需要细致入微的理解,理解字符之间的相互关系。

叙事XL中的1500本书和近100万个问题的大小至少是现有图书培训数据库的两倍。BookSum是2021年发布的一个培训数据库,它为AI培训汇编了405本书。所有可用培训数据库的平均上下文窗口仍在15000字以下。开发人工智能培训工具的障碍之一是人力资源:准确总结一本书需要有人阅读,并设计培训问题。莫斯科维切夫说:“收集这种受监督的数据集非常昂贵。”。正是在这里,这对搭档运用了一种独创性的手法——他们通过让ChatGPT3.5来总结短书部分,从而构建了叙事XL,这是LLM擅长的一项任务。这是一个机器被用来训练更强大机器的例子。  

虽然莫斯科维切夫和梅伊验证了叙事XL作为一种培训工具的使用,并观察到受过训练的LLM与未受过训练的相比表现出了显著改善,但LLM仍有大约一半的时间会犯错误。“人工智能模型非常狡猾。它们很狡猾,只要有可能就会作弊,”莫斯科维切夫说。

问题的核心是,聊天机器人的设计目的是确定最快的答案路径,而这很少涉及阅读所有内容。预测19世纪爱情故事中的女主人公会得到那个男人,这绝对不是一个疯狂的猜测,这是一条可能让AI陷入困境的捷径。“仍有改进的余地,”莫斯科维切夫说。

鹦鹉螺会员享受无广告体验。登录立即加入.

主要图片:taudiristudio/Shutterstock

闭路电视 每月仅需4.92美元,即可免费享用无限制Nautilus文章。 立即加入

! 没有与该电子邮件地址关联的活动订阅。

加入继续阅读。

通过成为Nautilus会员,可以访问无限量的无广告文章,包括这篇文章。享受奖励内容、独家产品和活动等,同时支持独立新闻。

! 没有与该电子邮件地址关联的活动订阅。

这是你最后一篇免费文章。

不要限制你的好奇心。通过成为Nautilus会员,可以访问无限制的无广告故事,并支持独立新闻。