在心理理论测试中，人工智能击败人类—

IEEE综览技术内幕人士
话题航空航天人工智能生物医学气候技术计算消费类电子产品能源技术史机器人学半导体电信运输
小节特征新闻意见职业自己动手做工程资源
更多新闻稿播客特别报告集合讲解员顶级编程语言机器人指南↗IEEE工作站点↗
对于IEEE成员当前问题杂志存档研究所研究所档案
对于IEEE成员当前问题杂志存档研究所研究所档案
IEEE综览关于我们联系我们重印和权限↗广告↗
遵循IEEE频谱
支持IEEE频谱IEEE综览是IEEE的旗舰出版物，IEEE是世界上最大的致力于工程和应用科学的专业组织。我们的文章、播客和信息图表向读者介绍了技术、工程和科学的发展。
加入IEEE
订阅
关于IEEE联系和支持无障碍非歧视政策条款IEEE隐私政策Cookie首选项广告隐私选项
©2024 IEEE版权所有-保留所有权利。IEEE是一个非营利组织，是世界上最大的技术专业组织，致力于为人类的利益推动技术进步。

心理理论-理解他人心理状态的能力是人类社会得以运转的原因。这有助于你在紧张的情况下决定说什么，猜测其他车上的司机将要做什么，以及同情电影中的角色。根据一项新的研究大型语言模型（LLM）那种力量聊天GPT诸如此类的人惊人地善于模仿这种典型的人类特征。

研究合著者说：“在进行这项研究之前，我们都相信大型语言模型无法通过这些测试，尤其是评估评估心理状态的微妙能力的测试。”克里斯蒂娜·贝奇奥，一位认知神经科学教授汉堡-彭多夫大学医学中心在德国。她称之为“出乎意料和令人惊讶”的结果是今天出版-有点讽刺的是，在杂志上自然-人类行为.

然而，结果并不是所有人都相信，我们已经进入了一个机器的新时代，机器的思维方式与我们一样。两位审查研究结果的专家建议“持保留态度”，并警告不要对可能会引起“公众炒作和恐慌”的主题下结论。另一位外部专家警告说，将软件程序拟人化的危险。

研究人员谨慎地避免说他们的研究结果表明LLM实际上拥有心理理论。

Becchio和她的同事并不是第一个声称LLM的回答显示了这种推理的证据。在一个预印纸去年发布的心理学家科辛斯基斯坦福大学（Stanford University）的研究人员报告称，他们用几个常见的思维理论测试了几个模型。他发现其中最好的是OpenAIGPT-4课程，正确完成了75%的任务，他说这与过去研究中观察到的6岁儿童的表现相匹配。然而，该研究的方法是批评其他进行后续实验的研究人员得出结论，LLM通常基于“浅显的启发式”和捷径而不是真正的思维推理理论来获得正确的答案。

本研究的作者很清楚这场争论。“我们在论文中的目标是通过广泛的心理测试，以更系统的方式评估心理机器理论。”詹姆斯·斯特拉坎，一位认知心理学家，目前是汉堡-埃彭多夫大学医学中心的客座科学家。他指出，进行一项严格的研究意味着也要对人类进行与LLM相同的任务测试：这项研究将1907名人类的能力与包括OpenAI在内的几种流行LLM的能力进行了比较GPT-4课程模型与开源拉马2-70b模型来自元.

如何测试LLM的心智理论

LLM和人类都完成了五种典型的思维理论任务，其中前三项是理解暗示、反讽和失言。他们还回答了“错误信念”问题，这些问题通常用于确定幼儿是否发展了心智理论，大致如下：如果爱丽丝在鲍伯离开房间时移动了什么东西，鲍伯回来后会在哪里寻找？最后，他们回答了关于“奇怪故事”的相当复杂的问题，这些故事讲述了人们撒谎、操纵和误解对方的故事。

总的来说，GPT-4名列前茅。它的分数与人类在谎言测试中的分数相匹配，并且高于人类在讽刺、暗示和奇怪故事方面的总分；它只在失礼测试中表现比人类差。有趣的是，Llama-2的分数与GPT-4的分数正好相反——它在错误信念上与人类相匹配，但在讽刺、暗示和奇怪故事方面表现得比人类差，在失言方面表现得更好。

“我们目前还没有一种方法，甚至没有一个想法来测试存在心理理论。”-詹姆斯·斯特拉坎（James Strachan），汉堡-彭多夫大学医学中心

为了了解失言结果的原因，研究人员对模型进行了一系列后续测试，探讨了几个假设。他们得出的结论是，GPT-4能够正确回答关于失礼的问题，但由于针对固执己见的言论进行了“过度保守”的编程，未能做到这一点。斯特拉坎指出开放人工智能已经在其模型周围设置了许多护栏，这些护栏“旨在使模型保持真实、诚实和正轨”，他认为旨在防止GPT-4产生幻觉的（也就是说，编造一些东西）也可以防止它对故事人物是否在聚会上无意中侮辱了高中老同学发表意见。

同时，研究人员对Llama-2进行的后续测试表明，它在失言测试中的出色表现可能是原始问答格式的产物，其中对“Alice知道她在侮辱Bob吗”这一问题的某些变体的正确答案？总是“不”

研究人员小心翼翼地不说他们的结果表明LLM实际上拥有心智理论，而是说他们“在心智任务理论中表现出与人类行为无异的行为”。这就提出了一个问题：如果模仿和真实一样好，你怎么知道它不是真实的东西？斯特拉坎说，这是一个社会科学家以前从未尝试回答过的问题，因为对人类的测试假设质量或多或少存在。“我们目前还没有一种方法，甚至不知道如何测试存在心理理论，现象学的品质，”他说。

研究的评论

研究人员显然试图避免导致科辛斯基2023年关于LLM和心智理论的论文受到批评的方法学问题。例如，他们进行了多次测试，因此LLM在测试期间无法“学习”正确的答案，并且他们改变了问题的结构。但是约夫·戈德伯格和娜塔莉·夏皮拉，两位AI研究人员发表了评论文章Kosinski论文的作者表示，他们也不相信这项研究。

“为什么文本操作系统能否为这些任务产生与人们在面对相同问题时给出的答案类似的输出，这很重要？”-艾米丽·本德（Emily Bender），华盛顿大学

戈德伯格对这些发现持怀疑态度，并补充说“模型不是人类”，在比较两者时“很容易得出错误的结论”。夏皮拉谈到了炒作的危险性，并对论文的方法提出了质疑。她想知道这些模型是否在他们的训练数据中看到了测试问题，只是简单地记住了正确的答案，还注意到了使用付费人类参与者（在这种情况下，通过多产的平台). 她说：“众所周知，工人并不总是以最佳方式完成任务。”IEEE综览她认为这些发现是有限的，而且有点离奇，她说，“要证明[心理理论]的能力，需要做大量工作和更全面的基准测试。”

艾米丽·本德，华盛顿大学计算语言学教授，因坚持刺穿炒作这使人工智能产业膨胀（通常也会有媒体对该产业的报道）。她对激发研究人员的研究问题持异议。她问道：“为什么文本操作系统能为这些任务产生类似于人们在面对同样问题时给出的答案的输出呢？”。本德说：“这告诉了我们什么是LLM的内部工作原理，它们可能有什么用处，或者它们可能会带来什么危险？”不清楚LLM有一个思维模式意味着什么，因此也不清楚这些测试是否适用于它。

本德还对她在论文中发现的拟人化现象表示担忧，研究人员表示，LLM具有认知、推理和做出选择的能力。她说，作者的短语“LLM和人类参与者之间的物种-空中比较”“在软件方面完全不合适。”本德和几位同事最近发布了一篇预印纸探索人工智能系统的拟人化如何影响用户的信任。

结果可能并不表明AI真的得到但值得思考的是，LLM令人信服地模仿了思维推理理论的反响。他们会更好地与人类用户互动并预测他们的需求，但也可以更好地用于欺骗或操纵用户。他们还将邀请更多的拟人化，让人类用户相信在用户界面的另一边有一个想法。

来自您的站点文章

网上相关文章

心理理论-维基百科›

心理理论心理学大型语言模型通用条款-4

对话（2）

安詹·萨哈2024年5月23日

M（M）

一个人的脸和身体是心灵的指标，这是一句明智的话。面部表情和肢体语言揭示了很多事情，比如一个人情绪化、情绪成熟或是一个聪明的人。LLM/CHAT_GPT公司

人工智能应用程序可以研究一个人所说的语言，但它无法像煽动者那样区分个性的真实色彩。此外，任何潜在求职者的简历/简历都可以决定其专业或学术资格。但它无法理解一个人的潜意识，因为它不是用语言表达的。有必要进行身体面试。

穆斯塔法·贾瓦德2024年5月21日

INDV公司

我们能不能宣布AGI在这里，赋予这些权利，并结束这一天？关于LLM的头条新闻越来越令人厌烦。。。我不知道当这些东西接受了数万亿人类生成内容的表征，然后对结果感到惊讶时，进行基于语言的测试有什么意义。

话题

小节

更多

对于IEEE成员

对于IEEE成员

IEEE综览

遵循IEEE频谱

支持IEEE频谱

人工智能在心理理论测试中表现优于人类

大型语言模型令人信服地模拟了对心理状态的理解

如何测试LLM的心智理论

研究的评论

开尔文勋爵和他的模拟计算机

IEEE主席注释：扩大IEEE的影响力

天基太阳能：一个时代永远不会到来的好主意

相关故事

1位LLM可以解决人工智能的能源需求

我们敢为心理健康使用生成性人工智能吗？

话题

小节

更多

对于IEEE成员

对于IEEE成员

IEEE综览

遵循IEEE频谱

支持IEEE频谱

通过创建帐户享受更多免费内容和好处

保存文章以便以后阅读需要IEEE Spectrum帐户

协会内容仅对会员开放

下载完整的PDF版本是IEEE成员独有的

下载本电子书是IEEE成员的专属权限

访问光谱的数字版是IEEE成员独有的

以下主题是IEEE成员独有的功能

将您的回复添加到文章需要IEEE Spectrum帐户

创建帐户以访问更多内容和功能IEEE综览，包括保存文章供以后阅读、下载Spectrum Collections和参与与读者和编辑的对话。要获得更多独家内容和功能，请考虑加入IEEE.

加入世界上最大的专门从事工程和应用科学的专业组织，并获得Spectrum的所有文章、档案、PDF下载和其他好处。了解更多信息→

加入世界上最大的致力于工程和应用科学的专业组织，获得本电子书以及所有IEEE频谱文章、档案、PDF下载和其他好处。了解更多信息→

访问数千篇文章-完全免费

创建帐户并获得独家内容和功能：保存文章、下载收藏、，和与技术内幕人士交谈-全部免费！为了实现全面访问和利益，加入IEEE作为付费会员。

人工智能在心理理论测试中表现优于人类

大型语言模型令人信服地模拟了对心理状态的理解

如何测试LLM的心智理论

研究的评论

开尔文勋爵和他的模拟计算机

IEEE主席注释：扩大IEEE的影响力

天基太阳能：一个时代永远不会到来的好主意

相关故事

1位LLM可以解决人工智能的能源需求

我们敢为心理健康使用生成性人工智能吗？

Grokking X.ai的Grok-Real Advance还是Just Real Troll？