心理理论-理解他人心理状态的能力是人类社会得以运转的原因。这有助于你在紧张的情况下决定说什么,猜测其他车上的司机将要做什么,以及同情电影中的角色。根据一项新的研究大型语言模型(LLM)那种力量聊天GPT诸如此类的人惊人地善于模仿这种典型的人类特征。
研究合著者说:“在进行这项研究之前,我们都相信大型语言模型无法通过这些测试,尤其是评估评估心理状态的微妙能力的测试。”克里斯蒂娜·贝奇奥,一位认知神经科学教授汉堡-彭多夫大学医学中心在德国。她称之为“出乎意料和令人惊讶”的结果是今天出版-有点讽刺的是,在杂志上自然-人类行为.
然而,结果并不是所有人都相信,我们已经进入了一个机器的新时代,机器的思维方式与我们一样。两位审查研究结果的专家建议“持保留态度”,并警告不要对可能会引起“公众炒作和恐慌”的主题下结论。另一位外部专家警告说,将软件程序拟人化的危险。
研究人员谨慎地避免说他们的研究结果表明LLM实际上拥有心理理论。
Becchio和她的同事并不是第一个声称LLM的回答显示了这种推理的证据。在一个预印纸去年发布的心理学家科辛斯基斯坦福大学(Stanford University)的研究人员报告称,他们用几个常见的思维理论测试了几个模型。他发现其中最好的是OpenAIGPT-4课程,正确完成了75%的任务,他说这与过去研究中观察到的6岁儿童的表现相匹配。然而,该研究的方法是批评其他进行后续实验的研究人员得出结论,LLM通常基于“浅显的启发式”和捷径而不是真正的思维推理理论来获得正确的答案。
本研究的作者很清楚这场争论。“我们在论文中的目标是通过广泛的心理测试,以更系统的方式评估心理机器理论。”詹姆斯·斯特拉坎,一位认知心理学家,目前是汉堡-埃彭多夫大学医学中心的客座科学家。他指出,进行一项严格的研究意味着也要对人类进行与LLM相同的任务测试:这项研究将1907名人类的能力与包括OpenAI在内的几种流行LLM的能力进行了比较GPT-4课程模型与开源拉马2-70b模型来自元.
如何测试LLM的心智理论
LLM和人类都完成了五种典型的思维理论任务,其中前三项是理解暗示、反讽和失言。他们还回答了“错误信念”问题,这些问题通常用于确定幼儿是否发展了心智理论,大致如下:如果爱丽丝在鲍伯离开房间时移动了什么东西,鲍伯回来后会在哪里寻找?最后,他们回答了关于“奇怪故事”的相当复杂的问题,这些故事讲述了人们撒谎、操纵和误解对方的故事。
总的来说,GPT-4名列前茅。它的分数与人类在谎言测试中的分数相匹配,并且高于人类在讽刺、暗示和奇怪故事方面的总分;它只在失礼测试中表现比人类差。有趣的是,Llama-2的分数与GPT-4的分数正好相反——它在错误信念上与人类相匹配,但在讽刺、暗示和奇怪故事方面表现得比人类差,在失言方面表现得更好。
“我们目前还没有一种方法,甚至没有一个想法来测试存在心理理论。”-詹姆斯·斯特拉坎(James Strachan),汉堡-彭多夫大学医学中心
为了了解失言结果的原因,研究人员对模型进行了一系列后续测试,探讨了几个假设。他们得出的结论是,GPT-4能够正确回答关于失礼的问题,但由于针对固执己见的言论进行了“过度保守”的编程,未能做到这一点。斯特拉坎指出开放人工智能已经在其模型周围设置了许多护栏,这些护栏“旨在使模型保持真实、诚实和正轨”,他认为旨在防止GPT-4产生幻觉的(也就是说,编造一些东西)也可以防止它对故事人物是否在聚会上无意中侮辱了高中老同学发表意见。
同时,研究人员对Llama-2进行的后续测试表明,它在失言测试中的出色表现可能是原始问答格式的产物,其中对“Alice知道她在侮辱Bob吗”这一问题的某些变体的正确答案?总是“不”
研究人员小心翼翼地不说他们的结果表明LLM实际上拥有心智理论,而是说他们“在心智任务理论中表现出与人类行为无异的行为”。这就提出了一个问题:如果模仿和真实一样好,你怎么知道它不是真实的东西?斯特拉坎说,这是一个社会科学家以前从未尝试回答过的问题,因为对人类的测试假设质量或多或少存在。“我们目前还没有一种方法,甚至不知道如何测试存在心理理论,现象学的品质,”他说。
研究的评论
研究人员显然试图避免导致科辛斯基2023年关于LLM和心智理论的论文受到批评的方法学问题。例如,他们进行了多次测试,因此LLM在测试期间无法“学习”正确的答案,并且他们改变了问题的结构。但是约夫·戈德伯格和娜塔莉·夏皮拉,两位AI研究人员发表了评论文章Kosinski论文的作者表示,他们也不相信这项研究。
“为什么文本操作系统能否为这些任务产生与人们在面对相同问题时给出的答案类似的输出,这很重要?”-艾米丽·本德(Emily Bender),华盛顿大学
戈德伯格对这些发现持怀疑态度,并补充说“模型不是人类”,在比较两者时“很容易得出错误的结论”。夏皮拉谈到了炒作的危险性,并对论文的方法提出了质疑。她想知道这些模型是否在他们的训练数据中看到了测试问题,只是简单地记住了正确的答案,还注意到了使用付费人类参与者(在这种情况下,通过多产的平台). 她说:“众所周知,工人并不总是以最佳方式完成任务。”IEEE综览她认为这些发现是有限的,而且有点离奇,她说,“要证明[心理理论]的能力,需要做大量工作和更全面的基准测试。”
艾米丽·本德,华盛顿大学计算语言学教授,因坚持刺穿炒作这使人工智能产业膨胀(通常也会有媒体对该产业的报道)。她对激发研究人员的研究问题持异议。她问道:“为什么文本操作系统能为这些任务产生类似于人们在面对同样问题时给出的答案的输出呢?”。本德说:“这告诉了我们什么是LLM的内部工作原理,它们可能有什么用处,或者它们可能会带来什么危险?”不清楚LLM有一个思维模式意味着什么,因此也不清楚这些测试是否适用于它。
本德还对她在论文中发现的拟人化现象表示担忧,研究人员表示,LLM具有认知、推理和做出选择的能力。她说,作者的短语“LLM和人类参与者之间的物种-空中比较”“在软件方面完全不合适。”本德和几位同事最近发布了一篇预印纸探索人工智能系统的拟人化如何影响用户的信任。
结果可能并不表明AI真的得到但值得思考的是,LLM令人信服地模仿了思维推理理论的反响。他们会更好地与人类用户互动并预测他们的需求,但也可以更好地用于欺骗或操纵用户。他们还将邀请更多的拟人化,让人类用户相信在用户界面的另一边有一个想法。