你可能会在这些数学头脑风暴中击败ChatGPT。原因如下

ChatGPT AI可以在智商测试中取得优异成绩,但它无法击败传奇数学益智师马丁·加德纳(Martin Gardner)设计的脑筋急转弯游戏

黑色背景上的多色数字。

事实证明,如果你想解决一个脑筋急转弯,拥有一个大脑是有帮助的。

ChatGPT和其他人工智能系统因以下成就而获得赞誉:诊断医疗状况,通过智商测试总结科学论文.但是科学美国人想看看如果机器人与传说中的益智游戏制造商的遗产正面交锋会发生什么马丁·加德纳他是我们数学游戏专栏的长期作者,于2010年去世。我在Gardner或2014年对他的工作致敬由数学家Colm Mulcahy和计算机科学家Dana Richards于科学美国人.

结果从令人满意到令人尴尬,但在某种程度上为ChatGPT和类似的人工智能系统的工作方式提供了宝贵的见解。


论支持科学新闻

如果你喜欢这篇文章,可以考虑通过以下方式支持我们屡获殊荣的新闻业 认购。通过购买订阅,您将有助于确保关于影响当今世界的发现和想法的有影响力的故事的未来。


ChatGPT由OpenAI公司创建,建立在所谓的大型语言模型之上。这是一个深度学习系统,它提供了大量人工智能创建者可以获得的文本书籍、网站和其他材料。然后ChatGPT学习从统计上识别哪些单词最可能跟在前一个单词后面,以构建响应。之后,人们对系统进行培训,教它对于用户可能提出的各种问题,尤其是关于敏感话题的问题,哪种类型的回答最好。

就这样。

密歇根大学的数据科学伦理学家Merve Hickok说,人工智能“没有推理能力;它不理解上下文;它没有任何独立于其系统内置内容的东西。”。“这听起来可能像是在推理;然而,它受其数据集的约束。”

以下是一些相对简单的谜题如何说明硅和灰质处理信息的方式之间的关键区别。

谜题1

首先,让我们探索一个真正的逻辑问题。正如2014年致敬中所述,“建筑物底层有三个开关。只有一个人在三楼操作一个灯泡。其他两个交换机没有连接到任何东西。把开关按你喜欢的任何开/关顺序。然后去三楼检查灯泡。在不离开三楼的情况下,你能找出哪个开关是真的吗?你只有一次机会。”

当我把这个输入到AI中时,它立即建议打开第一个开关一段时间,然后关闭它,打开第二个开关然后上楼。如果灯泡亮着,第二个开关就会工作。如果灯泡熄灭但很热,第一个开关就会工作。如果灯泡熄灭并变冷,第三个开关就会工作。确实如此我们在2014年提出的相同理由.

密歇根大学的计算机科学家肯塔罗·富山(Kentaro Toyama)表示,ChatGPT在此案中轻松获胜,可能只是意味着它已经知道答案,而不一定知道如何自己确定答案。

富山说:“当它失败的时候,看起来就像是一个非常奇怪的失败。但我实际上认为,所有的例子都证明了它的逻辑是正确的,这只是证明了训练数据中有很多这样的逻辑。”。

谜题2

多学点数学怎么样?用加德纳的话来说1958年8月专栏中写道:“两枚导弹直接朝对方飞来,一枚以每小时9000英里的速度飞行,另一枚以21000英里的速度飞来。它们相距1317英里。不用铅笔和纸,计算它们之间的距离碰撞前一分钟。”

ChatGPT在这方面做出了坚实的努力。它展示了两种不同的方法来解决难题的关键部分:计算两枚导弹在一分钟内的总飞行距离。在这两种情况下,它都找到了500英里的正确答案,这也是谜题的最终答案。但人工智能无法忽视导弹从1317英里外开始的事实,它一直试图从这一距离中减去500英里,给出了错误的答案,即导弹在坠毁前一分钟将相距817英里。

我尝试以一种鼓励ChatGPT找到正确答案的方式跟进。例如,我建议它以数学教授的方式回答这个问题,并明确表示其答案是错误的。这些干预未能阻止ChatGPT提供错误的解决方案。但当被告知导弹之间的起始距离是一个转移注意力的话题时,它确实相应地调整了反应,并找到了正确的答案。

尽管如此,我仍然怀疑人工智能是否真的学会了。我给了它同样的难题,但把导弹变成了船,并改变了数字,唉,ChatGPT再次被愚弄了。这证明了富山所说的目前在人工智能领域的一大争议:这些系统是否能够独立地计算逻辑。

富山说:“有一个论点是,如果你给它举这么多逻辑思维的例子,神经网络最终会自己学习逻辑思维的样子,然后能够将其应用到正确的实例中。”。“有一些(其他)人认为,‘不,逻辑与神经网络目前的学习方式根本不同,因此你需要具体构建它。’”

谜题3

我尝试的第三个谜题来自1964年3月加德纳关于素数的专栏:“使用九位数中的每一个一次,并且只使用一次,形成一个三个素数的集合,它们的和可能是最低的。例如,集合941、827和653的和是2421,但这远远不是最小值。”

素数是一个不能被除1和它本身之外的任何数字整除的数。比较容易评估小素数,如3、5、7和11。但是一个数字越大,就越难判断这个数字是质数还是合成数。

加德纳提出了一个特别优雅的解决方案下个月:“九位数如何排列成三个素数的最小和?我们首先尝试每个三位数的数字。最后的数字必须是1、3、7或9(所有大于5的素数都是这样的)。我们选择最后三个数字,释放1作为第一个数字。每个数字可能的最低前几位是1、2和4,剩下5、6和8作为中间数字。在符合这些规范的11个三位数素数中,不可能找到三个不重复一个数字的素数。接下来是第一个数字1、2和5。这得出了唯一的答案149+263+587=999。”

人工智能的第一个答案给我留下了深刻的印象:257、683和941都是素数,代表全部九位数,加起来是1881。这是一个相当低的总数,尽管它高于加德纳的解决方案。但不幸的是,当我要求ChatGPT解释它的工作时,它提供了一条通向另一种解决方案的冗长路径:数字109、1031和683都是素数,但在其他方面不适合提示符的其他要求。

当被提醒最初的答案时,ChatGPT给出了一个愚蠢的解释,其中包括一条声明:“我们不能用1、4或6作为三位数素数的第一位,因为得到的数字可以被3整除。”这显然是错误的:你可以识别出可以被3除的数字,因为它们的数字总和是可以被3除以的数字。

我试着做了一次鼓舞士气的演讲,指出有一个更好的解决方案,并建议ChatGPT想象一下它是一位数学教授,但它接下来提供了2、3和749。然后它跌至359、467和821,这是另一个有效的三个素数,总数为1647,比它的第一个解要好,但仍不如加德纳的解优雅。

唉,这是我能得到的最好的了。另外六个答案被非素数和缺失或多余的数字所困扰。然后ChatGPT再次提供257、683和941。

所有这些失败都反映了富山所说的这类人工智能系统的关键特性。他说:“ChatGPT擅长人性化。”。“它掌握了语言人类的风格,但它没有明确的编程来做计算机迄今为止非常擅长的事情,这是非常容易背诵的演绎逻辑。”它不能解决问题,或者甚至可以尝试这样做,它只是大致显示了解决方案的样子。

在整个尝试过程中,我也感到震惊的是,似乎没有什么能扰乱人工智能。但Toyama说,这也反映了ChatGPT的创建及其提供的材料平均语调相当自信”他说。

谜题4

2014年致敬词的最后一句话是:“每个字母都对应一个数字……你能找出每个字母代表的数字吗?”

这看起来既优雅又有趣!情况会有多糟?唉,ChatGPT的第一个回应是“11111+11111+11111+1 1111+1111 11+1111 1+1111=F O R T Y 9”

AI的下一个提议承认了谜题的替代前提,但花了几轮时间说服聊天机器人不要放弃每个s E V E N中的第二个E。ChatGPT似乎偶然遇到了一个组合,其中包括N=7,这是正确的,奇迹般的,也是已发布解决方案中的第一步。

我确认N是准确的,然后质问人工智能显然是随机猜测的。(如果它要尝试特定的数字,它应该首先测试E的不同解决方案。最简单的方法是测试E=0,ChatGPT完全没有考虑到这一点。)它承诺了一个系统的解决方案,然后通过将S=1定位为随机再次猜测。虽然我想分享其余的尝试,但它是如此荒谬,以至于以“再次更新方程式:116”结束,这真的是一种对答案的幻想。

ChatGPT从此变得更糟。接下来,它假设S=9,这是我质疑的一个选择。它说,如果七个E的总和必须等于2,那么E=2。它甚至提供了S=47尽管它有礼貌地为那件事开枪自杀。我对它解决难题的能力失去了希望,所以我决定更积极地帮助它。我给ChatGPT一个提示:S=3。当这是不可能的时候,我也提醒机器人N=7,但这仅仅产生了四个越来越胡言乱语的答案。

这种胡言乱语再次说明了问题,因为它展示了人工智能如何处理它收到的任何事实集合。在这种情况下,虽然聊天机器人似乎忘记了我说的N=7,但富山说它实际上在逻辑上挣扎。“在那之后,它给你的回应听起来都很合理,”他说,“但它们可能会也可能不会考虑到事实的正确组合,或者以正确的方式将它们组合在一起。”

富山说,事实上,你不需要像这些谜题一样复杂,就能看到ChatGPT在逻辑上的挣扎方式。只需将两个大数字相乘即可。他说:“这可以说是你可以问的最简单的逻辑问题之一;这是一个简单的算术问题。”。“它不仅会一次出错,还会多次出错,而且会以多种方式出错。”这是因为即使ChatGPT分析了大量数学教科书,也没有人给它一个无限大的乘法表。

尽管困难重重,AI聊天机器人在脑筋急转弯中还是取得了一个关键的逻辑突破。ChatGPT告诉我,当我说试图破解最后一个问题的代码时,它似乎已经没有动力了。“我对所造成的任何挫折深表歉意。最好从新的角度看待问题,或咨询其他资源以找到正确的解决方案。”

编者按(5/26/23):这篇文章是在发布后编辑的,目的是澄清Merve Hickock在密歇根大学的角色以及ChatGPT的学习过程。

梅根·巴特尔斯是一名驻纽约的科学记者。她加入了科学美国人2023年,现在是那里的高级新闻记者。此前,她在Space.com担任了四年多的作家和编辑,并在新闻周刊,她专注于太空和地球科学。她的作品也出现在奥杜邦、鹦鹉螺、天文学史密森尼,在其他出版物中。她就读于乔治敦大学,并在纽约大学的科学、健康和环境报告项目中获得新闻学硕士学位。

更多信息梅根·巴特尔斯