西尔弗,大卫;托马斯·休伯特;朱利安·施里特维瑟;伊奥安尼斯·安东尼奥卢;赖,马修;亚瑟,猜猜;马克·兰科特;洛朗·西弗雷;达山库马兰;索尔·格雷佩尔;蒂莫西·利利克拉普;凯伦·西蒙扬;黛米斯·哈萨比斯 一种通用的强化学习算法,可以掌握国际象棋、shogi和Go的自学。 (英语) Zbl 1433.68320号 科学类 362,编号6419,1140-1144(2018). 摘要:国际象棋游戏是人工智能史上研究最久的领域。最强大的程序是基于复杂的搜索技术、特定领域的适应和人工评估功能的组合,这些功能经过人类专家几十年的改进。相比之下,AlphaGo Zero程序最近通过自我游戏强化学习,在围棋游戏中取得了超人表现。在本文中,我们将此方法推广到单个AlphaZero算法中,该算法可以在许多具有挑战性的游戏中实现超人性能。AlphaZero从随机游戏开始,除了游戏规则外,没有任何领域知识,在国际象棋和日本象棋以及围棋游戏中令人信服地击败了一个世界冠军项目。 引用于61文件 MSC公司: 68T01型 人工智能的一般主题 68T05型 人工智能中的学习和自适应系统 68T07型 人工神经网络与深度学习 91A05级 2人游戏 软件:阿尔法零 PDF格式BibTeX公司 XML格式引用 \textit{D.Silver}等人,《科学》362,第6419、1140--1144号(2018;Zbl 1433.68320) 全文: 内政部 链接