×

一种通用的强化学习算法,可以掌握国际象棋、shogi和Go的自学。 (英语) Zbl 1433.68320号

摘要:国际象棋游戏是人工智能史上研究最久的领域。最强大的程序是基于复杂的搜索技术、特定领域的适应和人工评估功能的组合,这些功能经过人类专家几十年的改进。相比之下,AlphaGo Zero程序最近通过自我游戏强化学习,在围棋游戏中取得了超人表现。在本文中,我们将此方法推广到单个AlphaZero算法中,该算法可以在许多具有挑战性的游戏中实现超人性能。AlphaZero从随机游戏开始,除了游戏规则外,没有任何领域知识,在国际象棋和日本象棋以及围棋游戏中令人信服地击败了一个世界冠军项目。

MSC公司:

68T01型 人工智能的一般主题
68T05型 人工智能中的学习和自适应系统
68T07型 人工神经网络与深度学习
91A05级 2人游戏

软件:

阿尔法零
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接