定理证明的强化学习

的一部分神经信息处理系统进展31(NeurIPS 2018)

Bibtex公司 元数据 纸类 评论

作者

Cezary Kaliszyk、Josef Urban、Henryk Michalewski、Miroslav Olšák

摘要

我们介绍了一种定理证明算法,该算法实际上使用无域启发式来指导其连接式证明搜索。相反,它运行了许多蒙特卡洛模拟,这些模拟是在强化学习之前的验证尝试的指导下进行的。我们生产了几个版本的证明程序,通过不同的学习和指导算法进行参数化。该系统最强大的版本是针对大量数学问题进行训练,并根据以前未见过的问题进行评估。经过训练的系统在相同的推理次数内解决的问题比基准验证程序多40%以上,这在这个硬AI领域是一个异常高的改进。据我们所知,这是第一次令人信服地将强化学习应用于大规模解决一般数学问题。