Materials Discovery using Max K-Armed Bandit

Nobuaki Kikkawa; Hiroshi Ohno

针对盗贼问题的搜索算法适用于材料发现。然而，传统盗贼问题的目标与材料发现的目标不同。传统的盗贼问题旨在使总回报最大化，而材料发现则旨在实现材料属性的突破。最大$K$武装土匪（MKB）问题旨在获得单一最佳奖励，与传统土匪相比，它与发现任务更匹配。然而，由于一些困难，典型的MKB算法并不直接适用于材料发现。典型的算法有很多超参数，并且在直接实现材料发现方面存在一些困难。因此，我们提出了一种新的MKB算法，该算法使用了最佳报酬期望改进的置信上限。该方法保证了对贪婪预言的渐近性，而贪婪预言不依赖于时间范围。此外，与其他MKB算法相比，该算法只有一个超参数，有利于材料发现。我们使用蒙特卡罗树搜索将提出的算法应用于合成问题和分子设计演示。结果表明，在搜索过程的后期，该算法稳定地优于其他盗贼算法，除非在MKB和传统盗贼设置中，最优手臂一致。

使用Max K-Armed Bandit发现材料

摘要