理查德·阿奇博尔德 冯宝0005 琼敏勇 参数化环境下强化学习的随机最大值原理方法。 112238 2023 九月 488 J.计算。物理学。 https://doi.org/10.1016/j.jcp.2023.112238 db/journals/jcphy/jcphy488.html#ArchibaldBY23