vMFER:von Mises-Fisher基于梯度方向不确定性的经验重采样用于行动者关键算法的策略改进
摘要
工具书类
建议
自然actor-critic算法 基于actor-critic、natural-gradient和function-approximation思想,我们提出了四种新的强化学习算法,并给出了它们的收敛性证明。 行为临界强化学习方法是对策略的在线近似。。。
评论
信息和贡献者
问询处
发布于
赞助商
SIGAI:美国计算机学会人工智能特别兴趣小组 国际会计师联合会
出版商
出版历史
检查更新
作者标记
限定符
扩展摘要