保存此搜索
扩展摘要 2024年5月 vMFER:von Mises-Fisher基于梯度方向不确定性的经验重采样用于行动者关键算法的策略改进 AAMAS’24:第23届自主代理和多代理系统国际会议记录 2024年5月, 第2621–2623页 强化学习(RL)是一种广泛应用于决策问题的技术,包括两个基本操作——政策评估和政策改进。 Actor-critic算法在RL领域占据主导地位,但在这方面存在挑战。。。 研究论文 2020年12月 用于高维多失效区域成品率分析的非高斯自适应重要性抽样方法 Rarevent成品率分析对于高维电路情况具有挑战性。 本文提出了一种非高斯自适应重要性抽样(NGAIS)方法。 为了在高维空间中逼近失效区域,我们将其建模为一个。。。