“平均回报MDP中非政策评估的最大熵方法。”
内文娜·拉齐奇 , 董寅 , Mehrdad Farajtabar公司 , 尼尔·莱文 , 迪兰·格鲁 , 克里斯·哈里斯 , 戴尔·舒尔曼斯 :
平均回报MDP中非政策评估的最大熵方法。 CoRR公司 abs/2006.12620 ( 2020 )
由于引用数据不可用,以下列表可能不完整, 引用字符串可能未成功映射到dblp中列出的项,并且 我们没有针对这些列表中给出的所有项目的完整和精心策划的元数据。