萨姆·德夫林
人员信息
附属: 微软研究院,英国剑桥
优化列表
![笔记](https://dblp2.uni-trier.de/img/note-mark.dark.12x12.png)
2020年–今天
2023 [公元47年] 孙明飞 , 萨姆·德夫林 , 雅各布·贝克 , 卡贾·霍夫曼 , 西蒙·怀特森 以下为:
非静态下分散PPO的信任域边界。 美国原子能机构 2023 以下为: 5月13日 [公元46年] 斯蒂芬妮·米拉尼 , 亚瑟·朱利安尼 , 艾达·莫门内贾德 , 罗卢卡·乔治斯库 , 雅罗斯瓦·雷佩基 , 艾莉森·肖 , 加文·科斯特洛 , 费芳 , 萨姆·德夫林 , 卡贾·霍夫曼 以下为:
像我一样导航:了解人们如何在视频游戏中评估人性化人工智能。 芝加哥 2023 以下为: 572:1-572:18 [公元45年] 亚当·杰利 , 阿莫斯·J·斯托基 , 安特里斯·安东尼奥 , 萨姆·德夫林 以下为:
部分可观测少快照学习的对比元学习。 ICLR公司 2023 [公元44年] 蒂姆·皮尔斯 , 塔比什·拉希德 , 安西·卡内维斯托 , 大卫·比格内尔 , 孙明飞 , 罗卢卡·乔治斯库 , Sergio Valcarcel Macua公司 , 山正滩 , 艾达·莫门内贾德 , 卡贾·霍夫曼 , 萨姆·德夫林 以下为:
用扩散模型模拟人类行为。 ICLR公司 2023 [i27] 蒂姆·皮尔斯 , 塔比什·拉希德 , 安西·卡内维斯托 , 大卫·比格内尔 , 孙明飞 , 罗卢卡·乔治斯库 , Sergio Valcarcel Macua公司 , 山正滩 , 艾达·莫门内贾德 , 卡贾·霍夫曼 , 萨姆·德夫林 以下为:
用扩散模型模拟人类行为。 CoRR公司 abs/2301.10677 ( 2023 ) [i26] 亚当·杰利 , 阿莫斯·J·斯托基 , 安特里斯·安东尼奥 , 萨姆·德夫林 以下为:
部分可观测少快照学习的对比元学习。 CoRR公司 abs/2301.13136 ( 2023 ) [i25] 孙明飞 , 本杰明·埃利斯 , 阿努杰·马哈扬 , 萨姆·德夫林 , 卡贾·霍夫曼 , 西蒙·怀特森 以下为:
随机策略的无信任区域策略优化。 CoRR公司 abs/2302.07985 ( 2023 ) 【i24】 斯蒂芬妮·米拉尼 , 亚瑟·朱利安尼 , 艾达·莫门内贾德 , 罗卢卡·乔治斯库 , 雅罗斯瓦·雷佩基 , 艾莉森·肖 , 加文·科斯特洛 , 费芳 , 萨姆·德夫林 , 卡贾·霍夫曼 以下为:
像我一样导航:了解人们如何在视频游戏中评估人性化人工智能。 CoRR公司 abs/2303.02160 ( 2023 ) [第23条] 阿哈娜·戈什 , 塞巴斯蒂安·奇亚切克 , 萨姆·德夫林 , 阿迪什·辛格拉 以下为:
通过将新任务合成为流行测验,在基于块的编程中构建自适应脚手架。 CoRR公司 abs/2303.16359 ( 2023 ) [i22] 卢卡斯·施费尔 , 洛根·琼斯 , 安西·卡内维斯托 , 曹玉涵 , 塔比什·拉希德 , 罗卢卡·乔治斯库 , 大卫·比格内尔 , 作者 , 安德烈亚·特雷维尼奥·加维托 , 萨姆·德夫林 以下为:
现代视频游戏中用于数据高效模拟学习的视觉编码器。 CoRR公司 abs/2312.02312 ( 2023 ) 2022 [公元20年] 丹尼尔·埃尔南德斯 , 凯文·德纳姆加纳伊 , 萨姆·德夫林 , Spyridon Samothrakis公司 , 詹姆斯·阿尔弗雷德·沃克 以下为:
广义框架下的自演算法比较。 IEEE传输。 游戏 14 ( 2 ) 以下为: 221-231 ( 2022 ) [公元19年] 罗卢卡·D·盖纳 , 萨姆·德夫林 , 西蒙·卢卡斯 , 迭戈·佩雷斯·利埃巴纳 以下为:
用于一般视频游戏播放的滚动地平线进化算法。 IEEE传输。 游戏 14 ( 2 ) 以下为: 232-242 ( 2022 ) [公元43年] 孙明飞 , 萨姆·德夫林 , 卡佳•霍夫曼 , 西蒙·怀特森 以下为:
确定性和辨别性模仿(D2-模仿):重新审视对抗性模仿以提高样本效率。 AAAI公司 2022 以下为: 8378-8385 [公元42年] 阿哈娜·戈什 , 塞巴斯蒂安·奇亚切克 , 萨姆·德夫林 , 阿迪什·辛格拉 以下为:
通过将新任务合成为流行测验,在基于块的编程中构建自适应脚手架。 AIED(1) 2022 以下为: 28-40 [公元41年] 伊芙琳·祖尼加 , 斯蒂芬妮·米拉尼 , 盖·勒罗伊 , 雅罗斯瓦·雷佩基 , 罗卢卡·乔治斯库 , 艾达·莫门内贾德 , 大卫·比格内尔 , 孙明飞 , 艾莉森·肖 , 加文·科斯特洛 , 米哈伊尔·雅各布 , 萨姆·德夫林 , 卡贾·霍夫曼 以下为:
人类如何感知视频游戏导航中的类人行为。 CHI扩展摘要 2022 以下为: 391:1-391:11 [公元40年] 马克·托特 , 米开朗基罗音乐学院 , 迭戈·佩雷斯·利巴纳 , 萨姆·德夫林 以下为:
将零变为非零:蒙特卡罗图搜索的样本有效性探索。 CoG公司 2022 以下为: 300-306 [公元39年] 马克·法古臣 , 萨姆·德夫林 , 丹尼尔·库登科 , 詹姆斯·阿尔弗雷德·沃克 以下为:
使用动态时间扭曲模拟模拟游戏风格。 FDG公司 2022 以下为: 41:1-41:11 [公元38年] 米卡·卡罗尔 , 奥尔天堂 , 杰西·林 , 罗卢卡·乔治斯库 , 孙明飞 , 大卫·比格内尔 , 斯蒂芬妮·米拉尼 , 卡贾·霍夫曼 , 马修·霍斯克内克 , 安卡·D·德拉甘 , 萨姆·德夫林 以下为:
Uni[MASK]:序列决策问题中的统一推理。 NeurIPS公司 2022 [i21] 孙明飞 , 维塔利·库林 , 刘国庆 , 萨姆·德夫林 , 陶琴 , 卡贾·霍夫曼 , 西蒙·怀特森 以下为:
您可能不需要在PPO中剪切比率。 CoRR公司 abs/2202.00079 ( 2022 ) [i20] 孙明飞 , 萨姆·德夫林 , 卡贾·霍夫曼 , 西蒙·怀特森 以下为:
分散PPO非静态下的单调改进保证。 CoRR公司 abs/2202.00082 ( 2022 ) [i19] 米卡·卡罗尔 , 杰西·林 , 奥尔天堂 , 罗卢卡·乔治斯库 , 孙明飞 , 大卫·比格内尔 , 斯蒂芬妮·米拉尼 , 卡贾·霍夫曼 , 马修·霍斯克内克 , 安卡·D·德拉甘 , 萨姆·德夫林 以下为:
通过双向变换实现序列决策问题的灵活推理。 CoRR公司 腹肌/2204.13326 ( 2022 ) [i18] 米卡·卡罗尔 , 奥尔天堂 , 杰西·林 , 罗卢卡·乔治斯库 , 孙明飞 , 大卫·比格内尔 , 斯蒂芬妮·米拉尼 , 卡贾·霍夫曼 , 马修·霍斯克内克 , 安卡·D·德拉甘 , 萨姆·德夫林 以下为:
UniMASK:序列决策问题中的统一推理。 CoRR公司 abs/2211.10869 ( 2022 ) 2021 [公元18年] 维多利亚·J·霍奇 , 萨姆·德夫林 , 尼克·塞普顿 , Florian区块 , 彼得·科林 , 安德斯·德拉钦 以下为:
多人电子竞技中的获胜预测:现场专业比赛预测。 IEEE传输。 游戏 13 ( 4 ) 以下为: 368-379 ( 2021 ) [公元37年] 张如琪(Ruqi Zhang) , 李英珍 , 克里斯托弗·德萨 , 萨姆·德夫林 , Cheng Zhang(张成) 以下为:
变分推理的元学习分歧。 AISTATS公司 2021 以下为: 4024-4032 [公元36年] 雅各布·卡斯特里尼 , 萨姆·德夫林 , 弗兰斯·奥利埃霍克 , 拉胡尔·萨瓦尼 以下为:
差异奖励政策梯度。 美国原子能机构 2021 以下为: 1475-1477 [c35] 保罗·诺特 , 迈卡·卡罗尔 , 萨姆·德夫林 , 卡米尔·乔塞克 , 卡贾·霍夫曼 , 安卡·D·德拉甘 , 罗欣·沙阿 以下为:
评估协作代理的健壮性。 美国原子能机构 2021 以下为: 1560-1562 [公元34年] 路易斯·辛特格拉夫 , 萨姆·德夫林 , 卡米尔·乔塞克 , 西蒙·怀特森 , 卡贾·霍夫曼 以下为:
基于元学习的深度交互式贝叶斯强化学习。 美国原子能机构 2021 以下为: 1712-1714 [公元33年] 萨姆·德夫林 , 罗卢卡·乔治斯库 , 艾达·莫门内贾德 , 雅罗斯瓦·雷佩基 , 伊芙琳·祖尼加 , 加文·科斯特洛 , 盖·勒罗伊 , 阿里·肖 , 卡贾·霍夫曼 以下为:
导航图灵测试(NTT):学习评估类人导航。 ICML公司 2021 以下为: 2644-2653 [公元32年] 罗伯特·泰勒·洛芬 , 阿迪鲁帕·萨哈 , 萨姆·德夫林 , 卡贾·霍夫曼 以下为:
竞争性多智能体强化学习中的战略有效探索。 阿拉伯联合酋长国 2021 以下为: 1587-1596 [i17] 路易斯·辛特格拉夫 , 萨姆·德夫林 , 卡米尔·乔塞克 , 西蒙·怀特森 , 卡贾·霍夫曼 以下为:
基于元学习的深度交互式贝叶斯强化学习。 CoRR公司 abs/2101.03864 ( 2021 ) [i16] 保罗·诺特 , 米卡·卡罗尔 , 萨姆·德夫林 , 卡米尔·乔塞克 , 卡贾·霍夫曼 , 安卡·D·德拉甘 , 罗欣·沙阿 以下为:
评估协作代理的健壮性。 CoRR公司 abs/2101.05507 ( 2021 ) 【i15】 威廉·H·格斯 , 马里奥·伊诺森特·卡斯特罗 , 萨姆·德夫林 , 布兰登·霍顿 , Noboru肖恩·库诺 , 克里斯曼·卢米斯 , 斯蒂芬妮·米拉尼 , 莎拉达·莫汉蒂 , 中田圭介 , 鲁斯兰·萨拉库丁诺夫 , 约翰·舒尔曼 , Shinya Shiroshita先生 , 尼古拉·托宾 , 阿维纳什·乌马迪辛古 , Oriol葡萄酒 以下为:
MineRL 2020利用人类先验进行样本高效强化学习竞赛。 CoRR公司 abs/2101.11071 ( 2021 ) [第14条] 萨姆·德夫林 , 罗卢卡·乔治斯库 , 艾达·莫门内贾德 , 雅罗斯瓦·雷佩基 , 伊芙琳·祖尼加 , 加文·科斯特洛 , 盖伊·勒罗伊 , 阿里·肖 , 卡贾·霍夫曼 以下为:
导航图灵测试(NTT):学习评估类人导航。 CoRR公司 abs/2105.09637 ( 2021 ) [i13] 罗伯特·泰勒·洛芬 , 阿迪鲁帕·萨哈 , 萨姆·德夫林 , 卡贾·霍夫曼 以下为:
竞争性多智能体强化学习中的战略有效探索。 CoRR公司 abs/2107.14698 ( 2021 ) [i12] 孙明飞 , 萨姆·德夫林 , 卡佳•霍夫曼 , 西蒙·怀特森 以下为:
确定性和辨别性模仿(D2-模仿):重新审视对抗性模仿以提高样本效率。 CoRR公司 abs/2112.06054 ( 2021 ) 2020 [公元31年] 米哈伊尔·雅各布 , 萨姆·德夫林 , 卡贾·霍夫曼 以下为:
“这很难,而且需要很多时间”-在商业游戏中创建代理的挑战和机遇。 碘化物 2020 以下为: 88-94 [公元30年] 马克·法古臣 , 萨姆·德夫林 , 丹尼尔·库登科 , 詹姆斯·阿尔弗雷德·沃克 以下为:
没有游戏变量的玩家风格聚类。 FDG公司 2020 以下为: 66:1-66:4 [公元29年] 马克·法古臣 , 塞巴斯蒂安·德雷丁 , 安德烈亚斯·利贝罗斯 , 马克·马尔多夫·安徒生 , 萨姆·德夫林 , 丹尼尔·库登科 , 詹姆斯·阿尔弗雷德·沃克 以下为:
乐高鸭子的自动相似性检测。 国际协调委员会 2020 以下为: 106年至109年 [c28] 雅各布·贝克 , 卡米尔·乔塞克 , 萨姆·德夫林 , 塞巴斯蒂安·奇亚切克 , Cheng Zhang(张成) , 卡贾·霍夫曼 以下为:
AMRL:强化学习的聚合记忆。 ICLR公司 2020 [i11] 罗卢卡·D·盖纳 , 萨姆·德夫林 , 西蒙·卢卡斯 , 迭戈·佩雷斯·利埃巴纳 以下为:
用于一般视频游戏播放的滚动地平线进化算法。 CoRR公司 abs/2003.12331 ( 2020 ) [i10] 丹尼尔·埃尔南德斯 , 凯文·德纳姆加纳伊 , 萨姆·德夫林 , Spyridon Samothrakis公司 , 詹姆斯·阿尔弗雷德·沃克 以下为:
广义框架下的自演算法比较。 CoRR公司 腹肌/2006.04471 ( 2020 ) [第九章] 里卡·安东诺娃 , 马克西姆·梅丹斯基 , 丹尼卡·克拉吉奇 , 萨姆·德夫林 , 卡贾·霍夫曼 以下为:
分析流形学习:统一和评估连续控制的表示。 CoRR公司 abs/2006.08718 ( 2020 ) [i8] 张如琪(Ruqi Zhang) , 李英珍 , 克里斯托弗·德萨 , 萨姆·德夫林 , Cheng Zhang(张成) 以下为:
变分推理的元学习。 CoRR公司 abs/2007.02912 ( 2020 ) [i7] 米哈伊尔·雅各布 , 萨姆·德夫林 , 卡佳•霍夫曼 以下为:
“这很难使用,而且需要很多时间。”商业游戏中创建代理的挑战和机遇。 CoRR公司 abs/2009.00541 ( 2020 ) [i6] 雅各布·卡斯泰里尼 , 萨姆·德夫林 , 弗兰斯·奥利埃霍克 , 拉胡尔·萨瓦尼 以下为:
差异奖励政策梯度。 CoRR公司 abs/2012.11258 ( 2020 )
2010 – 2019
2019 [公元17年] 阿萨纳西奥斯·佐洛塔斯 , 尼古拉斯·马特拉卡斯 , 萨姆·德夫林 , 迪米特里奥斯·科洛沃斯 , 理查德·佩奇 以下为:
柔性模型驱动工程中使用分类算法的类型推断。 柔和。 系统。 模型。 18 ( 1 ) 以下为: 345-366 ( 2019 ) [公元16年] 蒂莫西·阿特金森 , 亨德里克·拜尔 , 塔拉铜矿 , 萨姆·德夫林 , 杰里·斯旺 以下为:
基于文本的冒险AI竞赛。 IEEE传输。 游戏 11 ( 三 ) 以下为: 260-266 ( 2019 ) [公元15年] 维多利亚·J·霍奇 , 冯丽 , 尼克·塞普顿 , 萨姆·德夫林 , 彼得·科林 , 尼古拉斯·古马吉亚斯 , 邵建华 , 基兰·普维斯 , 伊格纳齐奥·卡布拉斯 , 基兰·朱德·费尔南德斯 以下为:
可定制纸牌游戏的商业模式如何影响玩家参与度。 IEEE传输。 游戏 11 ( 4 ) 以下为: 374-385 ( 2019 ) [公元14年] 亨德里克·拜尔 , 亚当·萨塔尔 , 爱德华·鲍利 , 萨姆·德夫林 , 杰夫·罗拉森 , 彼得·科林 以下为:
在领先的手机纸牌游戏中模拟人类游戏。 IEEE传输。 游戏 11 ( 4 ) 以下为: 386-395 ( 2019 ) [公元27年] 卢克·哈里斯 , 塞巴斯蒂安·李 , 雅罗斯瓦·雷佩基 , 卡贾·霍夫曼 , 萨姆·德夫林 以下为:
MazeExplorer:一个可定制的3D基准,用于评估强化学习中的泛化能力。 CoG公司 2019 以下为: 1-4 [公元26年] 丹尼尔·埃尔南德斯 , 凯文·德纳姆加纳伊 , 亚历克斯·袁高 , 彼得·约克 , 萨姆·德夫林 , Spyridon Samothrakis公司 , 詹姆斯·阿尔弗雷德·沃克 以下为:
自我游戏训练的通用框架。 CoG公司 2019 以下为: 1-8 [公元25年] 迪诺·斯蒂芬·拉特克利夫 , 卡贾·霍夫曼 , 萨姆·德夫林 以下为:
赢得或学习快速近似策略优化。 CoG公司 2019 以下为: 1-4 [公元24年] 马克西米利安·伊格尔 , 卡米尔·乔塞克 , 李英珍 , 塞巴斯蒂安·奇亚切克 , Cheng Zhang(张成) , 萨姆·德夫林 , 卡贾·霍夫曼 以下为:
选择性噪声注入强化学习中的泛化与信息瓶颈。 NeurIPS公司 2019 以下为: 13956-13968 [i5] 迭戈·佩雷斯·利埃巴纳 , 卡贾·霍夫曼 , 莎拉达·普拉桑娜·莫汉蒂 , 诺布鲁·库诺 , 安德烈·克莱默 , 萨姆·德夫林 , 罗卢卡·D·盖纳 , 丹尼尔·爱奥尼塔 以下为:
马尔默竞赛中的多智能体强化学习。 CoRR公司 abs/1901.08129 ( 2019 ) [i4] 马里Kleanthis Malalis , 萨姆·德夫林 , 丹尼尔·库登科 以下为:
多智能体拥塞问题中用于强化学习的资源提取。 CoRR公司 abs/1903.05431 ( 2019 ) [i3] 马克西米利安·伊格尔 , 卡米尔·乔塞克 , 李英珍 , 塞巴斯蒂安·奇亚切克 , Cheng Zhang(张成) , 萨姆·德夫林 , 卡佳•霍夫曼 以下为:
选择性噪声注入强化学习中的泛化与信息瓶颈。 CoRR公司 abs/1910.12911 ( 2019 ) 2018 [j13] 帕特里克·曼尼恩 , 萨姆·德夫林 , 吉姆·杜根 , 恩达·豪利 以下为:
基于知识的多目标多智能体强化学习的奖励形成。 知识。 工程版次。 33 以下为: 第23页 ( 2018 ) 【c23】 Florian区块 , 维多利亚·J·霍奇 , 斯蒂芬·霍布森 , 尼克·塞普顿 , 萨姆·德夫林 , 玛丽安·弗洛林·乌苏 , 安德斯·德拉钦 , 彼得·科林 以下为:
叙事字节:电子竞技中数据驱动的内容制作。 电视 2018 以下为: 29-41 [i2] 蒂莫西·阿特金森 , 亨德里克·拜尔 , 塔拉铜矿 , 萨姆·德夫林 , 杰瑞·斯旺 以下为:
基于文本的冒险AI竞赛。 CoRR公司 abs/1808.01262 ( 2018 ) 2017 [j12] 帕特里克·曼尼恩 , 萨姆·德夫林 , 卡尔·梅森 , 吉姆·杜根 , 恩达·霍利 以下为:
多目标强化学习中奖励变换下的策略不变性。 神经计算 263 以下为: 60-73 ( 2017 ) [公元11年] 帕特里克·曼尼恩 , 萨姆·德夫林 , 吉姆·杜根 , 恩达·豪利 以下为:
随机资源管理博弈中的多代理信用分配。 知识。 工程版次。 32 以下为: 第16页 ( 2017 ) [公元22年] 迪诺·斯蒂芬·拉特克利夫 , 萨姆·德夫林 , 乌多·克鲁斯威茨 , 卢卡·花旗 以下为:
克莱德:一个深度强化学习型DOOM游戏代理。 AAAI研讨会 2017 【c21】 汤姆·斯塔福德 , 萨姆·德夫林 , 筏式Sifa , 安德斯·德拉琴 以下为:
大型网络游戏中的探索和技能获取。 CogSci公司 2017 [i1] 维多利亚·J·霍奇 , 萨姆·德夫林 , 尼克·塞普顿 , Florian区块 , 安德斯·德拉钦 , 彼得一世考林 以下为:
电子竞技中的获胜预测:多人在线竞技场游戏中的混战预测。 CoRR公司 abs/1711.06498 ( 2017 ) 2016 [公元10年] 亚当·埃克 , Leen-Kiat Soh公司 , 萨姆·德夫林 , 丹尼尔·库登科 以下为:
基于潜力的有限期在线POMDP规划的奖励塑造。 自动。 Agent多Agent系统。 30 ( 三 ) 以下为: 403-445 ( 2016 ) [公元9年] Kyriakos Efthymiadis公司 , 萨姆·德夫林 , 丹尼尔·库登科 以下为:
克服基于计划的奖励塑造中的错误知识。 知识。 工程版次。 31 ( 1 ) 以下为: 31-43 ( 2016 ) [j8] 萨姆·德夫林 , 丹尼尔·库登科 以下为:
多智能体强化学习中基于计划的奖励形成。 知识。 工程版本。 31 ( 1 ) 以下为: 44-58 ( 2016 ) [j7] 亚恩·米夏·德豪瓦 , 萨姆·德夫林 , 丹尼尔·库登科 , Ann Nowé 以下为:
稀疏交互多智能体系统的上下文敏感奖赏成形。 知识。 工程版次。 31 ( 1 ) 以下为: 59-76 ( 2016 ) [公元20年] 萨姆·德夫林 , 阿纳斯塔西亚·安斯波卡 , 尼克·塞普顿 , 彼得·科林 , 杰夫·罗拉森 以下为:
将游戏数据与蒙特卡洛树搜索相结合以模拟人类游戏。 碘化物 2016 以下为: 16-22 [第19条] 马里Kleanthis Malalis , 萨姆·德夫林 , 丹尼尔·库登科 以下为:
多智能体拥塞问题中用于强化学习的资源提取。 美国航空航天局 2016 以下为: 503-511 [第18条] 帕特里克·曼尼恩 , 卡尔·梅森 , 萨姆·德夫林 , 吉姆·杜根 , 恩达·霍利 以下为:
使用多代理强化学习的多目标动态调度优化:(扩展摘要)。 美国原子能机构 2016 以下为: 1345-1346 [第17条] 尼克·塞普顿 , 彼得·科林 , 萨姆·德夫林 , 维多利亚·J·霍奇 , 尼古拉斯·H·斯拉文 以下为:
使用关联规则挖掘预测android:Netrunner中的对手牌组内容。 CIG公司 2016 以下为: 1-8 2015 [j6] 萨姆·德夫林 , 丹尼尔·海恩斯 , 塞缪尔·巴雷特 以下为:
特刊前言:自适应学习代理第3部分。 连接。 科学。 27 ( 三 ) 以下为: 213-214 ( 2015 ) [j5] 马里Kleanthis Malalis , 萨姆·德夫林 , 丹尼尔·库登科 以下为:
用于自适应和鲁棒网络入侵响应的分布式强化学习。 连接。 科学。 27 ( 三 ) 以下为: 234-252 ( 2015 ) 【j4】 彼得·科林 , 萨姆·德夫林 , 爱德华·杰克·鲍利 , 丹尼尔·怀特豪斯 , 杰夫·罗拉森 以下为:
领先的手机卡游戏中的玩家偏好和风格。 IEEE传输。 计算。 智力。 人工智能游戏 7 ( 三 ) 以下为: 233-242 ( 2015 ) [第16条] 安娜·哈里顿扬(Anna Harutyunyan) , 萨姆·德夫林 , 彼得·弗兰克斯 , Ann Nowé 以下为:
将任意奖励功能表示为基于潜力的建议。 AAAI公司 2015 以下为: 2652-2658 [第15条] 谢汉廷 , 萨姆·德夫林 , 丹尼尔·库登科 , 彼得·科林 以下为:
使用基于事件频率的数据表示预测玩家退出和首次购买。 CIG公司 2015 以下为: 230至237 [第14条] 阿萨纳西奥斯·佐洛塔斯 , 尼古拉斯·德里瓦洛斯·马特拉加斯 , 萨姆·德夫林 , 迪米特里奥斯·科洛沃斯 , 理查德·佩奇 以下为:
柔性模型驱动工程中的类型推断。 欧洲货币基金组织 2015 以下为: 75-91 [第13条] 阿萨纳西奥斯·佐洛塔斯 , 尼古拉斯·德里瓦洛斯·马特拉卡斯 , 萨姆·德夫林 , 迪米特里奥斯·科洛沃斯 , 理查德·佩奇 以下为:
柔性模型驱动工程中使用具体语法属性的类型推断。 柔性MDE@MoDELS 2015 以下为: 22-31 2014 [j3] 萨姆·德夫林 , 丹尼尔·海恩斯 , 恩达·霍利 以下为:
特刊前言:自适应学习代理,第1部分。 连接。 科学。 26 ( 1 ) 以下为: 5-6 ( 2014 ) [注2] 萨姆·德夫林 , 丹尼尔·海恩斯 , 恩达·霍利 以下为:
特刊前言:自适应学习代理第2部分。 连接。 科学。 26 ( 2 ) 以下为: 101-102 ( 2014 ) [第12条] 萨姆·德夫林 , 洛根·迈克尔·伊里尼埃米 , 丹尼尔·库登科 , 卡根汤 以下为:
多智能体强化学习的基于潜能的差异奖励。 美国原子能机构 2014 以下为: 165-172 [第11条] Kyriakos Efthymiadis公司 , 萨姆·德夫林 , 丹尼尔·库登科 以下为:
使用抽象MDP进行强化学习的知识修订。 美国原子能机构 2014 以下为: 1535-1536 [第10条] 萨姆·德夫林 , 彼得·科林 , 丹尼尔·库登科 , 尼古拉斯·古马吉亚斯 , 阿尔贝托·努恰雷利 , 伊格纳齐奥·卡布拉斯 , 基兰·裘德·费尔南德斯 , 冯丽 以下为:
游戏智能。 香烟 2014 以下为: 1-8 【c9】 谢汉廷 , 丹尼尔·库登科 , 萨姆·德夫林 , 彼得·科林 以下为:
在线游戏中预测玩家脱离。 CGW@ECAI公司 2014 以下为: 133-149 [c8] 马里Kleanthis Malalis , 萨姆·德夫林 , 丹尼尔·库登科 以下为:
分布式入侵响应的协调团队学习和差异奖励。 ECAI公司 2014 以下为: 1063-1064 【c7】 尼古拉斯·古马吉亚斯 , 伊格纳齐奥·卡布拉斯 , 基兰·朱德·费尔南德斯 , 冯莉 , 阿尔贝托·努恰雷利 , 彼得·科林 , 萨姆·德夫林 , 丹尼尔·库登科 以下为:
视频游戏产业商业模式生态系统的系统发育分类。 专业-VE 2014 以下为: 285-294 2013 【b1】 萨姆·德夫林 以下为:
基于潜能的奖励塑造,用于基于知识的多智能体强化学习。 英国约克大学, 2013 【c6】 亚当·埃克 , Leen Kiat Soh公司 , 萨姆·德夫林 , 丹尼尔·库登科 以下为:
POMDP的潜在报酬塑造。 美国原子能机构 2013 以下为: 1123-1124 【c5】 Kyriakos Efthymiadis公司 , 萨姆·德夫林 , 丹尼尔·库登科 以下为:
克服基于计划的奖励塑造中的错误领域知识。 美国原子能机构 2013 以下为: 1245-1246 2012 [c4] 萨姆·德夫林 , 丹尼尔·库登科 以下为:
基于动态潜力的奖励塑造。 美国原子能机构 2012 以下为: 433-440 2011 [j1] 萨姆·德夫林 , 丹尼尔·库登科 , 马雷克·格里兹 以下为:
复杂多代理系统中基于潜力的报酬形成和建议的实证研究。 高级复杂系统。 14 ( 2 ) 以下为: 251-278 ( 2011 ) 【c3】 萨姆·德夫林 , 丹尼尔·库登科 以下为:
多智能体系统基于潜力的报酬形成的理论考虑。 美国原子能机构 2011 以下为: 225至232 【c2】 萨姆·德夫林 , 马雷克·格里兹 , 丹尼尔·库登科 以下为:
RoboCup KeepAway的多代理、奖励塑造。 美国原子能机构 2011 以下为: 1227-1228
2000 – 2009
2009 【c1】 萨姆·德夫林 , 马雷克·格里兹 , 丹尼尔·库登科 以下为:
RoboCup中的强化学习保持部分可观测性。 进气温度(IAT) 2009 以下为: 201-208
合著者索引
![](https://dblp2.uni-trier.de/img/cog.dark.24x24.png)