约西亚·汉纳
人员信息
SPARQL查询
优化列表
2020年–今天
2024 [公元38年] 约西亚·P·汉纳 :
通过抽象扩展强化学习代理的离线评估。 AAAI公司 2024 : 22667 [公元37年] Subhojyoti Mukherjee公司 , 谢巧敏 , 约西亚·P·汉纳 , 罗伯特·D·诺瓦克 :
SPEED:线性异方差强盗政策评估的实验设计。 AISTATS公司 2024 : 2962-2970 [公元36年] 尼古拉斯·科拉多 , 约西亚·P·汉纳 :
了解动态不变数据增强何时有利于无模型强化学习更新。 ICLR公司 2024 [公元35年] Subhojyoti Mukherjee公司 , 约西亚·P·汉纳 , 罗伯特·D·诺瓦克 :
SaVeR:表格式MDP中安全策略评估的最佳数据收集策略。 ICML公司 2024 [公元34年] 布拉马S.帕维 , 马修·苏莱克 , 陈玉东 , 谢巧敏 , 约西亚·P·汉纳 :
学习在无界状态空间中稳定在线强化学习。 ICML公司 2024 [i33] 全Yeol Kwon , 刘洋 , 罗伯特·D·诺瓦克 , 约西亚·汉纳 :
未来预测是部分可观测环境中良好历史表现的有力证据。 CoRR公司 abs/2402.07102 ( 2024 ) [i32] 阿鲁希·贾因 , 约西亚·P·汉纳 , Doina Precup公司 :
数据效率通用值函数评估的自适应探索。 CoRR公司 abs/2405.07838 ( 2024 ) [i31] Subhojyoti Mukherjee公司 , 约西亚·P·汉纳 , 罗伯特·D·诺瓦克 :
SaVeR:表格式MDP中安全策略评估的最佳数据收集策略。 CoRR公司 abs/2406.02165 ( 2024 ) [i30] Subhojyoti Mukherjee公司 , 约西亚·P·汉纳 , 谢巧敏 , 罗伯特·D·诺瓦克 :
基于奖励预测的上下文多任务结构化Bandit学习预训练决策变换器。 CoRR公司 abs/2406.05064 ( 2024 ) [i29] 阿比纳夫·纳拉扬·哈里什 , 拉里·海克 , 约西亚·P·汉纳 , 兹索尔·基拉 , 安德鲁·绍特 :
通过辅助任务提取进行强化学习。 CoRR公司 腹肌/2406.17168 ( 2024 ) 2023 [公元33年] 布拉马S.帕维 , 约西亚·P·汉纳 :
通过状态抽象将边际重要性抽样扩展到高维状态空间。 AAAI公司 2023 : 9417-9425 [公元32年] Mhairi Dunion公司 , 特雷弗·麦金罗 , 凯文·塞巴斯蒂安·勒克 , 约西亚·P·汉纳 , 斯特凡诺·阿尔布雷希特 :
强化学习中改进泛化的表征的时间分离。 ICLR公司 2023 [公元31年] Mhairi Dunion公司 , 特雷弗·麦金罗 , 凯文·塞巴斯蒂安·勒克 , 约西亚·汉纳 , 斯特凡诺·阿尔布雷希特 :
强化学习中分离表征的条件互信息。 NeurIPS公司 2023 [c30] Subhojyoti Mukherjee公司 , 谢巧敏 , 约西亚·汉纳 , 罗伯特·D·诺瓦克 :
双线性Bandits中纯探索的多任务表示学习。 NeurIPS公司 2023 [公元29年] 布拉马S.帕维 , 约西亚·汉纳 :
非政策评估中基于状态-行为相似性的表示。 NeurIPS公司 2023 [第28条] Subhojyoti Mukherjee公司 , 谢巧敏 , 约西亚·汉纳 , 罗伯特·D·诺瓦克 :
SPEED:线性异方差强盗政策评估的实验设计。 CoRR公司 abs/2301.12357 ( 2023 ) [i27] Mhairi Dunion公司 , 特雷弗·麦金罗 , 凯文·塞巴斯蒂安·勒克 , 约西亚·P·汉纳 , 斯特凡诺·阿尔布雷希特 :
强化学习中分离表征的条件互信息。 CoRR公司 abs/2305.14133 ( 2023 ) [i26] 布拉马S.帕维 , 陈玉东 , 谢巧敏 , 约西亚·P·汉纳 :
在持续任务强化学习中处理无限状态空间。 CoRR公司 abs/2306.01896 ( 2023 ) [i25] 尼古拉斯·E·科拉多 , 约西亚·P·汉纳 :
了解动态不变数据增强何时有利于无模型强化学习更新。 CoRR公司 abs/2310.17786 ( 2023 ) 【i24】 尼古拉斯·E·科拉多 , 玉霄区 , 约翰·巴利斯 , 亚当·拉比奥萨 , 约西亚·P·汉纳 :
离线强化学习和模拟学习的引导数据增强。 CoRR公司 abs/2310.18247 ( 2023 ) [第23条] 布拉马S.帕维 , 约西亚·P·汉纳 :
非政策评估中基于状态-行为相似性的表示。 CoRR公司 abs/2310.18409 ( 2023 ) [i22] Subhojyoti Mukherjee公司 , 谢巧敏 , 约西亚·P·汉纳 , 罗伯特·D·诺瓦克 :
双线性Bandits中纯探索的多任务表示学习。 CoRR公司 abs/2311.00327 ( 2023 ) 【i21】 尼古拉斯·E·科拉多 , 约西亚·P·汉纳 :
无需在线抽样的在线策略梯度强化学习。 CoRR公司 abs/2311.08290 ( 2023 ) 2022 [公元28年] 卢卡斯·施费尔 , 菲利波斯·克里斯蒂亚诺斯 , 约西亚·P·汉纳 , 斯特凡诺·阿尔布雷希特 :
解耦强化学习以稳定内在动机探索。 美国原子能机构 2022 : 1146-1154 [c27] 尼古拉斯·科拉多 , 玉霄区 , 约西亚·P·汉纳 :
用于动力学泛化的仿真获得的潜在动作空间。 科拉斯 2022 : 661-682 [公元26年] 钟汝杰 , 张多涵 , 卢卡斯·施费尔 , 斯特凡诺·阿尔布雷希特 , 约西亚·汉纳 :
强化学习中用于数据效率策略评估的稳健政策抽样。 NeurIPS公司 2022 [公元25年] Subhojyoti Mukherjee公司 , 约西亚·P·汉纳 , 罗伯特·D·诺瓦克 :
ReVar:通过减少方差抽样加强政策评估。 阿联酋 2022 : 1413-1422 [i20] Subhojyoti Mukherjee公司 , 约西亚·P·汉纳 , 罗伯特·D·诺瓦克 :
ReVar:通过减少方差抽样加强政策评估。 CoRR公司 腹肌/2203.04510 ( 2022 ) [i19] 张驰(Chi Zhang) , 奥尔加·帕帕马努埃尔 , 约西亚·汉纳 :
通过独立学习实现多智能体数据库。 CoRR公司 abs/2205.14323 ( 2022 ) [i18] Mhairi Dunion公司 , 特雷弗·麦金罗 , 凯文·塞巴斯蒂安·勒克 , 约西亚·汉纳 , 斯特凡诺·阿尔布雷希特 :
强化学习中改进泛化的表征的时间分离。 CoRR公司 abs/2207.05480 ( 2022 ) [i17] Sheelabhadra戴 , 苏梅德·彭杜卡 , 古尼·沙龙 , 约西亚·P·汉纳 :
减少基线后悔的联合模拟强化学习框架。 CoRR公司 abs/2209.09446 ( 2022 ) [i16] 布拉马S.帕维 , 约西亚·P·汉纳 :
通过状态抽象将边际重要性抽样扩展到高维状态空间。 CoRR公司 abs/2212.07486 ( 2022 ) 【i15】 哈格·拉迪 , 约西亚·P·汉纳 , 斯通 , 马修·泰勒 :
离线学习的安全评估:我们准备好部署了吗? CoRR公司 abs/2212.08302 ( 2022 ) 2021 【j4】 约西亚·P·汉纳 , 斯科特·尼库姆 , 斯通 :
用估计的行为策略进行强化学习中的重要性抽样。 机器。 学习。 110 ( 6 ) : 1267-1317 ( 2021 ) [j3] 约西亚·P·汉纳 , Siddharth Desai公司 , 哈里斯·卡南 , 加勒特·沃内尔 , 斯通 :
为简单到真实的强化学习提供扎根的行动转换。 机器。 学习。 110 ( 9 ) : 2469-2499 ( 2021 ) [公元24年] Sheelabhadra戴 , 苏梅德·彭杜卡 , 古尼·沙龙 , 约西亚·P·汉纳 :
减少基线后悔的联合模拟强化学习框架。 伊罗斯 2021 : 3485-3491 【c23】 约西亚·P·汉纳 , 阿拉斯·拉赫曼 , 埃利奥特·福松 , 弗朗西斯科·埃拉斯 , 米哈·多布雷 , 约翰·雷德福德 , Subramanian Ramamoorthy语 , 斯特凡诺·阿尔布雷希特 :
存在阻塞因素的自主车辆可解释目标识别。 伊罗斯 2021 : 7044-7051 [公元22年] 易卜拉欣·艾哈迈德 , 约西亚·P·汉纳 , 埃利奥特·福松 , 斯特凡诺·阿尔布雷希特 :
通过抽象多代理交互实现量子安全认证和密钥协商。 帕姆斯 2021 : 14-26 [第14条] 卢卡斯·施费尔 , 菲利波斯·克里斯蒂亚诺斯 , 约西亚·汉纳 , 斯特凡诺·阿尔布雷希特 :
强化学习中的解耦探索与开发。 CoRR公司 abs/2107.08966 ( 2021 ) [i13] 约西亚·P·汉纳 , 阿拉斯·拉赫曼 , 埃利奥特·福松 , 弗朗西斯科·埃拉斯 , 米哈·多布雷 , 约翰·雷德福德 , Subramanian Ramamoorthy语 , 斯特凡诺·阿尔布雷希特 :
存在阻塞因素的自主车辆可解释目标识别。 CoRR公司 abs/2108.02530 ( 2021 ) [i12] 钟汝杰 , 约西亚·P·汉纳 , 卢卡斯·施费尔 , 斯特凡诺·阿尔布雷希特 :
稳健的政策内数据收集,用于数据高效的政策评估。 CoRR公司 abs/2111.14552 ( 2021 ) 2020 [注2] 布拉马S.帕维 , 法拉斯·托拉比 , 约西亚·汉纳 , 加勒特·沃内尔 , 斯通 :
RIDM:用于从单观测演示中学习的强化逆动力学建模。 IEEE机器人自动化。 莱特。 5 ( 4 ) : 6262-6269 ( 2020 ) 【c21】 詹姆斯·奥尔特 , 约西亚·P·汉纳 , 古尼·沙龙 :
学习可解释的交通信号控制政策。 美国原子能机构 2020 : 88-96 [公元20年] 布拉马S.帕维 , 伊珊·杜鲁加尔 , 约西亚·汉纳 , 斯通 :
减少批时差学习中的采样误差。 ICML公司 2020 : 7543-7552 [第19条] 哈里斯·卡南 , Siddharth Desai公司 , 约西亚·P·汉纳 , 加勒特·沃内尔 , 斯通 :
强化基础行动转换,实现模拟现实转移。 伊罗斯 2020 : 4397-4402 [第18条] Siddharth Desai公司 , 哈里斯·卡南 , 约西亚·P·汉纳 , 加勒特·沃内尔 , 斯通 :
机器人仿真学习中的随机接地动作变换。 伊罗斯 2020 : 6106-6111 [c17] Siddharth Desai公司 , 伊珊·杜鲁加尔 , 哈里斯·卡南 , 加勒特·沃内尔 , 约西亚·汉纳 , 斯通 :
从观察法模拟动态失配的迁移学习。 NeurIPS公司 2020 [i11] 易卜拉欣·艾哈迈德 , 约西亚·P·汉纳 , 斯特凡诺·阿尔布雷希特 :
通过抽象多代理交互实现量子安全身份验证。 CoRR公司 abs/2007.09327 ( 2020 ) [i10] 哈里斯·卡南 , Siddharth Desai公司 , 约西亚·P·汉纳 , 加勒特·沃内尔 , 斯通 :
强化基础行动转换,实现模拟现实转移。 CoRR公司 abs/2008.01279 ( 2020 ) [第九章] Siddharth Desai公司 , 哈里斯·卡南 , 约西亚·P·汉纳 , 加勒特·沃内尔 , 斯通 :
机器人仿真学习中的随机接地动作变换。 CoRR公司 腹肌/2008.01281 ( 2020 ) [i8] Siddharth Desai公司 , 伊珊·杜鲁加尔 , 哈里斯·卡南 , 加勒特·沃内尔 , 约西亚·汉纳 , 斯通 :
模拟观察法在模拟现实转移中的应用。 CoRR公司 abs/2008.01594 ( 2020 ) [i7] 布拉马S.帕维 , 伊珊·杜鲁加尔 , 约西亚·汉纳 , 斯通 :
减少批时差学习中的采样误差。 CoRR公司 abs/2008.06738 ( 2020 )
2010 – 2019
2019 [第16条] 约西亚·P·汉纳 , 古尼·沙龙 , 斯蒂芬·D·波义耳 , 斯通 :
选择合规代理进行选择性微量滚动。 AAAI公司 2019 : 565-572 [第15条] 约西亚·P·汉纳 , 斯通 :
减少策略梯度学习中的采样误差。 美国原子能机构 2019 : 1016-1024 [第14条] 约西亚·汉纳 , 斯科特·尼库姆 , 斯通 :
使用估计行为策略评估重要性采样策略。 ICML公司 2019 : 2605-2613 [i6] 布拉马S.帕维 , 法拉斯·托拉比 , 约西亚·P·汉纳 , 加勒特·沃内尔 , 斯通 :
RIDM:用于从单观测演示中学习的强化逆动力学建模。 CoRR公司 abs/1906.07372 ( 2019 ) [i5] 詹姆斯·奥尔特 , 约西亚·汉纳 , 古尼·沙龙 :
学习可解释的交通信号控制政策。 CoRR公司 abs/1912.11023 ( 2019 ) 2018 [第13条] 陈海鹏 , 保安 , 古尼·沙龙 , 约西亚·P·汉纳 , 斯通 , 苗春燕 , Yeng Chai Soh公司 :
DyETC:缓解交通拥堵的动态电子收费系统。 AAAI公司 2018 : 757-765 [第12条] 约西亚·P·汉纳 , 斯通 :
实现数据高效的非政策政策梯度。 AAAI春季研讨会 2018 [i4] 约西亚·汉纳 , 斯科特·尼库姆 , 斯通 :
使用估计行为策略评估重要性采样策略。 CoRR公司 abs/1806.01347 ( 2018 ) 2017 [第11条] 约西亚·P·汉纳 , 斯通 :
模拟中机器人学习的接地动作转换。 AAAI公司 2017 : 3834-3840 [第10条] 约西亚·P·汉纳 , 斯通 :
模拟中机器人学习的接地动作转换。 AAAI公司 2017 : 4931-4932 【c9】 约西亚·P·汉纳 , 斯通 , 斯科特·尼库姆 :
模型引导:非政策评估的置信区间。 AAAI公司 2017 : 4933-4934 【c8】 约西亚·P·汉纳 , 斯通 , 斯科特·尼库姆 :
模型引导:非政策评估的置信区间。 美国原子能机构 2017 : 538-546 【c7】 约西亚·P·汉纳 :
缩小仿真与现实之间的差距。 美国原子能机构 2017 : 1834-1835 【c6】 约西亚·P·汉纳 , 菲利普·托马斯 , 斯通 , 斯科特·尼库姆 :
通过行为策略搜索进行数据高效策略评估。 ICML公司 2017 : 1394-1403 【c5】 雅各布·梅纳什 , 乔什·凯勒 , 凯蒂·金特 , 约西亚·汉纳 , 埃拉·利伯曼 , 圣米特·纳韦卡尔 , 张若翰 , 斯通 :
用于RoboCup足球的快速准确黑白球检测。 机器人世界杯足球锦标赛 2017 : 45-58 [i3] 约西亚·P·汉纳 , 菲利普·托马斯 , 斯通 , 斯科特·尼库姆 :
通过行为策略搜索进行数据高效策略评估。 CoRR公司 abs/1706.03469 ( 2017 ) 2016 [j1] 凯蒂·金特 , 帕特里克·麦克阿尔宾 , 雅各布·梅纳什 , 约西亚·汉纳 , 埃拉·利伯曼 , 圣米特·纳韦卡尔 , 张若翰 , 斯通 :
UT Austin Villa:人工智能和机器人领域的项目驱动研究。 IEEE智能。 系统。 31 ( 2 ) : 94-101 ( 2016 ) 【c4】 古尼·沙龙 , 约西亚·汉纳 , 塔伦·兰巴 , 迈克尔·阿尔伯特 , 斯通 , 斯蒂芬·D·波义耳 :
增量收费:用于优化流量的自适应收费。 IJCAI收件人 2016 [i2] 约西亚·P·汉纳 , 斯通 , 斯科特·尼库姆 :
利用模型进行高置信度非政策评估。 CoRR公司 abs/1606.06126 ( 2016 ) 2015 【c3】 帕特里克·麦克阿尔宾 , 约西亚·汉纳 , 梁杰生 , 斯通 :
UT Austin Villa:2015年机器人杯3D模拟联赛比赛和技术挑战冠军。 机器人世界杯足球锦标赛 2015 : 118-131 2013 【c2】 帕特里斯·佩尼 , 保罗·翁 , 朱迪·戈德史密斯 , 约西亚·汉纳 :
多目标马尔可夫决策过程中洛伦兹最优解的逼近。 AAAI(最新发展) 2013 【c1】 帕特里斯·佩尼 , 保罗·翁 , 朱迪·戈德史密斯 , 约西亚·汉纳 :
多目标马尔可夫决策过程中洛伦兹最优解的逼近。 阿联酋 2013 [i1] 帕特里斯·佩尼 , 保罗·翁 , 朱迪·戈德史密斯 , 约西亚·汉纳 :
多目标马尔可夫决策过程中洛伦兹最优解的逼近。 CoRR公司 abs/1309.6856 ( 2013 )