内野英二
人员信息
优化列表
2020年–今天
2023 [公元32年] 哈米德·贾巴里Asl , 内野英二 :
非线性动态系统的在线强化学习控制:基于状态-作用值函数的解决方案。 神经计算 544 : 126291 ( 2023 ) 2022 [公元31年] 松本裕隆(Yutaka Matsuo) , 燕乐存 , 曼尼什·萨哈尼 , Doina Precup公司 , 大卫·西尔弗 , 杉山正树 , 内野英二 , 森本俊(Jun Morimoto) :
深度学习、强化学习和世界模型。 神经网络 152 : 267-275 ( 2022 ) 【j30】 山野友也(Tomoya Yamanokuchi) , 于万权 , 津津吉久(Yoshihisa Tsurumine) , 内野英二 , 森本俊(Jun Morimoto) , 松原隆明 :
用于真实世界视觉机器人操作的随机到规范模型预测控制。 IEEE机器人自动化。 莱特。 7 ( 4 ) : 8964-8971 ( 2022 ) [公元29年] 内部英二 :
基于模型和策略熵正则化的模拟学习。 IEEE机器人自动化。 莱特。 7 ( 4 ) : 10922-10929 ( 2022 ) [公元36年] 哈米德·贾巴里Asl , 内野英二 :
确定性系统的在线数据驱动反向强化学习。 SSCI公司 2022 : 884-889 [第九章] 朱凌伟 , 郑晨 , 内野英二 , 松原隆明 :
q-不使用强化学习。 CoRR公司 腹肌/2205.07467 ( 2022 ) [i8] 朱凌伟 , 郑晨 , 内部英二 , 松原隆明 :
通过优势学习在一般Tsallis熵强化学习中实施KL正则化。 CoRR公司 abs/2205.07885 ( 2022 ) [i7] 内野英二 :
基于模型和策略熵正则化的模拟学习。 CoRR公司 abs/2206.10101 ( 2022 ) [i6] 山野友也(Tomoya Yamanokuchi) , 于万权 , 津津吉久(Yoshihisa Tsurumine) , 内野英二 , 森本俊(Jun Morimoto) , 松原隆明 :
现实世界视觉机器人操作的随机到规范模型预测控制。 CoRR公司 腹肌/2207.01840 ( 2022 ) 2021 [j28] 王洁欣 , 斯特凡·埃尔夫温 , 内野英二 :
机器人导航奖惩模块化深度强化学习。 神经网络 135 : 115-126 ( 2021 ) [公元27年] 内野英二 , 渡边健二 :
前向和反向强化学习共享网络权重和超参数。 神经网络 144 : 138-153 ( 2021 ) [公元26年] 汤姆·麦克弗森 , 松本正彦 , 高美广明 , 森本俊 , 内野英二 , Hikida高藤 :
自适应和预测行为控制的并行和分层神经机制。 神经网络 144 : 507-521 ( 2021 ) 2020 [i5] 内野英二 , Kenji Doya公司 :
基于熵正则化正向和反向强化学习的模拟学习。 CoRR公司 abs/2008.07284 ( 2020 )
2010 – 2019
2019 [公元25年] 肖塔·奥尼西 , 内野英二 , 山口义郎 , 中西幸介 , Yuji Yasui公司 , 石井信 :
受约束的深度Q学习逐渐接近普通Q学习。 前沿神经机器人 13 : 103 ( 2019 ) [公元24年] 津津吉久(Yoshihisa Tsurumine) , 崔云端 , 内野英二 , 松原隆明 :
深度强化学习与平滑策略更新:应用于机器人布料操作。 机器人自动。 系统。 112 : 72-83 ( 2019 ) [公元35年] Tadashi Kozuno公司 , 内野英二 , Kenji Doya公司 :
强化学习中Softmax和Gap-Increased算子效率和鲁棒性的理论分析。 AISTATS公司 2019 : 2003年5月29日 2018 [公元23年] 肯·金乔 , 内野英二 , Kenji Doya公司 :
采用不精确动力学模型的线性可解马尔可夫对策的鲁棒性。 工件。 生命机器人 23 ( 1 ) : 1-9 ( 2018 ) [公元22年] 内野英二 :
混合异构学习模块的合作与竞争强化和模拟学习。 前沿神经机器人 12 : 61 ( 2018 ) [公元21年] 斯特凡·埃尔夫温 , 内野英二 , 渡边健二 :
强化学习中神经网络函数逼近的Sigmoid加权线性单元。 神经网络 107 : 3-11 ( 2018 ) [公元20年] 内野英二 :
基于Logistic回归的无模型深度逆强化学习。 神经过程。 莱特。 47 ( 三 ) : 891-905 ( 2018 ) [公元34年] 斯特凡·埃尔夫温 , 内野英二 , Kenji Doya公司 :
通过并行算法竞争在线元学习。 GECCO公司 2018 : 426-433 [公元33年] 内野英二 :
通过多重重要性抽样在策略搜索中高效地重用样本。 GECCO公司 2018 : 545-552 [c32] 王洁欣 , Stefan Elfwing公司 , 内野英二 :
通过使用MaxPain架构将奖励和惩罚并行进行深度强化学习。 ICDL-EPIROB接口 2018 : 175-180 [i4] 斯特凡·埃尔夫温 , 内野英二 , Kenji Doya公司 :
分类的无界输出网络。 CoRR公司 abs/1807.09443 ( 2018 ) 2017 [公元19年] 王洁欣 , 内野英二 , Kenji Doya公司 :
自适应基线增强了基于EM的策略搜索:在智能手机平衡器的基于视图的定位任务中进行验证。 前沿神经机器人 11 : 1 ( 2017 ) [公元31年] 克里斯·雷克 , 内野英二 , Kenji Doya公司 :
多折扣强化学习者的平均奖励优化。 图标(1) 2017 : 789-800 [公元30年] 津津吉久(Yoshihisa Tsurumine) , 崔云端 , 内野英二 , 松原隆明 :
使用原始图像进行机器人控制的深度动态策略编程。 IROS公司 2017 : 1545-1550 [i3] 斯特凡·埃尔夫温 , 内野英二 , Kenji Doya公司 :
强化学习中用于神经网络函数逼近的Sigmoid加权线性单元。 CoRR公司 abs/1702.03118 ( 2017 ) [i2] 斯特凡·埃尔夫温 , 内野英二 , Kenji Doya公司 :
基于并行算法竞争的在线元学习。 CoRR公司 abs/1702.07490 ( 2017 ) [i1] Tadashi Kozuno公司 , 内野英二 , Kenji Doya公司 :
统一价值迭代、优势学习和动态策略规划。 CoRR公司 abs/1710.10866 ( 2017 ) 2016 [公元18年] 王洁欣 , 内野英二 , Kenji Doya公司 :
基于EM的策略超参数探索:应用于两轮智能手机机器人的站立和平衡。 工件。 生命机器人 21 ( 1 ) : 125-131 ( 2016 ) [公元17年] 斯特凡·埃尔夫温 , 内野英二 , Kenji Doya公司 :
从自由能到期望能量:改进强化学习中基于能量的值函数近似。 神经网络 84 : 17-27 ( 2016 ) [公元29年] 琼黄(音) , 内野英二 , Kenji Doya公司 :
协调环境下强化学习主体之间交流的出现。 ICDL-EPIROB接口 2016 : 57-58 [公元28年] 内部英二 :
基于Logistic回归的深度反向强化学习。 图标(1) 2016 : 23-31 2015 [公元16年] 斯特凡·埃尔夫温 , 内野英二 , Kenji Doya公司 :
预计用于分类的基于能量的受限Boltzmann机器。 神经网络 64 : 29-38 ( 2015 ) 2014 [公元27年] 内野英二 , Kenji Doya公司 :
使用动态策略编程的反向强化学习。 ICDL-EPIROB接口 2014 : 222-228 [公元26年] 内野英二 , Kenji Doya公司 :
基于线性可解MDP,组合学习的控制器以实现新目标。 ICRA公司 2014 : 5252-5259 2013 [公元15年] 斯特凡·埃尔夫温 , 内野英二 , Kenji Doya公司 :
基于尺度自由能量的强化学习,在高维状态空间中实现稳健高效的学习。 前沿神经机器人 7 : 三 ( 2013 ) [j14] 肯·金霍 , 内野英二 , Kenji Doya公司 :
移动机器人导航任务中线性可解马尔可夫决策过程的动态模型学习评估。 前沿神经机器人 7 : 7 ( 2013 ) [公元25年] 吉田直人 , 内野英二 , Kenji Doya公司 :
基于状态相关折扣因子的强化学习。 ICDL-EPIROB接口 2013 : 1-6 2011 [j13] 斯特凡·埃尔夫温 , 内野英二 , Kenji Doya公司 , 亨利克·克里斯滕森 :
达尔文体现了生存学习能力的进化。 适应。 行为。 19 ( 2 ) : 101-120 ( 2011 ) 2010 [公元12年] 森村哲郎(Tetsuro Morimura) , 内野英二 , 吉本纯一郎 , 简·彼得斯 , Kenji Doya公司 :
用于策略梯度强化学习的对数平稳分布导数。 神经计算。 22 ( 2 ) : 342-376 ( 2010 ) [公元24年] 斯特凡·埃尔夫温 , 大冢真本 , 内野英二 , Kenji Doya公司 :
基于高维感官输入的基于视觉导航的基于自由能量的强化学习。 图标(1) 2010 : 215-222
2000 – 2009
2009 【c23】 斯特凡·埃尔夫温 , 内野英二 , Kenji Doya公司 :
人工化身进化中不同交配策略的出现。 图标(2) 2009 : 638-647 [公元22年] 森村哲郎(Tetsuro Morimura) , 内野英二 , 吉本纯一郎 , Kenji Doya公司 :
一种广义自然行动者批判算法。 NIPS公司 2009 : 1312-1320 [第1页] 斯特凡·埃尔夫温 , 内野英二 , Kenji Doya公司 :
体现进化中奖励和元参数的共同进化。 创造类似大脑的智能 2009 : 278-302 2008 [公元11年] 斯特凡·埃尔夫温 , 内部英二 , 渡边健二 , 亨利克·克里斯滕森 :
强化学习中形成奖励与元参数的协同进化。 适应。 行为。 16 ( 6 ) : 400-412 ( 2008 ) [公元10年] 佐藤隆志 , 内野英二 , Kenji Doya公司 :
学习如何交流、交流什么以及是否交流:强化学习代理中原型交流的出现。 工件。 生命机器人 12 ( 1-2 ) : 70-74 ( 2008 ) [公元9年] 森村哲郎(Tetsuro Morimura) , 内野英二 , Kenji Doya公司 :
自然行动者评论家,对方差减少进行基线调整。 工件。 生命机器人 13 ( 1 ) : 275-279 ( 2008 ) [j8] 内部英二 , Kenji Doya公司 :
通过具体化进化和受限强化学习寻找内在回报。 神经网络 21 ( 10 ) : 1447-1455 ( 2008 ) 【c21】 神冈Takumi Kamioka , 内野英二 , Kenji Doya公司 :
基于可重用和层次化模块表示的神经进化。 图标(1) 2008 : 22月31日 [公元20年] 森村哲郎(Tetsuro Morimura) , 内野英二 , 吉本纯一郎 , Kenji Doya公司 :
基于平稳分布度量的新自然政策梯度。 ECML/PKDD(2) 2008 : 82-97年 2007 [j7] 斯特凡·埃尔夫温 , 内野英二 , Kenji Doya公司 , 亨利克·克里斯滕森 :
层次学习结构的进化发展。 IEEE传输。 进化。 计算。 11 ( 2 ) : 249-264 ( 2007 ) [第19条] 内野英二 , Kenji Doya公司 :
通过网络啮齿动物的具体进化和受限强化学习寻找探索性回报。 图标(2) 2007 : 167-176 2006 [j6] 内野英二 , 浅田埝 :
多机器人环境中具有竞争和协作任务的增量协同进化。 程序。 电气与电子工程师协会 94 ( 7 ) : 1412-1424 ( 2006 ) 2005 [j5] Kenji Doya公司 , 内野英二 :
网络啮齿动物项目:探索自我保护和自我繁殖的适应机制。 适应。 行为。 13 ( 2 ) : 149-160 ( 2005 ) [第18条] 斯特凡·埃尔夫温 , 内野英二 , Kenji Doya公司 , 亨利克·克里斯滕森 :
受生物启发,体现了生存进化。 进化计算大会 2005 : 2210-2216 2004 [第17条] 斯特凡·埃尔夫温 , 内部英二 , Kenji Doya公司 , 亨利克·克里斯滕森 :
多智能体强化学习:使用宏观动作学习配对任务。 IROS公司 2004 : 3164-3169 2003 [第16条] 斯特凡·埃尔夫温 , 内野英二 , Kenji Doya公司 :
层次强化学习中结构自动构建的进化方法。 GECCO公司 2003 : 507-509 2002 【j4】 内野英二 , Masakazu Yanase村 , 浅田埝 :
基于自适应适应度函数的移动机器人行为生成。 机器人自动。 系统。 40 ( 2-3 ) : 69-77 ( 2002 ) 2001 [j3] 浅田埝 , 内野英二 :
面向RoboCup的多智能体学习。 新一代。 计算。 19 ( 2 ) : 103-120 ( 2001 ) [第15条] 内野英二 , 加藤文森 , 细田浩(Koh Hosoda) , 浅田埝 :
基于模块冲突解决的多智能体/多任务环境中的动态任务分配。 ICRA公司 2001 : 3987-3992 [第14条] 内野英二 , Masakazu Yanase村 , 浅田埝 :
具有激活/终止约束的进化行为选择。 机器人世界杯足球锦标赛 2001 : 234-243 2000 [第13条] 高桥安介(Yasutake Takahashi) , 内野英二 , 高桥田村 , Masakazu Yanase村 , 池野昭一 , Shujiro Inui公司 , 浅田埝 :
大阪大学“田径2000”。 机器人世界杯足球锦标赛 2000 : 607-610
1990 – 1999
1999 [注2] 浅田埝 , 内野英二 , 细田浩(Koh Hosoda) :
通过基于视觉的强化学习和开发实现移动机器人在动态变化的现实世界中的合作行为获取。 工件。 智力。 110 ( 2 ) : 275-292 ( 1999 ) [第12条] 内野英二 , 浅田埝 :
多元环境下合作行为获得的多重报酬准则。 机器人世界杯足球锦标赛 1999 : 519-530 [第11条] 铃木昭二 , 加藤达素诺里 , 石冢浩 , 川崎浩(Hiroyoshi Kawanishi) , 田村隆 , 柳濑正一 , 高桥安介(Yasutake Takahashi) , 内野英二 , 浅田埝 :
大阪大学“田径-99”队简介。 机器人世界杯足球锦标赛 1999 : 750-753 1998 [j1] 浅田埝 , 铃木昭二 , 高桥安介(Yasutake Takahashi) , 内野英二 , 中村Masateru Nakamura , 三岛千子 , 石冢浩 , 加藤文森 :
轨迹:RoboCup-97中型联赛世界Cochampion。 人工智能杂志。 19 ( 三 ) : 71-78 ( 1998 ) [第10条] 内野英二 , 浅田埝 , 细田浩(Koh Hosoda) :
基于视觉和行为的多Agent环境中行为获取的状态空间构建。 ICCV公司 1998 : 870-875 【c9】 内野英二 , 浅田埝 , Koh细田 :
基于状态向量估计的强化学习在多移动机器人环境中的合作行为捕获。 ICRA公司 1998 : 1558-1563年 【c8】 内野英二 , 浅田埝 , 细田浩(Koh Hosoda) :
基于视觉的学习型移动机器人环境复杂性控制。 ICRA公司 1998 : 1865-1870 【c7】 内野英二 , 中村Masateru Nakamura , 浅田埝 :
多移动机器人环境中合作行为获取的协同进化。 IROS公司 1998 : 425-430 【c6】 内野英二 , 中村Masateru Nakamura , 浅田埝 :
基于协同进化的多移动机器人协作行为获取。 机器人世界杯足球锦标赛 1998 : 273至285 【c5】 铃木Sho'ji , 加藤达素诺里 , 石冢浩 , 高桥安介(Yasutake Takahashi) , 内野英二 , 浅田埝 :
基于视觉的学习在RoboCup中的应用,一个具有全方位视觉系统的真实机器人和大阪大学“田径”队的描述。 机器人世界杯足球锦标赛 1998 : 316-325 1997 [c4] 内野英二 , 浅田埝 , 细田浩(Koh Hosoda) :
基于视觉的多智能体环境下移动机器人学习状态空间构建。 EWLR公司 1997 : 62-78 【c3】 铃木Sho'ji , 高桥安介(Yasutake Takahashi) , 内野英二 , 中村Masateru Nakamura , 三岛千子 , 石冢浩 , 加藤文森 , 浅田埝 :
基于视觉的机器人学习机器人杯:大阪大学“田径”。 机器人世界杯足球锦标赛 1997 : 305-319 1996 【c2】 内野英二 , 浅田埝 , 细田浩(Koh Hosoda) :
使用模块化强化学习的移动机器人行为协调。 IROS公司 1996 : 1329-1336年 1994 【c1】 浅田埝 , 内野英二 , 野田昭一 , 山田秀弥(Sukoya Tawaratsumida) , 细田浩(Koh Hosoda) :
基于视觉的强化学习获得的多种行为的协调。 IROS公司 1994 : 917-924