川崎秋美
人员信息
优化列表
2020年–今天
2024 [第11条] 川崎秋美 , 桥本和太郎 , 桥本嘉祖 以下为:
采用二进制反馈的长期安全强化学习。 AAAI公司 2024 以下为: 21656-21663 [第14条] 川崎秋美 , 桥本和太郎 , 桥本嘉祖 以下为:
采用二进制反馈的长期安全强化学习。 CoRR公司 abs/2401.03786 ( 2024 ) [i13] 川崎秋美 , 荀申 , 隋亚南 以下为:
安全强化学习中约束公式的调查。 CoRR公司 腹肌/2402.02025 ( 2024 ) [i12] 川崎秋美 , Thien Q.Tran先生 , 李佐藤 , Takumi Tanabe先生 , 秋本优平 以下为:
约束语言模型策略优化的逐步对齐。 CoRR公司 abs/2404.11049 ( 2024 ) 2023 [第10条] 川崎秋美 , 桥本和太郎 , 荀申 , 桥本嘉祖 以下为:
强化学习中的安全探索:广义公式和算法。 NeurIPS公司 2023 [i11] 桥本和太郎 , 桥本嘉祖 , 川崎秋美 , 荀申 , 岸田雅子 , 高井Shigemasa Takai 以下为:
基于车载传感器数据的控制屏障函数贝叶斯元学习。 CoRR公司 abs/2308.05306 ( 2023 ) [i10] 川崎秋美 , 桥本和太郎 , 荀申 , 桥本嘉祖 以下为:
强化学习中的安全探索:广义公式和算法。 CoRR公司 腹肌/2310.03225 ( 2023 ) [第九章] Keita Saito先生 , 川崎秋美 , Koki Wataoka公司 , 友海秋本惠 以下为:
大型语言模型偏好标注中的详细度偏差。 CoRR公司 abs/2310.10076 ( 2023 ) 2021 【c9】 大木村 , 苏巴吉特·乔杜里 , 小野正树 , Michiaki Tatsubori公司 , Don Joven Agravante先生 , 阿西姆·穆纳瓦尔 , 川崎秋美 , Ryosuke Kohita公司 , 亚历山大·格雷 以下为:
LOA:基于文本的互动游戏的逻辑优化动作。 ACL(演示) 2021 以下为: 227-231 【c8】 Ryosuke Kohita公司 , 川崎秋美 , 大木村 , 苏巴吉特·乔杜里 , Michiaki Tatsubori公司 , 阿西姆·穆纳瓦尔 以下为:
强化学习代理的基于语言的通用操作模板。 ACL/IJCNLP(调查结果) 2021 以下为: 2125-2139 【c7】 岩本郎(Ran Iwamoto) , Ryosuke Kohita公司 , 川崎秋美 以下为:
极性嵌入。 CoNLL公司 2021 以下为: 470-480 【c6】 大木村 , 小野正树 , 苏巴吉特·乔杜里 , Ryosuke Kohita公司 , 川崎秋美 , Don Joven Agravante先生 , Michiaki Tatsubori公司 , 阿西姆·穆纳瓦尔 , 亚历山大·格雷 以下为:
基于一阶逻辑的神经符号强化学习。 EMNLP(1) 2021 以下为: 3505-3511 【c5】 川崎秋美 , 云岳伟 , 延安穗 以下为:
基于局部广义线性函数逼近的安全策略优化。 NeurIPS公司 2021 以下为: 20759年至20771年 [i8] 大木村 , 苏巴吉特·乔杜里 , 川崎秋美 , Ryosuke Kohita公司 , 阿西姆·穆纳瓦尔 , Michiaki Tatsubori公司 , 亚历山大·格雷 以下为:
利用逻辑神经网络强化外部知识学习。 CoRR公司 abs/2103.02363 ( 2021 ) [i7] 大木村 , 小野正树 , 苏巴吉特·乔杜里 , Ryosuke Kohita公司 , 川崎秋美 , Don Joven Agravante先生 , Michiaki Tatsubori公司 , 阿西姆·穆纳瓦尔 , 亚历山大·格雷 以下为:
基于一阶逻辑的神经符号强化学习。 CoRR公司 abs/2110.10963 ( 2021 ) [i6] 木村大树 , 苏巴吉特·乔杜里 , 小野正树 , Michiaki Tatsubori公司 , Don Joven Agravante先生 , 阿西姆·穆纳瓦尔 , 川崎秋美 , Ryosuke Kohita公司 , 亚历山大·格雷 以下为:
LOA:基于文本的互动游戏的逻辑优化动作。 CoRR公司 abs/2110.10973 ( 2021 ) [i5] 川崎秋美 , 云岳伟 , 延安穗 以下为:
局部广义线性函数逼近的安全策略优化。 CoRR公司 abs/2111.04894 ( 2021 ) 2020 【c4】 Ryosuke Kohita公司 , 川崎秋美 , 杨钊 , Ryuki Tachibana公司 以下为:
基于编辑的无监督总结的Q-学习语言模型。 EMNLP(1) 2020 以下为: 470-484 【c3】 川崎秋美 , 延安穗 以下为:
约束马尔可夫决策过程中的安全强化学习。 ICML公司 2020 以下为: 9797-9806年 [i4] 川崎秋美 , 延安穗 以下为:
约束马尔可夫决策过程中的安全强化学习。 CoRR公司 abs/2008.06626 ( 2020 ) [i3] Ryosuke Kohita公司 , 川崎秋美 , 杨钊 , Ryuki Tachibana公司 以下为:
基于编辑的无监督总结的Q-学习语言模型。 CoRR公司 abs/2010.04379 ( 2020 )
2010 – 2019
2019 [c2] 川崎秋美 以下为:
使用多智能体对抗性强化学习的基于规则的智能体故障场景生成器及其在自动驾驶中的应用。 IJCAI公司 2019 以下为: 6006-6012 [i2] 川崎秋美 以下为:
使用多智能体对抗强化学习的基于规则的智能体故障场景生成器及其在自动驾驶中的应用。 CoRR公司 abs/1903.10654 ( 2019 ) 2018 【c1】 川崎秋美 , 延安穗 , 易松岳 , 小野正弘 以下为:
使用高斯过程安全探索和优化约束MDP。 AAAI公司 2018 以下为: 6548-6556 [i1] 川崎秋美 , Hiroshi Kajino先生 , 阿西姆·穆纳瓦尔 以下为:
基于时空高斯过程的时变安全马尔可夫决策过程的安全探索。 CoRR公司 abs/1809.04232 ( 2018 )