保罗·翁
人员信息
其他同名人员
优化列表
![笔记](https://dblp.uni-trier.de/img/note-mark.dark.12x12.png)
2020年–今天
2024 [公元11年] 欧阳文斌 , 王毅森(Yisen Wang) , 保罗·翁 , 韩少辰 :
通过等方差和局部搜索在深度RL中推广TSP问题。 序列号计算。 科学。 5 ( 4 ) : 369 ( 2024 ) [i32] 韩芳 , 宋志浩 , 保罗·翁 , 宇通办 :
INViT:一个具有不变嵌套视图转换器的可推广路由问题求解器。 CoRR公司 abs/2402.02317 ( 2024 ) [i31] 姜朝晖 , 保罗·翁 :
用于数据高效强化学习的无监督显著补片选择。 CoRR公司 abs/2402.03329 ( 2024 ) [i30] 胡建树 , 姜云鹏 , 保罗·翁 :
重新审视深度强化学习中的数据增强。 CoRR公司 abs/2402.12181 ( 2024 ) 2023 [公元10年] 白瑞宾 , 陈希南(Xinan Chen) , 陈志龙 , 崔天祥 , Shuhui Gong公司 , 何文涛 , 小平江 , 欢劲 , Jin家欢 , 格雷厄姆·肯德尔 , 李嘉伟 , 郑璐 , 任剑锋 , 保罗·翁 , 宁雪 , 张华燕 :
车辆路径研究中的分析和机器学习。 国际生产研究杂志。 61 ( 1 ) : 4-30 ( 2023 ) [公元50年] 关宝玉 , 乌默·西迪克 , 保罗·翁 :
广义基尼福利函数的公平深度强化学习。 AAMAS研讨会 2023 : 3-29 [公元49年] 钱俊奇 , 保罗·翁 , 陈敏丹 :
在深度强化学习中优化全球绩效指标的学习奖励。 美国原子能机构 2023 : 1951-1960 [公元48年] 关宝玉 , 乌默·西迪克 , 保罗·翁 :
公平深度强化学习,优待。 ECAI公司 2023 : 2922-2929 [公元47年] Thi Quynh Trang Vo公司 , 穆拉德·巴尤 , 越南红颜 , 保罗·翁 :
用机器学习改进TSP分枝切割算法中的子图消除约束生成。 狮子 2023 : 537-551 [公元46年] 姜朝晖 , 保罗·翁 :
数据有效强化学习的无监督显著补丁选择。 ECML/PKDD(4) 2023 : 556-572 [i29] 钱俊奇 , 保罗·翁 , 陈敏丹 :
在深度强化学习中优化全球绩效指标的学习奖励。 CoRR公司 abs/2303.09027 ( 2023 ) [第28条] 蒂莫·考夫曼 , 保罗·翁 , 维克托·本斯 , 埃克·Hüllermier :
从人类反馈中强化学习的调查。 CoRR公司 abs/2312.14925 ( 2023 ) 2022 [公元45年] 陈敏丹 , 保罗·翁 :
CVaR-多武器匪徒的悔恨界限。 ACML公司 2022 : 974-989 [公元44年] 胡建树 , 保罗·翁 :
使用模型辅助无模型强化学习解决复杂操作任务。 CoRL公司 2022 : 1299-1308 [公元43年] 雷和军 , 保罗·翁 , 胡安·罗哈斯 , 关毅生 :
稀疏奖励强化学习中的Q-值规划。 ICIRA(1) 2022 : 603-614 [公元42年] 克莱尔·格拉诺伊斯 , 姜朝晖 , 冯雪宁 , 保罗·翁 , 马蒂厄·齐默尔 , 董丽(Dong Li) , 刘武龙 , 郝建业 :
神经符号层次规则归纳。 ICML公司 2022 : 7583-7615 [公元41年] Thi Quynh Trang Vo公司 , 穆拉德·巴尤 , 越南红颜 , 保罗·翁 :
有序加权平均线性化方法的比较研究。 RNDM公司 2022 : 1-7 2021 [公元9年] 黄建聪 , 胡安·罗哈斯 , 马蒂厄·齐默尔 , 吴洪民 , 关毅生 , 保罗·翁 :
自我监督机器人学习中的超参数自动调整。 IEEE机器人自动化。 莱特。 6 ( 2 ) : 邮编:3537-3544 ( 2021 ) [公元40年] 张建义 , 保罗·翁 :
安全分配强化学习。 DAI公司 2021 : 107至128 [公元39年] 马蒂厄·齐默尔 , 克莱尔·格拉诺伊斯 , 乌默·西迪克 , 保罗·翁 :
分散合作多Agent强化学习中的学习公平策略。 ICML公司 2021 : 12967-12978 [公元38年] 欧阳文斌 , 王毅森(Yisen Wang) , 韩少辰 , 浙江金 , 保罗·翁 :
改进基于深度强化学习的TSP求解器的泛化。 SSCI公司 2021 : 1至8 [i27] 白瑞宾 , 陈希南(Xinan Chen) , 陈志龙 , 崔天祥 , Shuhui Gong公司 , 何文涛 , 小平江 , 欢劲 , Jin家欢 , 格雷厄姆·肯德尔 , 李嘉伟 , 郑璐 , 任剑锋 , 保罗·翁 , 宁雪 , 张华燕 :
车辆路径研究中的分析和机器学习。 CoRR公司 abs/2102.10012 ( 2021 ) [i26] 马蒂厄·齐默尔 , 冯雪宁 , 克莱尔·格拉诺伊斯 , 姜朝晖 , 张建义 , 保罗·翁 , 郝建业 , 董丽(Dong Li) , 刘武龙 :
可微分逻辑机。 CoRR公司 abs/2102.11529 ( 2021 ) [i25] 张建义 , 保罗·翁 :
安全分配强化学习。 CoRR公司 abs/2102.13446 ( 2021 ) 【i24】 马志浩 , 于正庄 , 保罗·翁 , 汉克·汉奎·卓 , 董丽(Dong Li) , 刘武龙 , 郝建业 :
学习可解释的深层强化学习的符号规则。 CoRR公司 abs/2103.08228 ( 2021 ) [第23条] 欧阳文斌 , 王毅森(Yisen Wang) , 韩少晨 , 浙江金 , 保罗·翁 :
改进基于深度强化学习的TSP求解器的泛化。 CoRR公司 abs/2110.02843 ( 2021 ) [i22] 欧阳文斌 , 王毅森(Yisen Wang) , 保罗·翁 , 韩少辰 :
通过等方差和局部搜索在深度RL中推广TSP问题。 CoRR公司 abs/2110.03595 ( 2021 ) 【i21】 克莱尔·格拉诺伊斯 , 保罗·翁 , 马蒂厄·齐默尔 , 董丽(Dong Li) , 杨天培 , 郝建业 , 刘武隆 :
可解释强化学习研究综述。 CoRR公司 abs/2112.13112 ( 2021 ) [i20] 克莱尔·格拉诺伊斯 , 冯雪宁 , 姜朝晖 , 保罗·翁 , 马蒂厄·齐默尔 , 董丽(Dong Li) , 刘武龙 :
神经符号层次规则归纳。 CoRR公司 abs/2112.13418 ( 2021 ) 2020 [j8] 林一炯 , 黄建聪 , 马蒂厄·齐默尔 , 关毅生 , 胡安·罗哈斯 , 保罗·翁 :
不变变换经验回放:用于深度强化学习的数据增强。 IEEE机器人自动化。 莱特。 5 ( 4 ) : 6615-6622 ( 2020 ) [公元37年] 尹兆东 , 赵瑜 , 保罗·翁 , 艾哈迈德·毛斯塔法 , 慧成 , 葛宏伟 :
机器人控制的分解深度强化学习。 美国原子能机构 2020 : 1834-1836 [公元36年] 乌默·西迪克 , 保罗·翁 , 马蒂厄·齐默尔 :
在多目标(深度)强化学习中学习公平政策,奖励平均和折扣。 ICML公司 2020 : 8905-8915 [i19] 奥利维尔缓冲器 , 奥利维尔·皮特金 , 保罗·翁 :
强化学习。 CoRR公司 abs/2005.14419 ( 2020 ) [i18] 乌默·西迪克 , 保罗·翁 , 马蒂厄·齐默尔 :
利用平均和折扣奖励学习多目标(深度)强化学习中的公平政策。 CoRR公司 abs/2008.07773 ( 2020 ) [i17] 黄建聪 , 胡安·罗哈斯 , 马蒂厄·齐默尔 , 吴洪民 , 关毅生 , 保罗·翁 :
自我监督机器人学习中的超参数自动调整。 CoRR公司 abs/2010.08252 ( 2020 ) [i16] 马蒂厄·齐默尔 , 乌默·西迪克 , 保罗·翁 :
分散合作多Agent强化学习中的学习公平策略。 CoRR公司 abs/2012.09421 ( 2020 )
2010 – 2019
2019 [公元35年] 马蒂厄·齐默尔 , 保罗·翁 :
一种有效的强化学习算法,用于学习连续域中的确定性策略。 DAI公司 2019 : 4:1-4:7 [公元34年] 马蒂厄·齐默尔 , 保罗·翁 :
利用优势函数的符号学习连续域中的确定性策略。 国际JCAI 2019 : 4496-4502 [公元33年] 吴启天 , 高一瑞 , 高晓峰 , 保罗·翁 , 陈桂海 :
连接序贯推荐和信息传播的双重序贯预测模型。 KDD公司 2019 : 447至457 [公元32年] 吴启天 , 张恒瑞 , 高晓峰 , 彭荷 , 保罗·翁 , 韩高 , 陈桂海 :
推荐系统中多重社会效应深层潜在表征的双图注意网络。 万维网 2019 : 2091-2102 【i15】 吴启天 , 张恒瑞 , 高晓峰 , 彭荷 , 保罗·翁 , 韩高 , 陈桂海 :
推荐系统中多重社会效应深层潜在表征的双图注意网络。 CoRR公司 abs/1903.10433 ( 2019 ) [第14条] 马蒂厄·齐默尔 , 保罗·翁 :
利用优势函数的符号学习连续域中的确定性策略。 CoRR公司 abs/1906.04556 ( 2019 ) [i13] 保罗·翁 :
强化学习中的公平。 CoRR公司 腹肌/1907.10323 ( 2019 ) [i12] 林一炯 , 黄建聪 , 马蒂厄·齐默尔 , 胡安·罗哈斯 , 保罗·翁 :
不变变换体验重播。 CoRR公司 abs/1909.10707 ( 2019 ) [i11] 林一炯 , 黄建聪 , 马蒂厄·齐默 , 胡安·罗哈斯 , 保罗·翁 :
通过数据增强实现强化学习的更高样本效率。 CoRR公司 abs/1910.09959 ( 2019 ) 2018 [j7] 哈迪·阿米尼 , 保罗·麦克纳马拉 , 保罗·翁 , 奥昆·卡拉巴索格鲁 , 徐银亮 :
基于Dantzig-Wolfe分解的分层电动汽车充电聚合器策略。 IEEE设计。 测试 35 ( 6 ) : 25-36 ( 2018 ) [公元31年] 吴启天 , 杨朝琦 , 张恒瑞 , 高晓峰 , 保罗·翁 , 陈桂海 :
统一特征驱动和点过程视角的对抗训练模型,用于事件流行度预测。 CIKM公司 2018 : 517-526 [公元30年] 伊曼纽尔·哈杜克斯 , 奥雷利·贝尼尔 , 尼古拉斯·莫代特 , 保罗·翁 :
用动态辩论行为调解辩论。 COMMA公司 2018 : 249-256年 [公元29年] 马克·特拉 , 保罗·翁 :
用基于参考点的决策模型表示相对可视属性。 ICPR公司 2018 : 435至440 [i10] 越南红颜 , 保罗·翁 :
公平组合优化问题的高效原对偶算法。 CoRR公司 abs/1801.07544 ( 2018 ) 2017 [j6] 保罗·翁 , 奥利维尔·斯潘贾德 :
函数报酬马尔可夫决策过程:理论与应用。 国际艺术杂志。 因特尔。 工具 26 ( 三 ) : 1760014:1-1760014:20 ( 2017 ) [公元28年] 雨果·吉尔伯特 , 保罗·翁 , 严旭 :
基于偏好的马尔可夫决策过程中分位数的优化。 AAAI公司 2017 : 3569-3575 [公元27年] 越南红颜 , 保罗·翁 :
公平组合优化问题的高效原对偶算法。 可可豆(1) 2017 : 324-339 [公元26年] 罗贝特·布萨·费科特 , Balázs Szörényi , 保罗·翁 , 谢·曼诺 :
多目标匪徒:优化广义基尼指数。 ICML公司 2017 : 625-634 [第九章] 李大建 , 保罗·翁 , 奥尔昆·卡拉巴索格鲁 :
寻找具有时间相关随机成本的风险规避最短路径。 CoRR公司 abs/1701.00642 ( 2017 ) [i8] 保罗·翁 :
从基于偏好到多目标顺序决策。 CoRR公司 腹肌/1701.00646 ( 2017 ) [i7] 罗贝特·布萨·费科特 , Balázs Szörényi , 保罗·翁 , 谢·曼诺 :
多目标匪徒:优化广义基尼指数。 CoRR公司 abs/1706.04933 ( 2017 ) [i6] 保罗·翁 , 泽奇秋 , 约翰·A·W·B·科斯坦佐 , 小七阴 , 布鲁诺·西诺波利 :
稳健数据中心控制的最佳阈值策略。 CoRR公司 abs/1708.07036 ( 2017 ) 2016 [公元25年] 李大建 , 保罗·翁 , 奥昆·卡拉巴索格鲁 :
寻找具有时间依赖随机成本的风险规避最短路径。 MIWAI公司 2016 : 第99页至第111页 [公元24年] 保罗·翁 :
从基于偏好到多目标顺序决策。 MIWAI公司 2016 : 231-242 【c23】 雨果·吉尔伯特 , 布鲁诺·扎努蒂尼 , 保罗·翁 , 保罗·维亚皮亚尼 , 埃丝特·尼卡 :
使用斜对称双线性实用程序的无模型强化学习。 阿拉伯联合酋长国 2016 [i5] 雨果·吉尔伯特 , 保罗·翁 :
分位数强化学习。 CoRR公司 腹肌/1611.00862 ( 2016 ) [i4] 雨果·吉尔伯特 , 保罗·翁 , 严旭 :
基于偏好的马尔可夫决策过程中的分位数优化。 CoRR公司 abs/1612.00094 ( 2016 ) 2015 [j5] 斯特凡诺·阿尔布雷希特 , 安德烈·达·莫塔·萨尔斯·巴雷托 , 大流士·布拉齐乌纳斯 , 大卫·巴克利奇 , Heriberto Cuayáhuitl先生 , 尼娜·德特利夫斯 , 马库斯·恩德斯 , 阿米尔·马苏德·法拉曼德 , 马克·福克斯 , 卢茨·弗罗姆伯格 , 萨姆·甘兹弗里德 , 尤兰达·吉尔 , 塞巴斯蒂安·吉列特 , 劳伦斯·亨特 , 阿纳夫·贾拉 , 克里斯蒂安·科斯廷 , 乔治·迪米特里·科尼达里斯 , 弗雷迪·莱库埃 , Sheila A.McIlraith女士 , 斯里拉姆·纳塔拉扬 , 泽纳布·努里安 , 大卫·普尔 , 雷米·隆法德 , 亚历山德罗·萨菲奥蒂 , 阿拉什·沙班·内贾德 , 比普拉夫·斯利瓦斯塔瓦 , 杰拉尔德·泰萨罗 , 罗萨里奥·乌塞达·索萨 , 盖·范登·布勒克 , 马蒂恩·范·奥特罗 , 拜伦·C·华莱士 , 保罗·翁 , 詹娜·维恩斯 , 张杰(音译) :
2014年AAAI会议研讨会报告。 人工智能杂志。 36 ( 1 ) : 87-98 ( 2015 ) [公元22年] 雨果·吉尔伯特 , 奥利维尔·斯潘贾德 , 保罗·维亚皮亚尼 , 保罗·翁 :
减少交互式值迭代中的查询数量。 ADT公司 2015 : 139-152 【c21】 Balázs Szörényi , 罗贝特·布萨·费科特 , 保罗·翁 , 埃克·Hüllermier :
定性多武器匪徒:基于分位数的方法。 ICML公司 2015 : 1660-1668 [公元20年] 雨果·吉尔伯特 , 奥利维尔·斯潘贾德 , 保罗·维亚皮亚尼 , 保罗·翁 :
用斜对称双线性效用函数求解MDP。 国际JCAI 2015 : 1989-1995 [第19条] 伊曼纽尔·哈杜克斯 , 奥雷利·贝尼尔 , 尼古拉斯·莫代特 , 保罗·翁 , 安东尼·亨特 :
基于马尔可夫决策模型的概率论证优化。 国际JCAI 2015 : 2004-2010 2014 【j4】 罗贝特·布萨·费科特 , Balázs Szörényi , 保罗·翁 , 程伟伟 , 埃克·Hüllermier :
基于偏好的强化学习:使用基于偏好的竞赛算法进行进化直接策略搜索。 机器。 学习。 97 ( 三 ) : 327-351 ( 2014 ) [第18条] 大流士·布拉齐乌纳斯 , 马库斯·恩德斯 , 克里斯汀·布伦特·维纳布尔 , 保罗·翁 , 李荣霞 :
前言。 AAAI的MPREF 2014 [第17条] 伊曼纽尔·哈杜克斯 , 奥雷利·贝尼尔 , 保罗·翁 :
求解Hidden-Semi-Markov-Mode Markov决策问题。 SUM(总和) 2014 : 176-189 [电子2] 巴西大流士 , 马库斯·恩德斯 , 克里斯汀·布伦特·维纳布尔 , 保罗·翁 , 李荣霞 :
优惠处理进展多学科研讨会,2014年AAAI研讨会论文, AAAI的MPREF 2014年7月28日,加拿大魁北克市。 AAAI技术报告 WS-14-10, AAAI出版社 2014 ,国际标准图书编号 978-1-57735-671-4 [目录] [电子1] M.Narasimha Murty先生 , 何祥建 , Chillarige Raghavendra Rao公司 , 保罗·翁 :
人工智能的多学科趋势——第八届国际研讨会,MIWAI 2014,印度班加罗尔,2014年12月8日至10日。 诉讼程序。 计算机科学课堂讲稿 8875, 施普林格 2014 ,国际标准图书编号 978-3-319-13364-5 [目录] 2013 [j3] Wlodzimierz Ogryczak先生 , 帕特里斯·佩尼 , 保罗·翁 :
多目标马尔可夫决策过程的折衷规划方法。 国际信息技术杂志。 Decis公司。 制造商。 12 ( 5 ) : 1021-1054年 ( 2013 ) [第16条] 帕特里斯·佩尼 , 保罗·翁 , 朱迪·戈德史密斯 , 约西亚·汉纳 :
多目标马尔可夫决策过程中洛伦兹最优解的逼近。 AAAI(最新发展) 2013 [第15条] 罗贝特·布萨·费科特 , Balázs Szörényi , 程伟伟(Weiwei Cheng) , 保罗·翁 , 埃克·Hüllermier :
基于噪声偏好自适应采样的Top-k选择。 ICML(3) 2013 : 1094-1102 [第14条] 保罗·翁 , 布鲁诺·扎努蒂尼 :
报酬未知的马尔可夫决策过程的交互式值迭代。 国际JCAI 2013 : 2415-2421 [第13条] 奥利维尔·斯潘贾德 , 保罗·翁 :
具有函数报酬的马尔可夫决策过程。 MIWAI公司 2013 : 269至280 [第12条] 保罗·翁 :
广义定性效用的公理基础。 MIWAI公司 2013 : 305年至316年 [第11条] 帕特里斯·佩尼 , 保罗·翁 , 朱迪·戈德史密斯 , 约西亚·汉纳 :
多目标马尔可夫决策过程中洛伦兹最优解的逼近。 阿拉伯联合酋长国 2013 [i3] 帕特里斯·佩尼 , 保罗·翁 , 朱迪·戈德史密斯 , 约西亚·汉纳 :
多目标马尔可夫决策过程中洛伦兹最优解的逼近。 CoRR公司 abs/1309.6856 ( 2013 ) 2012 [第10条] 保罗·翁 :
马尔可夫决策过程的序贯决策模型。 ECAI公司 2012 : 828-833 【c9】 Wlodzimierz Ogryczak先生 , 帕特里斯·佩尼 , 保罗·翁 :
WOWA排名逆转。 MDAI公司 2012 : 66-77 [i2] 保罗·翁 :
一类广义期望效用的公理基础:代数期望效用。 CoRR公司 abs/1206.6867 ( 2012 ) [i1] 保罗·翁 :
可能性不确定性下的定性决策:朝着更具辨别力的标准发展。 CoRR公司 abs/1207.1425 ( 2012 ) 2011 【c8】 保罗·翁 :
具有顺序报酬的马尔可夫决策过程:基于参考点的偏好。 ICAPS公司 2011 【c7】 查尔斯·德洛特 , 奥利维尔·斯潘贾德 , 保罗·翁 :
基于成对支配关系的权重约束委员会选择。 ADT公司 2011 : 28-41 【c6】 Wlodzimierz Ogryczak先生 , 帕特里斯·佩尼 , 保罗·翁 :
多目标马尔可夫决策过程中有序加权回归的最小化。 ADT公司 2011 : 190-204 2010 【c5】 帕特里斯·佩尼 , 保罗·翁 :
关于在多目标马尔可夫决策过程中寻找折衷解。 ECAI公司 2010 : 969-970
2000 – 2009
2007 [注2] 保罗·翁 :
条件限制了规划的可接受性,动态限制了决策的可能性。 Rev.d‘Intelligence人工制品。 21 ( 1 ) : 129-143 ( 2007 ) 2006 [j1] 保罗·翁 :
非古典的马尔科夫决策过程。 《情报艺术评论》。 20 ( 2-3 ) : 411-432 ( 2006 ) 【c4】 保罗·翁 :
二元可能性效用定性决策理论中的公理方法。 ECAI公司 2006 : 467-471 【c3】 保罗·翁 :
一类广义期望效用的公理基础:代数期望效用。 阿拉伯联合酋长国 2006 2005 【c2】 帕特里斯·佩尼 , 奥利维尔·斯潘贾德 , 保罗·翁 :
代数马尔可夫决策过程。 国际JCAI 2005 : 1372-1377 【c1】 保罗·翁 :
可能性不确定性下的定性决策:走向更多的判别标准。 阿拉伯联合酋长国 2005 : 615-622年
合著者索引
![](https://dblp.uni-trier.de/img/cog.dark.24x24.png)