王宝祥 0001
人员信息
附属: 香港中文大学计算机科学与工程系,中国深圳 附属: 中国深圳人工智能与机器人学会 隶属关系(前): Borealis AI,加拿大阿联酋埃德蒙顿
其他同名人员
优化列表
![笔记](https://dblp.uni-trier.de/img/note-mark.dark.12x12.png)
2020年–今天
2024 [注2] 郭丹丹 , 王朝杰 , 王宝祥 , 查宏远 :
通过距离相关最小化学习公平表示。 IEEE传输。 神经网络学习。 系统。 35 ( 2 ) : 2139-2152 ( 2024 ) [公元26年] 徐嘉伟 , 程舟 , 张仪征 , 王宝祥 , 雷寒 :
快速策略传输的相对策略转换优化。 AAAI公司 2024 : 16164-16172 [公元25年] 京东 , 王宝祥 , 余耀良 :
(马尔可夫)势对策中的纳什均衡与无重保证收敛性。 AISTATS公司 2024 : 2044-2052 [i29] 京东 , 王宝祥 , 余耀良 :
(马尔可夫)势对策中的纳什均衡与无重保证收敛性。 CoRR公司 腹肌/2404.06516 ( 2024 ) 2023 [公元24年] 齐天 , Kun Kuang先生 , 刘福瑞 , 王宝祥 :
离线多智能体强化学习中的良好轨迹学习。 AAAI公司 2023 : 11672-11680 【c23】 李文浩 , 王宝祥 , 杨善超 , 查宏远 :
结构化行动空间的多样性策略优化。 美国原子能机构 2023 : 819-828 [公元22年] 方刚 , 解季泽 , 王宝祥 , 陶瑶 , 李帅 :
递减级联模型下的在线影响最大化。 美国原子能机构 2023 : 2197-2204 【c21】 京东 , 李深 , 许英根 , 王宝祥 :
基于非线性函数逼近的原-对偶Actor-Critic的有效收敛性。 美国原子能机构 2023 : 2640-2642 [公元20年] 赵灿哲 , 杨若凤 , 王宝祥 , 帅丽 :
具有Bandit反馈和未知转移的对抗线性混合马尔可夫决策过程的学习。 ICLR公司 2023 [第19条] 赵灿哲 , 严洁泽 , 京东 , 王宝祥 , 帅丽 :
DPMAC:用于协作多智能体强化学习的差异私有通信。 IJCAI公司 2023 : 4638-4646 [第18条] 李家辉 , Kun Kuang先生 , 王宝祥 , 李兴晨 , 费武(Fei Wu) , 肖军(Jun Xiao) , 龙晨 :
两个头胜过一个:高效多智能体强化学习的简单探索框架。 NeurIPS公司 2023 [第17条] 岳琳 , 李文浩 , 查宏远 , 王宝祥 :
多智能体强化学习中的信息设计。 NeurIPS公司 2023 [第16条] 赵灿哲 , 杨若凤 , 王宝祥 , 张学洲 , 帅丽 :
学习具有未知转移和全信息反馈的对抗性低秩马尔可夫决策过程。 NeurIPS公司 2023 [第15条] 赵灿哲 , 严洁泽 , 京东 , 王宝祥 , 帅丽 :
基于随机非凸强凹优化的差分私有时差学习。 WSDM公司 2023 : 985-993 [第28条] 方刚 , 张向成 , 王宝祥 , 帅丽 :
通过线性优化改进了线性对抗MDP的后悔界限。 CoRR公司 abs/2302.06834 ( 2023 ) [i27] 李文浩 , 王宝祥 , 杨善超 , 查宏远 :
结构化行动空间的多样性策略优化。 CoRR公司 abs/2302.11917 ( 2023 ) [i26] 岳琳 , 李文浩 , 查宏远 , 王宝祥 :
多智能体强化学习中的信息设计。 CoRR公司 abs/2305.06807 ( 2023 ) [i25] 李文浩 , 丹乔 , 王宝祥 , 王向峰 , 博金(Bo Jin) , 查宏远 :
多智能体强化学习中的语义对齐任务分解。 CoRR公司 abs/2305.10865 ( 2023 ) 【i24】 方刚 , 解季泽 , 王宝祥 , 陶瑶 , 帅丽 :
递减级联模型下的在线影响最大化。 CoRR公司 abs/2305.15428 ( 2023 ) [第23条] 李景伟 , 京东 , 王宝祥 , 张静钊 :
连续时间线性系统的对抗干扰在线控制。 CoRR公司 abs/2306.01952 ( 2023 ) [i22] 京东 , 吴靖宇 , 王思伟(Siwei Wang) , 王宝祥 , 魏晨 :
驯服指数行为集:在线拥塞游戏中的次线性后悔和快速收敛到纳什均衡。 CoRR公司 abs/2306.13673 ( 2023 ) [i21] 赵灿哲 , 严洁泽 , 京东 , 王宝祥 , 帅丽 :
DPMAC:用于协作多Agent强化学习的差分私有通信。 CoRR公司 abs/2308.09902 ( 2023 ) [i20] 赵灿哲 , 杨若凤 , 王宝祥 , 张学洲 , 帅丽 :
学习具有未知转移和全信息反馈的对手低秩马尔可夫决策过程。 CoRR公司 abs/2311.07876 ( 2023 ) 2022 [j1] 京东 , 周世济 , 王宝祥 , 韩照 :
监督渐进域自适应算法和理论。 事务处理。 机器。 学习。 物件。 2022 ( 2022 ) [第14条] 王坤(Kun Wang) , 京东 , 王宝祥 , 帅丽 :
差别隐私下的级联盗贼。 ICASSP公司 2022 : 4418-4422 [第13条] 李嘉惠 , 昆光 , 王宝祥 , 刘福瑞 , 龙晨 , 范长杰 , 费武(Fei Wu) , 肖军(Jun Xiao) :
用于多智能体强化学习的去模糊值分解。 ICML公司 2022 : 12843-12856 [第12条] 京东 , 李可 , 帅丽 , 王宝祥 :
战略操纵下的组合匪徒。 WSDM公司 2022 : 219-229 [i19] 赵灿哲 , 严洁泽 , 京东 , 王宝祥 , 帅丽 :
基于随机非凸强凹优化的差分私有时差学习。 CoRR公司 abs/2201.10447 ( 2022 ) [i18] 京东 , 李深 , 许英根 , 王宝祥 :
基于非线性函数逼近的原-对偶Actor-Critic的有效收敛性。 CoRR公司 abs/2202.13863 ( 2022 ) [i17] 京东 , 周世济 , 王宝祥 , 韩照 :
监督渐进域自适应算法和理论。 CoRR公司 abs/2204.11644 ( 2022 ) [i16] 京东 , 李景伟 , 王宝祥 , 张静钊 :
稳健MDP的在线策略优化。 CoRR公司 abs/2209.13841 ( 2022 ) 【i15】 齐天 , Kun Kuang先生 , 刘福瑞 , 王宝祥 :
离线多智能体强化学习中的良好轨迹学习。 CoRR公司 abs/2211.15612 ( 2022 ) 2021 [第11条] 李嘉惠 , Kun Kuang先生 , 王宝祥 , 刘福瑞 , 龙晨 , 费武(Fei Wu) , 肖军(Jun Xiao) :
Shapley多智能体强化学习反事实学分。 KDD公司 2021 : 934-942 [第14条] 京东 , 李可 , 帅丽 , 王宝祥 :
战略操纵下的组合匪徒。 CoRR公司 abs/2102.12722 ( 2021 ) [i13] 王坤(Kun Wang) , 京东 , 王宝祥 , 帅丽 , 朔绍 :
差异隐私下的级联盗贼。 CoRR公司 abs/2105.11126 ( 2021 ) [i12] 李嘉惠 , Kun Kuang先生 , 王宝祥 , 刘福瑞 , 龙晨 , 费武(Fei Wu) , 肖军(Jun Xiao) :
Shapley多智能体强化学习反事实学分。 CoRR公司 abs/2106.00285 ( 2021 ) [i11] 王宝祥 , 周焕建 :
k-子模函数的多线性扩张。 CoRR公司 abs/2107.07103 ( 2021 ) [i10] 京东 , 帅丽 , 王宝祥 :
激励未知人群。 CoRR公司 abs/2109.04226 ( 2021 ) [第九章] 杨善超 , 凯里马 , 王宝祥 , 查宏远 :
Edge Rewiring Goes Neural:通过策略梯度提高网络弹性。 CoRR公司 abs/2110.09035 ( 2021 ) [i8] 齐天 , Kun Kuang先生 , 王宝祥 , 刘福瑞 , 费武(Fei Wu) :
有限带宽下具有图形信息瓶颈的多智能体通信。 CoRR公司 abs/2112.10374 ( 2021 ) 2020 [第10条] 王宝祥 , 李帅 , 李佳进 , 小安·陈 :
赌徒的问题及其他。 ICLR公司 2020 【c9】 安德烈·博格达诺夫 , 王宝祥 :
学习和测试可变分区。 国际贸易中心 2020 : 37:1-37:22 [i7] 王宝祥 , 帅丽 , 李佳进 , 小安·陈 :
赌徒的问题及其他。 CoRR公司 abs/2001.0102 ( 2020 ) [i6] 安德烈·博格达诺夫 , 王宝祥 :
学习和测试可变分区。 CoRR公司 abs/2003.12990 ( 2020 )
2010 – 2019
2019 【c8】 王宝祥 , 孙同芳 , 先骏Sam Zheng :
超越输赢:用向量值反向强化学习建模人类动机和行为。 AIIDE公司 2019 : 195-201 【c7】 王宝祥 :
通过策略优化确定循环存在性。 国际JCAI 2019 : 3656-3662 【c6】 肯尼·杨 , 王宝祥 , 马修·泰勒 :
Metatrace Actor-Critic:通过Meta-gradient Descent进行在线步长调整,以实现强化学习控制。 国际JCAI 2019 : 4185-4191 【c5】 王宝祥 , 尼迪·赫格德 :
连续空间中带函数噪声的保私性Q学习。 NeurIPS公司 2019 : 11323-11333 [i5] 王宝祥 , 尼迪·赫格德 :
连续空间中带函数噪声的私人Q学习。 CoRR公司 abs/1901.10634 ( 2019 ) [i4] 王宝祥 :
通过策略优化确定循环存在性。 CoRR公司 abs/1905.13551 ( 2019 ) 2018 【c4】 李佳进 , 王宝祥 :
利用二阶优势信息进行政策优化。 ICLR(车间) 2018 【c3】 李佳进 , 王宝祥 , 张胜宇(Shengyu Zhang) :
利用二阶优势信息进行策略优化。 国际JCAI 2018 : 5038-5044 [i3] 李佳进 , 王宝祥 :
利用二阶优势信息进行策略优化。 CoRR公司 abs/1805.03586 ( 2018 ) [i2] 肯尼·杨 , 王宝祥 , 马修·泰勒 :
Metatrace:通过Meta-gradient Descent进行在线步长调整,以实现强化学习控制。 CoRR公司 abs/1805.04514 ( 2018 ) [i1] 王宝祥 , 孙同芳 , 先骏Sam Zheng :
超越输赢:使用反向强化学习建模人类动机和行为。 CoRR公司 abs/1807.00366 ( 2018 ) 2016 【c2】 帅丽 , 王宝祥 , 张胜宇(Shengyu Zhang) , 魏晨 :
上下文组合级联匪徒。 ICML公司 2016 : 1245-1253 2015 【c1】 高翠云 , 王宝祥 , 何品佳 , 朱杰明 , 周扬帆 , 迈克尔·R·吕 :
付费:通过跟踪用户对版本的评论,为开发人员确定应用程序问题的优先级。 ISSRE公司 2015 : 35-45
合著者索引
![](https://dblp.uni-trier.de/img/cog.dark.24x24.png)