马雷克·佩特里克
人员信息
SPARQL查询
优化列表
2020年–今天
2024 [公元48年] 马雷克·佩特里克 , 盖伊·坦尼霍尔茨 , 穆罕默德·加瓦姆扎德 :
离线盗贼中的贝叶斯后悔最小化。 ICML公司 2024 [i35] 艾丽塔·A·洛博 , 哈维尼特·辛格 , 马雷克·佩特里克 , 辛西娅·鲁丁 , Himabindu Lakkaraju公司 :
非政策政策评估方法上的数据中毒攻击。 CoRR公司 abs/2404.04714 ( 2024 ) [i34] 艾丽塔·A·洛博 , 赛勒斯表亲 , 耶尔·齐克 , 马雷克·佩特里克 :
离线强化学习中的百分位标准优化。 CoRR公司 abs/2404.05055 ( 2024 ) [i33] 苏希宏(Xihong Su) , 马雷克·佩特里克 :
通过坐标上升和动态规划求解多模型MDP。 CoRR公司 腹肌/2407.06329 ( 2024 ) 2023 [公元47年] 贾林浩 , 马雷克·佩特里克 , 穆罕默德·加瓦姆扎德 :
贴现MDP中的熵风险优化。 AISTATS公司 2023 : 47-76 [公元46年] 王秋浩 , 金鹏浩 , 马雷克·佩特里克 :
具有全局收敛保证的稳健MDP中的策略梯度。 ICML公司 2023 : 35763-35797 [公元45年] 赛勒斯表亲 , 艾丽塔·A·洛博 , 马雷克·佩特里克 , 耶尔·齐克 :
离线强化学习中的百分位标准优化。 NeurIPS公司 2023 [公元44年] 朱利安·格兰·克莱门特 , 马雷克·佩特里克 :
通过Blackwell折扣因子将BlackwellandAverage最优值降低为折扣MDP。 NeurIPS公司 2023 [公元43年] 贾林浩 , 埃里克·德拉吉 , 穆罕默德·加瓦姆扎德 , 马雷克·佩特里克 :
关于马尔可夫决策过程中静态风险测度的动态规划分解。 NeurIPS公司 2023 [公元42年] 苏希宏(Xihong Su) , 马雷克·佩特里克 :
通过坐标上升和动态规划求解多模型MDP。 阿联酋 2023 : 2016-2025 [i32] 朱利安·格兰·克莱门特 , 马雷克·佩特里克 :
通过Blackwell折扣因子将BlackwellandAverage最优值降低为折扣MDP。 CoRR公司 abs/2302.00036 ( 2023 ) [i31] 贾林浩 , 埃里克·德拉吉 , 穆罕默德·加瓦姆扎德 , 马雷克·佩特里克 :
静态风险度量的动态程序分解。 CoRR公司 abs/2304.12477 ( 2023 ) [i30] 穆罕默德·加瓦姆扎德 , 马雷克·佩特里克 , 盖伊·坦尼霍尔茨 :
离线盗贼贝叶斯后悔最小化的凸松弛方法。 CoRR公司 abs/2306.01237 ( 2023 ) [i29] 朱利安·格兰·克莱门特 , 马雷克·佩特里克 , 尼古拉斯·维勒 :
超越折现回报:具有平均和Blackwell最优的稳健马尔可夫决策过程。 CoRR公司 abs/2312.03618 ( 2023 ) 2022 [公元41年] 金鹏浩 , 马雷克·佩特里克 , 沃尔夫拉姆·维斯曼 :
稳健的$\phi$-分歧MDP。 NeurIPS公司 2022 [公元40年] 艾丽塔·A·洛博 , 哈维尼特·辛格 , 马雷克·佩特里克 , 辛西娅·鲁丁 , Himabindu Lakkaraju公司 :
数据中毒攻击对非政策性政策评估方法的影响。 阿联酋 2022 : 1264-1274 [第28条] 金鹏浩 , 马雷克·佩特里克 , 沃尔夫拉姆·维斯曼 :
强大的功率因数发散MDP。 CoRR公司 abs/2205.14202 ( 2022 ) [i27] 贾林浩 , 马雷克·佩特里克 , 穆罕默德·加瓦姆扎德 , 雷祖尔·哈桑·拉塞尔 :
RASR:具有EVaR和Entropic风险的风险规避型软件稳健MDP。 CoRR公司 abs/2209.04067 ( 2022 ) [i26] 朱利安·格兰·克莱门特 , 马雷克·佩特里克 :
关于鲁棒马尔可夫决策过程的凸形式。 CoRR公司 abs/2209.10187 ( 2022 ) [i25] 王秋浩 , 金鹏浩 , 马雷克·佩特里克 :
稳健MDP中策略梯度的收敛性。 CoRR公司 腹肌/2212.10439 ( 2022 ) 2021 [公元9年] 金鹏浩 , 马雷克·佩特里克 , 沃尔夫拉姆·维塞曼 :
L1-Robust-Markov决策过程的部分策略迭代。 J.马赫。 学习。 物件。 22 : 275:1-275:46 ( 2021 ) [公元39年] 巴赫拉姆·贝扎迪安 , 雷祖尔·哈桑·拉塞尔 , 马雷克·佩特里克 , 金鹏浩 :
使用稳健MDP优化百分位标准。 AISTATS公司 2021 : 1009-1017 [公元38年] 扎伊娜·贾维德 , 丹尼尔·布朗 , 萨特维克·夏尔马 , Jerry Zhu(杰瑞·朱) , 阿什温·巴拉克里什纳 , 马雷克·佩特里克 , 安卡·D·德拉甘 , 肯·戈德伯格 :
用于模拟学习的策略梯度贝叶斯稳健优化。 ICML公司 2021 : 4785-4796 [公元37年] 穆斯塔法·侯赛因 , 布伦丹·克劳 , 麦迪逊·克拉克·特纳 , 保罗·盖塞尔 , 马雷克·佩特里克 , Momotaz Begum公司 :
具有对抗性演示检测的稳健行为克隆。 IROS公司 2021 : 7858-7864 [公元36年] 巴赫拉姆·贝扎迪安 , 马雷克·佩特里克 , 金鹏浩 :
$L_infty$约束S-矩形鲁棒MDP的快速算法。 NeurIPS公司 2021 : 25982-25992 【i24】 穆斯塔法·侯赛因 , 布伦丹·克劳 , 马雷克·佩特里克 , Momotaz Begum公司 :
稳健的最大熵行为克隆。 CoRR公司 腹肌/2101.01251 ( 2021 ) [第23条] 扎伊娜·贾维德 , 丹尼尔·布朗 , 萨特维克·夏尔马 , Jerry Zhu(杰瑞·朱) , 阿什温·巴拉克里什纳 , 马雷克·佩特里克 , 安卡·D·德拉甘 , 肯·戈德伯格 :
用于模拟学习的策略梯度贝叶斯稳健优化。 CoRR公司 abs/2106.06499 ( 2021 ) 2020 [公元35年] 马克西米利安·菲克特 , 天一谷 , 利昂哈德·斯塔特 , 惠勒·鲁姆 , 约格·霍夫曼 , 马雷克·佩特里克 :
我们可以相信的信念:在实时搜索中用数据取代假设。 AAAI公司 2020 : 9827-9834 [公元34年] 丹尼尔·布朗 , 斯科特·尼库姆 , 马雷克·佩特里克 :
用于模仿学习的贝叶斯鲁棒优化。 NeurIPS公司 2020 [i22] 刘波(Bo Liu) , 伊恩·杰普 , 穆罕默德·加瓦姆扎德 , 吉柳(Ji Liu) , 斯里达尔·马哈德万 , 马雷克·佩特里克 :
近似梯度时间差分学习:具有多项式样本复杂性的稳定强化学习。 CoRR公司 abs/2006.03976 ( 2020 ) 【i21】 金鹏浩 , 马雷克·佩特里克 , 沃尔夫拉姆·维斯曼 :
L1-Robust-Markov决策过程的部分策略迭代。 CoRR公司 abs/2006.09484 ( 2020 ) [i20] 雷祖尔·哈桑·拉塞尔 , 巴赫拉姆·贝扎迪安 , 马雷克·佩特里克 :
熵风险约束的软约束策略优化。 CoRR公司 abs/2006.11679 ( 2020 ) [i19] 刘波(Bo Liu) , 吉柳(Ji Liu) , 穆罕默德·加瓦姆扎德 , 斯里达尔·马哈德万 , 马雷克·佩特里克 :
GTD算法的有限样本分析。 CoRR公司 腹肌/2006.14364 ( 2020 ) [i18] 丹尼尔·布朗 , 斯科特·尼库姆 , 马雷克·佩特里克 :
用于模拟学习的贝叶斯稳健优化。 CoRR公司 abs/2007.12315 ( 2020 ) [i17] 艾丽塔·A·洛博 , 穆罕默德·加瓦姆扎德 , 马雷克·佩特里克 :
用于处理模型错误规范的软拒绝算法。 CoRR公司 abs/2011.14495 ( 2020 )
2010 – 2019
2019 [公元33年] 安德鲁·米切尔 , 惠勒·鲁姆 , 费比安·斯潘尼奥 , 约格·霍夫曼 , 马雷克·佩特里克 :
实时计划作为不确定性下的决策。 AAAI公司 2019 : 2338-2345 [公元32年] 巴赫拉姆·贝扎迪安 , 索海尔·加拉塔佩赫 , 马雷克·佩特里克 :
线性值函数逼近的快速特征选择。 ICAPS公司 2019 : 601-609 [公元31年] 穆斯塔法·侯赛因 , 莫莫塔兹·贝古姆 , 马雷克·佩特里克 :
演示交互动力学的逆强化学习。 ICRA公司 2019 : 2267-2274 [公元30年] 马雷克·佩特里克 , 雷祖尔·哈桑·拉塞尔 :
超越置信域:稳健MDP的紧贝叶斯模糊集。 NeurIPS公司 2019 : 7047-7056 [i16] 马雷克·佩特里克 , 雷祖尔·哈桑·拉塞尔 :
超越置信域:稳健MDP的紧贝叶斯模糊集。 CoRR公司 abs/1902.07605 ( 2019 ) 【i15】 雷祖尔·哈桑·拉塞尔 , 天一谷 , 马雷克·佩特里克 :
使用紧贝叶斯似然集进行稳健探索。 CoRR公司 abs/1904.08528 ( 2019 ) [第14条] 巴赫拉姆·贝扎迪安 , 雷祖尔·哈桑·拉塞尔 , 马雷克·佩特里克 :
高置信策略优化:在稳健MDP中重塑模糊集。 CoRR公司 腹肌/1910.10786 ( 2019 ) [i13] 雷祖尔·哈桑·拉塞尔 , 巴赫拉姆·贝扎迪安 , 马雷克·佩特里克 :
稳健MDP的加权模糊集优化。 CoRR公司 abs/1912.02696 ( 2019 ) 2018 [j8] 刘波(Bo Liu) , 伊恩·杰普 , 穆罕默德·加瓦姆扎德 , 吉柳(Ji Liu) , 斯里达尔·马哈德万 , 马雷克·佩特里克 :
近似梯度时间差分学习:具有多项式样本复杂性的稳定强化学习。 J.阿蒂夫。 智力。 物件。 63 : 461-494 ( 2018 ) [公元29年] 金鹏浩 , 马雷克·佩特里克 , 沃尔夫拉姆·维斯曼 :
稳健MDP的快速Bellman更新。 ICML公司 2018 : 1984-1993 [公元28年] 巴赫拉姆·贝扎迪安 , 马雷克·佩特里克 :
用于强化学习的低秩特征选择。 ISAIM公司 2018 [公元27年] 安德烈亚·蒂林佐尼 , 马雷克·佩特里克 , 陈祥丽 , 布莱恩·齐巴特 :
稳健马尔可夫决策过程的策略条件不确定性集。 NeurIPS公司 2018 : 8953-8963 [i12] 亚历山大·布朗 , 马雷克·佩特里克 :
用集成方法进行可解释强化学习。 CoRR公司 abs/1809.06995 ( 2018 ) [i11] 雷祖尔·哈桑·拉塞尔 , 马雷克·佩特里克 :
稳健MDP的紧贝叶斯模糊集。 CoRR公司 abs/1811.06512 ( 2018 ) 2017 [公元26年] 斯蒂芬·贝克尔 , 潘卡瓦斯 , 马雷克·佩特里克 :
稳健的部分压缩最小二乘法。 AAAI公司 2017 : 1742-1748 [公元25年] 本斯·塞尔纳 , 马雷克·佩特里克 , 雷祖尔·哈桑·拉塞尔 , 惠勒朗姆酒 :
在具有结构化先验的多武器匪徒中进行价值导向探索。 阿联酋 2017 [公元24年] 亚当·埃尔马彻布 , 瑞恩·麦克内利斯 , Sechan哦 , 马雷克·佩特里克 :
使用决策树解决上下文Bandit问题的实用方法。 阿联酋 2017 [i10] 本斯·塞尔纳 , 马雷克·佩特里克 , 雷祖尔·哈桑·拉塞尔 , 惠勒·鲁姆 :
在具有结构化先验的多武器匪徒中进行价值导向探索。 CoRR公司 abs/1704.03926 ( 2017 ) [第九章] 亚当·N·埃尔马赫图布 , 瑞恩·麦克内利斯 , 塞尚·欧 , 马雷克·佩特里克 :
使用决策树解决上下文Bandit问题的实用方法。 CoRR公司 abs/1706.04687 ( 2017 ) 2016 [c23] 刘波(Bo Liu) , 吉柳(Ji Liu) , 穆罕默德·加瓦姆扎德 , 斯里达尔·马哈德万 , 马雷克·佩特里克 :
近似梯度时间差分学习算法。 国际JCAI 2016 : 4195-4199 [公元22年] 穆罕默德·加瓦姆扎德 , 马雷克·佩特里克 , 周殷兰 :
通过最小化稳健的基线后悔改进安全策略。 NIPS公司 2016 : 2298-2306 【c21】 马雷克·佩特里克 , 罗尼·卢斯 :
动态产品推荐的可解释政策。 阿联酋 2016 [i8] 阿米特·杜兰达尔 , 塞尚·欧 , 马雷克·佩特里克 :
通过保损转换构建一个可解释的推荐者。 CoRR公司 abs/1606.05819 ( 2016 ) 2015 [j7] 丹·安德烈·安库 , 马雷克·佩特里克 , Dharmashankar Subramanian公司 :
动态风险度量的严格近似。 数学。 操作。 物件。 40 ( 三 ) : 655-682 ( 2015 ) [公元20年] 刘波(Bo Liu) , 吉柳(Ji Liu) , 穆罕默德·加瓦姆扎德 , 斯里达尔·马哈德万 , 马雷克·佩特里克 :
近似梯度TD算法的有限样本分析。 阿联酋 2015 : 504-513 [第19条] 马雷克·佩特里克 , 吴晓剑 :
可降解电池储能能量套利的最优阈值控制。 阿联酋 2015 : 692-701 [i7] 斯蒂芬·贝克尔 , 潘卡瓦斯 , 马雷克·佩特里克 , 卡提基安·内塞桑·拉马默西(Karthikeyan Natesan Ramamurthy) :
稳健的部分压缩最小二乘法。 CoRR公司 abs/1510.04905 ( 2015 ) 2014 [j6] 斯蒂芬·巴克利 , 马库斯·埃特尔 , 普拉提克·贾因 , 罗尼·卢斯 , 马雷克·佩特里克 , 拉杰什·库马尔·拉维 , 奇特拉·文卡特拉马尼 :
用于个性化客户参与的社交媒体和客户行为分析。 IBM J.研究开发。 58 ( 5/6 ) ( 2014 ) [j5] 阿米特·杜兰达尔 , 马雷克·佩特里克 :
使用多个特征添加更新广义线性模型的有效且准确的方法。 J.马赫。 学习。 物件。 15 ( 1 ) : 2607-2627 ( 2014 ) [第18条] 马雷克·佩特里克 , Dharmashankar Subramanian公司 :
RAAM:强化学习中近似聚合MDP的稳健性优势。 NIPS公司 2014 : 1979-1987 [i6] 马雷克·佩特里克 , 什洛莫·齐尔伯斯坦 :
多智能体规划的双线性规划方法。 CoRR公司 abs/1401.3461 ( 2014 ) 2013 [第17条] 马雷克·佩特里克 , Dharmashankar Subramanian公司 , Janusz Marecki公司 :
连续概率调制约束马尔可夫决策过程的求解方法。 阿联酋 2013 [第16条] 弗朗西斯科·巴拉奥纳 , 马库斯·埃特尔 , 马雷克·佩特里克 , 彼得·里姆什尼克 :
用于管理灾害响应的敏捷物流模拟和优化。 WSC公司 2013 : 3340-3351 [i5] 马雷克·佩特里克 , Dharmashankar Subramanian公司 , Janusz Marecki公司 :
连续概率调制约束马尔可夫决策过程的求解方法。 CoRR公司 abs/1309.6857 ( 2013 ) 2012 [第15条] 马雷克·佩特里克 :
通过最小化分布鲁棒界来近似动态规划。 ICML公司 2012 [第14条] 马雷克·佩特里克 , Dharmashankar Subramanian公司 :
大风险平均马尔可夫决策过程的一种近似求解方法。 阿联酋 2012 : 805-814 [第1页] 马雷克·佩特里克 , 什洛莫·齐伯斯坦 :
学习基于特征的启发式函数。 自主搜索 2012 : 269-305 [i4] 马雷克·佩特里克 :
通过最小化分布鲁棒界来近似动态规划。 CoRR公司 abs/1205.1782 ( 2012 ) [i3] 马雷克·佩特里克 , Dharmashankar Subramanian公司 :
一种大风险规避马尔可夫决策过程的近似求解方法。 CoRR公司 abs/1210.4901 ( 2012 ) 2011 【j4】 马雷克·佩特里克 , 什洛莫·齐尔伯斯坦 :
值函数逼近的鲁棒近似双线性规划。 J.马赫。 学习。 物件。 12 : 3027-3063 ( 2011 ) [第13条] 马雷克·佩特里克 , 什洛莫·齐尔伯斯坦 :
用于资源管理的线性动态程序。 AAAI公司 2011 : 1377-1383 2010 [第12条] 马雷克·佩特里克 , 加文·泰勒 , 罗纳德·帕尔 , 什洛莫·齐尔伯斯坦 :
马尔可夫决策过程近似线性规划中的正则化特征选择。 ICML公司 2010 : 871-878 [i2] 马雷克·佩特里克 , 加文·泰勒 , 罗纳德·帕尔 , 什洛莫·齐尔伯斯坦 :
马尔可夫决策过程近似线性规划中的正则化特征选择。 CoRR公司 abs/1005.1860 ( 2010 ) [i1] 马雷克·佩特里克 , 什洛莫·齐尔伯斯坦 :
值函数逼近的全局优化。 CoRR公司 abs/1006.2743 ( 2010 )
2000 – 2009
2009 [j3] 马雷克·佩特里克 , 什洛莫·齐尔伯斯坦 :
多智能体规划的双线性规划方法。 J.阿蒂夫。 智力。 物件。 35 : 235-274 ( 2009 ) [注2] 杰弗里·约翰斯 , 马雷克·佩特里克 , 斯里达尔·马哈德万 :
用于近似策略评估的混合最小二乘算法。 机器。 学习。 76 ( 2-3 ) : 243-256 ( 2009 ) [第11条] 马雷克·佩特里克 , 什洛莫·齐尔伯斯坦 :
近似线性程序中的约束松弛。 ICML公司 2009 : 809-816 [c10] 马雷克·佩特里克 , 什洛莫·齐尔伯斯坦 :
基于双线性规划的稳健值函数逼近。 NIPS公司 2009 : 1446-1454 【c9】 杰弗里·约翰斯 , 马雷克·佩特里克 , 斯里达尔·马哈德万 :
近似策略评估的混合最小二乘算法。 ECML/PKDD(1) 2009 : 9 2008 【c8】 马丁·艾伦 , 马雷克·佩特里克 , 什洛莫·齐尔伯斯坦 :
分散MDP中的交互结构和降维。 AAAI公司 2008 : 1440-1441 【c7】 马雷克·佩特里克 , 什洛莫·齐尔伯斯坦 :
通过近似线性规划学习启发式函数。 ICAPS公司 2008 : 248-255 【c6】 马雷克·佩特里克 , 什洛莫·齐尔伯斯坦 :
协调问题的逐次逼近算法。 ISAIM公司 2008 【c5】 马雷克·佩特里克 , 布鲁诺·谢勒 :
具有较低折扣因子的偏置近似动态规划。 NIPS公司 2008 : 1265-1272 2007 【c4】 马雷克·佩特里克 , 什洛莫·齐尔伯斯坦 :
使用可分离双线性程序进行任何时间的协调。 AAAI公司 2007 : 750-755 【c3】 马雷克·佩特里克 , 什洛莫·齐尔伯斯坦 :
平均报酬分散马尔可夫决策过程。 国际JCAI 2007 : 1997-2002 【c2】 马雷克·佩特里克 :
MDP中值函数逼近的拉普拉斯方法分析。 国际JCAI 2007 : 2574-2579 2006 [j1] 马雷克·佩特里克 , 什洛莫·齐尔伯斯坦 :
学习并行的算法组合。 安。数学。 Artif公司。 因特尔。 48 ( 1-2 ) : 85-106 ( 2006 ) 【c1】 马雷克·佩特里克 , 什洛莫·齐尔伯斯坦 :
学习静态并行算法组合。 人工智能与维护 2006