佩德罗·奥尔特加
人员信息
优化列表
2020年–今天
2023 [第18条] 格雷戈伊尔·德雷唐(Grégoire Delétang) , 阿尼安·鲁斯 , 乔迪·格拉乌·莫亚 , 蒂姆·吉纳温 , 李凯文文亮 , 埃利奥特·卡特 , 克里斯·库迪 , 马库斯·赫特 , Shane Legg公司 , 乔尔·维内斯 , 佩德罗·奥尔特加 以下为:
神经网络和乔姆斯基层次结构。 ICLR公司 2023 2022 [公元10年] 罗伯·布雷克尔曼斯 , 蒂姆·吉纳温 , 乔迪·格拉乌·莫亚 , 格雷戈伊尔·德雷唐(Grégoire Delétang) , 马库斯·库内什 , Shane Legg公司 , 佩德罗·奥尔特加 以下为:
你的政策规划者是一个秘密的对手。 事务处理。 机器。 学习。 物件。 2022 ( 2022 ) [公元36年] 罗伯·布雷克尔曼斯 , 蒂姆·吉纳温 , 乔迪·格拉乌·莫亚 , 格雷戈伊尔·德雷唐(Grégoire Delétang) , 马库斯·库内什 , 谢恩·莱格 , 佩德罗·奥尔特加 以下为:
你的政策规划者是一个秘密的对手。 CoRR公司 abs/2203.12592 ( 2022 ) [i35] 格雷戈伊尔·德雷唐(Grégoire Delétang) , 阿尼安·鲁斯 , 乔迪·格拉乌·莫亚 , 蒂姆·吉纳温 , 李凯文文亮 , 埃利奥特·卡特 , 马库斯·赫特 , Shane Legg公司 , 佩德罗·奥尔特加 以下为:
神经网络和乔姆斯基层次结构。 CoRR公司 abs/2207.02098 ( 2022 ) [i34] 乔迪·格拉乌·莫亚 , 格雷戈伊尔·德雷唐(Grégoire Delétang) , 马库斯·库内什 , 蒂姆·吉纳温 , 埃利奥特·卡特 , 李凯文(Kevin Li) , 阿尼安·鲁斯 , 克里斯·库迪 , 乔尔·维内斯 , 简·X·王 , 马库斯·赫特 , 克里斯托弗·萨默菲尔德 , 谢恩·莱格 , 佩德罗·奥尔特加 以下为:
超越贝叶斯优化:元学习你知道你不知道的东西。 CoRR公司 abs/2209.15618 ( 2022 ) 2021 [第17条] 汤姆·艾唯瑞特 , 瑞恩·凯里 , 埃里克·兰格洛伊斯 , 佩德罗·奥尔特加 , 谢恩·莱格 以下为:
代理人激励:因果视角。 AAAI公司 2021 以下为: 11487-11495 [第16条] 朱利安·佩罗拉 , 雷米·穆诺斯 , Jean-Baptiste Lespiau女士 , 沙耶根·奥米德沙维埃 , 马克·罗兰 , 佩德罗·奥尔特加 , 尼尔·伯奇 , 托马斯·安东尼 , 大卫·巴尔杜齐 , 巴特·德·维尔德 , 乔治·皮里奥拉斯 , 马克·兰科特 , 卡尔·图尔斯 以下为:
从Poincaré递归到不完全信息博弈中的收敛:通过正则化找到均衡。 ICML公司 2021 以下为: 8525-8535 [i33] 汤姆·艾唯瑞特 , 瑞恩·凯里 , 埃里克·兰格洛伊斯 , 佩德罗·奥尔特加 , 谢恩·莱格 以下为:
代理人激励:因果视角。 CoRR公司 abs/2102.01685 ( 2021 ) [i32] 格雷戈伊尔·德雷唐(Grégoire Delétang) , 乔迪·格拉乌·莫亚 , Miljan Martic公司 , 蒂姆·吉纳温 , 汤姆·麦格拉思 , 弗拉基米尔·米库利克 , 马库斯·库内什 , 谢恩·莱格 , 佩德罗·奥尔特加 以下为:
人工智能安全中Agent行为的因果分析。 CoRR公司 abs/2103.03938 ( 2021 ) [i31] 佩德罗·奥尔特加 , 马库斯·库内什 , 格雷戈伊尔·德雷唐(Grégoire Delétang) , 蒂姆·吉纳温 , 乔迪·格劳·莫亚 , 乔尔·维内斯 , 乔纳斯·布赫利 , 乔纳斯·迪格雷夫 , 比拉尔·皮奥 , 朱利安·佩罗拉 , 汤姆·艾唯瑞特 , 科伦蒂·塔莱克 , 埃米利奥·帕里索托 , 汤姆·埃雷斯 , 陈玉田 , 斯科特·里德 , 马库斯·赫特 , 南多·德·弗雷塔斯 , 谢恩·莱格 以下为:
动摇基础:交互和控制序列模型中的错觉。 CoRR公司 abs/2110.10819 ( 2021 ) [i30] 格雷戈伊尔·德雷唐(Grégoire Delétang) , 乔迪·格拉乌·莫亚 , 马库斯·库内什 , 蒂姆·吉纳温 , 罗伯·布雷克尔曼斯 , 谢恩·莱格 , 佩德罗·奥尔特加 以下为:
无模型风险敏感强化学习。 CoRR公司 abs/2111.02907 ( 2021 ) 2020 [第15条] 弗拉基米尔·米库利克 , 格雷戈伊尔·德雷唐(Grégoire Delétang) , 汤姆·麦格拉思 , Tim Genewein公司 , Miljan Martic公司 , 谢恩·莱格 , 佩德罗·奥尔特加 以下为:
元训练代理实现贝叶斯优化代理。 NeurIPS公司 2020 [i29] 朱利安·佩罗拉 , 雷米·穆诺斯 , Jean-Baptiste Lespiau女士 , 沙耶根·奥米德沙维埃 , 马克·罗兰 , 佩德罗·奥尔特加 , 尼尔·伯奇 , 托马斯·安东尼 , 大卫·巴尔杜齐 , 巴特·德·维尔德 , 乔治·皮里奥拉斯 , 马克·兰科特 , 卡尔·图尔斯 以下为:
从Poincaré递归到不完全信息博弈中的收敛:通过正则化找到均衡。 CoRR公司 abs/2002.08456 ( 2020 ) [第28条] 丹尼尔·哈夫纳 , 佩德罗·奥尔特加 , 吉米·巴 , 托马斯·帕尔 , 卡尔·弗里斯顿 , 尼古拉斯·希斯 以下为:
将行动和感知作为分歧最小化。 CoRR公司 abs/2009.01791 ( 2020 ) [i27] 弗拉基米尔·米库利克 , 格雷戈伊尔·德雷唐(Grégoire Delétang) , 汤姆·麦格拉思 , 蒂姆·吉纳温 , Miljan Martic公司 , 谢恩·莱格 , 佩德罗·奥尔特加 以下为:
元训练代理实现贝叶斯优化代理。 CoRR公司 abs/2010.11223 ( 2020 ) [i26] 蒂姆·吉纳温 , 汤姆·麦格拉思 , 格雷戈伊尔·德雷唐(Grégoire Delétang) , 弗拉基米尔·米库利克 , Miljan Martic公司 , 谢恩·莱格 , 佩德罗·奥尔特加 以下为:
概率树因果推理算法。 CoRR公司 abs/2010.12237 ( 2020 )
2010 – 2019
2019 [公元9年] 李康勋 , 金正贤(Geon-hyeong Kim) , 佩德罗·奥尔特加 , 丹尼尔·D·李 , Kee-Eung Kim(金记) 以下为:
贝叶斯乐观的Kullback-Leibler探索。 机器。 学习。 108 ( 5 ) 以下为: 765-783 ( 2019 ) [第14条] 娜塔莎·贾克斯 , 安吉利基·拉扎里杜 , 爱德华·休斯 , 圣格雷 , 佩德罗·奥尔特加 , DJ频闪 , 乔尔·雷波 , 南多·德·弗雷塔斯 以下为:
社会影响是多智能体深度强化学习的内在动机。 ICML公司 2019 以下为: 3040-3049 [i25] Ishita Dasgupta公司 , 简·X·王 , 西尔维娅·齐亚帕 , 约瓦娜·米特罗维奇 , 佩德罗·奥尔特加 , 大卫·拉波索 , 爱德华·休斯 , 彼得·巴塔利亚 , 马修·博特维尼克 , 泽布·库思·内尔森 以下为:
元强化学习中的因果推理。 CoRR公司 腹肌/1901.08162 ( 2019 ) 【i24】 汤姆·艾唯瑞特 , 佩德罗·奥尔特加 , 伊丽莎白·巴恩斯 , 谢恩·莱格 以下为:
使用因果影响图了解代理人激励。 第一部分:单动作设置。 CoRR公司 abs/1902.09980 ( 2019 ) [第23条] 佩德罗·奥尔特加 , 简·X·王 , 马克·罗兰 , 蒂姆·吉纳温 , 泽布·库思·内尔森 , 拉兹万·帕斯卡努 , 尼古拉斯·希斯 , 乔尔·维尼斯 , 亚历山大·普里策 , 巴勃罗·斯普雷希曼 , Siddhant M.Jayakumar先生 , 汤姆·麦格拉思 , 凯文·米勒 , 穆罕默德·盖什拉希·阿扎尔 , 伊恩·奥斯班德 , 尼尔·C·拉比诺维茨 , 安德烈斯·吉尔吉 , 西尔维娅·齐亚帕 , 西蒙·奥斯宾多 , 叶惠德 , 哈多·范·哈塞尔特 , 南多·德·弗雷塔斯 , 马修·博特维尼克 , 谢恩·莱格 以下为:
序列策略的元学习。 CoRR公司 abs/1905.03030 ( 2019 ) [i22] 扬·汉普利克 , 亚历山大·加拉肖夫 , 伦纳德·哈森克韦尔 , 佩德罗·奥尔特加 , 叶惠德 , 尼古拉斯·希斯 以下为:
元强化学习作为任务推理。 CoRR公司 abs/1905.06424 ( 2019 ) 2018 【i21】 佩德罗·奥尔特加 , 谢恩·莱格 以下为:
塑造朋友和敌人。 CoRR公司 腹肌/1807.00196 ( 2018 ) [i20] 娜塔莎·贾克斯 , 安吉利基·拉扎里杜 , 爱德华·休斯 , 圣格雷 , 佩德罗·奥尔特加 , DJ频闪 , 乔尔·雷波 , 南多·德·弗雷塔斯 以下为:
多主体RL中通过因果影响的内在社会动机。 CoRR公司 abs/1810.08647 ( 2018 ) 2017 [i19] 简·雷克 , Miljan Martic公司 , 维多利亚·克拉科夫纳 , 佩德罗·奥尔特加 , 汤姆·艾唯瑞特 , 安德鲁·勒弗朗克 , 劳伦特·奥尔索 , 谢恩·莱格 以下为:
AI安全网格世界。 CoRR公司 abs/1711.09883 ( 2017 ) 2016 [第13条] 柚木红 , 李宗民(Jongmin Lee) , Kee-Eung Kim(金记) , 佩德罗·奥尔特加 , 丹尼尔·D·李 以下为:
基于行为反馈的贝叶斯强化学习。 国际JCAI 2016 以下为: 1571-1577 [第12条] 佩德罗·奥尔特加 , 阿兰·斯托克 以下为:
有限时间下的人类决策。 钳口 2016 以下为: 100-108 [i18] 佩德罗·奥尔特加 , 纳夫塔利·蒂什比 以下为:
记忆控制时间知觉和跨期选择。 CoRR公司 abs/1604.05129 ( 2016 ) [i17] 佩德罗·奥尔特加 , 阿兰·斯托克 以下为:
有限时间下的人类决策。 CoRR公司 abs/1610.01698 ( 2016 ) 2015 [j8] 佩德罗·奥尔特加 以下为:
主观性、贝叶斯主义和因果关系。 模式识别。 莱特。 64 以下为: 63-70 ( 2015 ) [第11条] 佩德罗·奥尔特加 , Kee-Eung Kim(金记) , 丹尼尔·D·李 以下为:
以态度反击强盗。 AISTATS公司 2015 [第10条] 佩德罗·奥尔特加 , 丹尼尔·D·李 , 阿兰·斯托克 以下为:
具有隐藏原因的预测任务中的因果推理。 CogSci公司 2015 【c9】 佩德罗·奥尔特加 , 科比·克拉默 , 丹尼尔·D·李 以下为:
稳健在线学习的信念流。 意大利税务局 2015 以下为: 70-77 [i16] 佩德罗·奥尔特加 , 科比·克拉默 , 丹尼尔·D·李 以下为:
稳健在线学习的信念流。 CoRR公司 abs/1505.07067 ( 2015 ) 【i15】 佩德罗·奥尔特加 , 丹尼尔·布劳恩 , 贾斯汀·戴尔 , Kee-Eung Kim(金记) , 纳夫塔利·蒂什比 以下为:
信息论有限理性。 CoRR公司 abs/1512.06789 ( 2015 ) 2014 [j7] 佩德罗·奥尔特加 , 丹尼尔·布劳恩 以下为:
序列决策和因果推理的广义汤普森抽样。 复杂适应。 系统。 模型。 2 以下为: 2 ( 2014 ) [j6] 佩德罗·奥尔特加 , 丹尼尔·A·布劳恩 以下为:
勘误表:用于顺序决策和因果推断的广义汤普森抽样。 复杂适应。 系统。 模型。 2 以下为: 4 ( 2014 ) [j5] 丹尼尔·A·布劳恩 , 佩德罗·奥尔特加 以下为:
信息论有界理性与ε-最优性。 熵 16 ( 8 ) 以下为: 4662-4676 ( 2014 ) 【c8】 佩德罗·奥尔特加 , 丹尼尔·D·李 以下为:
信息论有限理性的对立解释。 AAAI公司 2014 以下为: 2483-2489 【c7】 佩德罗·奥尔特加 , 丹尼尔·布劳恩 , 纳夫塔利·蒂什比 以下为:
广义最优性方程精确有效解的蒙特卡罗方法。 ICRA公司 2014 以下为: 4322-4327 [第14条] 佩德罗·奥尔特加 , 丹尼尔·D·李 以下为:
信息论有限理性的对立解释。 CoRR公司 abs/1404.5668 ( 2014 ) [i13] 佩德罗·奥尔特加 以下为:
主观性、贝叶斯主义和因果性。 CoRR公司 abs/1407.4139 ( 2014 ) 2013 【j4】 大卫·巴尔杜齐 , 佩德罗·奥尔特加 , 米歇尔·贝瑟尔 以下为:
代谢成本作为合作学习的组织原则。 高级复杂系统。 16 ( 2-3 ) ( 2013 ) [i12] 佩德罗·奥尔特加 , 丹尼尔·布劳恩 以下为:
序列决策和因果推断的广义汤普森抽样。 CoRR公司 abs/1303.4431 ( 2013 ) 2012 [j3] 乔迪·格拉乌·莫亚 , 佩德罗·奥尔特加 , 丹尼尔·布劳恩 以下为:
贝叶斯感觉运动整合的风险敏感性。 公共科学图书馆计算。 生物。 8 ( 9 ) ( 2012 ) 【c6】 佩德罗·奥尔特加 , 乔迪·格劳·莫亚 , 蒂姆·吉纳温 , 大卫·巴尔杜齐 , 丹尼尔·布劳恩 以下为:
噪声函数最大变元的非参数共轭先验分布。 钳口 2012 以下为: 3014-3022 [i11] 大卫·巴尔杜齐 , 佩德罗·奥尔特加 , 米歇尔·贝瑟尔 以下为:
代谢成本是合作学习的组织原则。 CoRR公司 abs/1202.4482 ( 2012 ) [i10] 佩德罗·奥尔特加 , 丹尼尔·布劳恩 以下为:
自由能和序列决策的广义最优性方程。 CoRR公司 abs/1205.3997 ( 2012 ) [第九章] 佩德罗·奥尔特加 , 乔迪·格劳·莫亚 , 蒂姆·吉纳温 , 大卫·巴尔杜齐 , 丹尼尔·布劳恩 以下为:
噪声函数最大变元的非参数共轭先验分布。 CoRR公司 abs/1206.1898 ( 2012 ) 2011 【c5】 丹尼尔·布劳恩 , 佩德罗·奥尔特加 , 埃文格洛斯·西奥多罗 , 斯特凡·沙尔 以下为:
路径积分控制与有限理性。 ADPRL公司 2011 以下为: 202-209年 【c4】 丹尼尔·亚历山大·布劳恩 , 佩德罗·阿莱杭德罗·奥尔特加 以下为:
信息、效用和有限理性。 AGI公司 2011 以下为: 269-274 [c3] 佩德罗·阿莱杭德罗·奥尔特加 , 丹尼尔·亚历山大·布劳恩 , 西蒙·戈德斯基 以下为:
强化学习和贝叶斯控制规则。 AGI公司 2011 以下为: 281-285 [i8] 佩德罗·奥尔特加 , 丹尼尔·布劳恩 以下为:
信息、效用和有限理性。 CoRR公司 abs/1107.5766 ( 2011 ) [i7] 佩德罗·奥尔特加 以下为:
贝叶斯因果归纳法。 CoRR公司 abs/1111.0708 ( 2011 ) 2010 [注2] 佩德罗·奥尔特加 , 丹尼尔·布劳恩 以下为:
学习和行动的最小相对熵原则。 J.阿蒂夫。 智力。 物件。 38 以下为: 475-511 ( 2010 ) 【c2】 丹尼尔·布劳恩 , 佩德罗·奥尔特加 以下为:
线性二次型调节器自适应控制的最小相对熵原理。 ICINCO(3) 2010 以下为: 103-108 [i6] 佩德罗·奥尔特加 , 丹尼尔·布劳恩 以下为:
未折扣马尔可夫决策过程的最小相对熵控制器。 CoRR公司 abs/1002.1480 ( 2010 ) [i5] 佩德罗·奥尔特加 , 丹尼尔·布劳恩 以下为:
贝叶斯控制规则的收敛性。 CoRR公司 abs/1002.3086 ( 2010 ) [i4] 佩德罗·奥尔特加 , 丹尼尔·布劳恩 以下为:
基于效用信息等价的有限理性的公理形式化。 CoRR公司 abs/1007.0940 ( 2010 )
2000 – 2009
2009 [j1] 丹尼尔·布劳恩 , 佩德罗·奥尔特加 , 丹尼尔·沃尔珀特 以下为:
多智能体-运动相互作用中的纳什均衡。 公共科学图书馆计算。 生物。 5 ( 8 ) ( 2009 ) [i3] 佩德罗·奥尔特加 , 丹尼尔·布劳恩 以下为:
基于因果干预的贝叶斯自适应控制规则。 CoRR公司 abs/0911.5104 ( 2009 ) [i2] 佩德罗·奥尔特加 , 丹尼尔·A·布劳恩 以下为:
实用程序和信息之间的转换。 CoRR公司 abs/0911.5106 ( 2009 ) 2008 [i1] 佩德罗·奥尔特加 , 丹尼尔·布劳恩 以下为:
学习和行动的最小相对熵原则。 CoRR公司 abs/0810.3605 ( 2008 ) 2006 【c1】 佩德罗·奥尔特加 , 克里斯蒂安·菲格罗亚 , 冈萨洛·鲁兹 以下为:
基于数据挖掘的医疗索赔欺诈/滥用检测系统:智利的案例研究。 DMIN公司 2006 以下为: 224-231