文章

免费访问

集值可接近性和部分监控的在线学习

作者:

维亚尼佩尔谢、和

吉勒斯牌手表斯托尔兹作者信息和声明

机器学习研究杂志,体积15,发行1

页3247-3295

出版:2014年1月1日出版历史

PDF格式电子阅读器发布者网站

摘要

在对抗性在线学习环境中，可接近性已成为分析学习算法的标准工具。我们为在获得的奖励中存在模糊性的游戏开发了一种可接近性变体：它属于集合而不是单个向量。使用此变体，我们解决了部分监控游戏中的可接近性问题，并为此设置开发了一个简单且普遍有效的策略（即，具有恒定的每一步复杂性）。作为一个重要的例子，当外部遗憾或内部遗憾在部分监控下最小化时，我们举例说明了我们的总体策略。

工具书类

[1]

J.Abernethy、P.L.Bartlett和E.Hazan。布莱克威尔的平易近人和低后悔的学习是同等的。在第二十四届学习理论年会（COLT’11）会议记录JMLR研讨会和会议记录，2011年。

[2]

G.Bartók、D.Pál和C.Szepesvári。有限部分监控博弈的分类。在第二十届算法学习理论国际会议论文集（ALT’10），第224-238页。施普林格，2010年。

[3]

G.Bartók、D.Pál和C.Szepesvári。随机环境中有限部分监控博弈的Minimax后悔。在第二十四届学习理论年会论文集（COLT'11）JMLR研讨会和会议记录，2011年。

[4]

D.布莱克威尔。向量支付的极大极小定理的模拟。太平洋数学杂志1956a年6月1日至8日。

[5]

D.布莱克威尔。受控随机行走。在1954年国际数学家大会会议记录，阿姆斯特丹，第三卷第336-3381956b页。

[6]

A.Blum和Y.Mansour。从外部遗憾到内部遗憾。机器学习研究杂志, 8:1307-1324, 2007.

[7]

N.Cesa Bianchi和G.Lugosi。预测、学习和游戏剑桥大学出版社，2006年。

[8]

N.Cesa-Bianchi、G.Lugosi和G.Stoltz。部分监控下的后悔最小化。运筹学数学, 31:562-580, 2006.

[9]

X.Chen和H.White。希尔伯特空间值混合的大数定律及其应用。计量经济学理论, 12:284-304, 1996.

[10]

A.P.达维德。校准良好的贝叶斯算法。美国统计协会杂志, 77:605-613, 1982.

[11]

D.Foster和R.Vohra。渐进校准。生物特征, 85:379-390, 1998.

[12]

D.Foster和R.Vohra。后悔在线决策问题。游戏与经济行为, 29:7-36, 1999.

[13]

D.P.Foster和A.Rakhlin。通过邻里观察没有内部遗憾。在第十五届国际人工智能与统计会议记录（AISTATS’12）, 2012.

[14]

D.A.弗里德曼。关于鞅的尾部概率。概率年报, 3:100-118, 1975.

[15]

J.E.Goodman和J.O'Rourke，编辑。离散与计算几何手册离散数学及其应用。查普曼和霍尔/CRC，佛罗里达州博卡拉顿，第二版，2004年。

[16]

S.Hart和A.Mas-Colell。导致相关平衡的简单自适应过程。计量经济学, 68:1127-1150, 2000.

[17]

S.Hart和A.Mas-Colell。一类通用的自适应策略。经济理论杂志, 98:26-54, 2001.

[18]

E.Lehrer和E.Solan。学习发挥部分特定的平衡。Mimeo，2007年。

[19]

G.Lugosi、S.Mannor和G.Stoltz。不完全监测下的预测策略。运筹学数学, 33:513-528, 2008. 2007年COLT大会上提出了一份扩展摘要。

[20]

S.Mannor和N.Shimkin。监控不完善的在线学习第十六届学习理论年会（COLT’03）会议记录第552-567页。斯普林格，2003年。

[21]

S.Mannor和N.Shimkin。可变阶段持续时间的重复矩阵博弈中的后悔最小化。游戏与经济行为, 63(1):227-258, 2008.

[22]

S.Mannor和G.Stoltz。校准的几何证明。运筹学数学, 35:721-727, 2010.

[23]

S.Mannor、J.Tsitsiklis和J.Y.Yu。具有样本路径约束的在线学习。机器学习研究杂志，2009年3月10日：569-590。

[24]

J.-F.Mertens、S.Sorin和S.Zamir。重复游戏。技术报告编号：9420、9421、9422，卢瓦因大学，1994年。

[25]

V.珀歇。使用随机信号进行校准和内部不重测。在第二十届算法学习理论国际会议论文集（ALT'09），第68-82页，2009年。

[26]

V.珀歇。部分监控博弈中凸集的可逼近性。最优化理论与应用杂志，149:665-6772011a。

[27]

V.珀歇。内部对基于部分监测校准的优化算法感到遗憾。机器学习研究杂志，12:1893-1921，2011年b。

[28]

V.Perchet和M.Quincampoix。关于有或无信号游戏中可接近性的统一框架。Mimeo，2011年。

[29]

A.Piccolboni和C.Schindelhauer。具有任意反馈和损失的离散预测游戏。在计算学习理论第十四届年会论文集（COLT’01），第208-223页，2001年。

[30]

A.Rakhlin、K.Sridharan和A.Tewari。在线学习：超越遗憾。在第二十四届学习理论年会（COLT’11）会议记录JMLR研讨会和会议记录，2011年。

[31]

J.Rambau和G.Ziegler。多面体投影与广义Baues猜想。离散和计算几何, 16:215-237, 1996.

[32]

A.鲁斯蒂奇尼。最小化遗憾：一般情况。游戏与经济行为, 29: 224-243, 1999.

引用人

尼亚扎德RGolrezaei N号王杰苏珊·F巴达尼迪尤鲁A(2023)通过离线贪婪算法进行在线学习管理科学10.1287/毫微秒2022.455869:7(3797-3817)在线发布日期：2023年7月1日
https://dl.acm.org/doi/10.1287/mnsc.2022.4558
李·D诺亚罗夫G派姆（Pai M）罗斯A科耶霍S穆罕默德·S阿加瓦尔A贝尔格雷夫D赵·K哦，A(2022)在线minimax多目标优化第36届神经信息处理系统国际会议记录10.5555/3600270.3602376(29051-29063)在线发布日期：2022年11月28日
https://dl.acm.org/doi/10.5555/3600270.3602376网址
Chzhen E公司吉拉德C斯托尔茨G兰扎托M贝格尔齐默A多芬Y梁P沃恩J(2021)通过blackwell可接近性实现公平在线学习的统一方法第35届神经信息处理系统国际会议记录10.5555/3540261.3541659(18280-18292)在线发布日期：2021年12月6日
https://dl.acm.org/doi/10.5555/3540261.3541659

索引术语

设置有价值的可接近性和部分监控的在线学习
1. 计算方法
  1. 机器学习

索引项已通过自动分类分配给内容。

建议

部分监控博弈中凸集的逼近性

我们提供了一个充分必要的条件，在此条件下，凸集在具有部分监控的游戏中是可接近的，即玩家不观察对手的移动，而是接收随机信号。此条件是Blackwell“……”的延伸。。。
阅读更多信息
具有完全或部分监控的可接近性统一框架

我们将任何具有部分监控的重复博弈表示为一个具有完全监控的抽象重复博弈，其中结果是概率测度，被解释为玩家在原始博弈中可以获得的“最大信息”。我们的一个。。。
阅读更多信息
可接近性弱

在本文中，我们研究了向量支付的重复博弈。继Blackwell[2]之后，我们定义了弱可接近性及其对偶性质，即弱排他性。我们使用固定持续时间的微分对策的结果来证明每个集合都是。。。
阅读更多信息

评论

信息和贡献者

问询处

发布于

封面图片机器学习研究杂志

机器学习研究杂志第15卷第1期

2014年1月

4085页

国际标准编号：1532-4435

EISSN公司：1533-7928

出版商

JMLR.org网站

出版历史

修订过的：2014年4月1日

出版：2014年1月1日

出版于JMLR体积15,发行1

作者标记

限定符

第条

贡献者

其他指标

查看文章指标

文献计量学和引文

文献计量学

文章指标

三
引文总数
查看引文
90
下载总量

下载次数（过去12个月）21
下载次数（最近6周）0

其他指标

查看作者指标

引文

引用人

尼亚扎德RGolrezaei北王杰苏珊·F巴达尼迪尤鲁A(2023)通过离线贪婪算法进行在线学习管理科学10.1287个月/2022.4558个月69:7(3797-3817)在线发布日期：2023年7月1日
https://dl.acm.org/doi/10.1287/mnsc.2022.4558
李·D诺亚罗夫G派姆（Pai M）罗斯A科耶霍S穆罕默德·S阿加瓦尔A贝尔格雷夫D赵·K哦，A(2022)在线minimax多目标优化第36届神经信息处理系统国际会议记录10.5555/3600270.3602376(29051-29063)在线发布日期：2022年11月28日
https://dl.acm.org/doi/10.5555/3600270.3602376网址
Chzhen E公司吉拉德C斯托尔茨G兰扎托M贝格尔齐默A多芬Y梁P沃恩J(2021)通过blackwell可接近性实现公平在线学习的统一方法第35届神经信息处理系统国际会议记录10.5555/3540261.3541659(18280-18292)在线发布日期：2021年12月6日
https://dl.acm.org/doi/10.5555/3540261.3541659

视图选项

查看选项

PDF格式

以PDF文件查看或下载。

电子阅读器

使用联机查看电子阅读器.

电子阅读器

获取访问权限

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此文章

媒体

数字

其他

桌子

查看问题目录