跳到主要内容
文章
免费访问

集值可接近性和部分监控的在线学习

出版:2014年1月1日 出版历史
  • 获取引文提醒
  • 摘要

    在对抗性在线学习环境中,可接近性已成为分析学习算法的标准工具。我们为在获得的奖励中存在模糊性的游戏开发了一种可接近性变体:它属于集合而不是单个向量。使用此变体,我们解决了部分监控游戏中的可接近性问题,并为此设置开发了一个简单且普遍有效的策略(即,具有恒定的每一步复杂性)。作为一个重要的例子,当外部遗憾或内部遗憾在部分监控下最小化时,我们举例说明了我们的总体策略。

    工具书类

    [1]
    J.Abernethy、P.L.Bartlett和E.Hazan。布莱克威尔的平易近人和低后悔的学习是同等的。第二十四届学习理论年会(COLT’11)会议记录JMLR研讨会和会议记录,2011年。
    [2]
    G.Bartók、D.Pál和C.Szepesvári。有限部分监控博弈的分类。第二十届算法学习理论国际会议论文集(ALT’10),第224-238页。施普林格,2010年。
    [3]
    G.Bartók、D.Pál和C.Szepesvári。随机环境中有限部分监控博弈的Minimax后悔。第二十四届学习理论年会论文集(COLT'11)JMLR研讨会和会议记录,2011年。
    [4]
    D.布莱克威尔。向量支付的极大极小定理的模拟。太平洋数学杂志1956a年6月1日至8日。
    [5]
    D.布莱克威尔。受控随机行走。1954年国际数学家大会会议记录,阿姆斯特丹,第三卷第336-3381956b页。
    [6]
    A.Blum和Y.Mansour。从外部遗憾到内部遗憾。机器学习研究杂志, 8:1307-1324, 2007.
    [7]
    N.Cesa Bianchi和G.Lugosi。预测、学习和游戏剑桥大学出版社,2006年。
    [8]
    N.Cesa-Bianchi、G.Lugosi和G.Stoltz。部分监控下的后悔最小化。运筹学数学, 31:562-580, 2006.
    [9]
    X.Chen和H.White。希尔伯特空间值混合的大数定律及其应用。计量经济学理论, 12:284-304, 1996.
    [10]
    A.P.达维德。校准良好的贝叶斯算法。美国统计协会杂志, 77:605-613, 1982.
    [11]
    D.Foster和R.Vohra。渐进校准。生物特征, 85:379-390, 1998.
    [12]
    D.Foster和R.Vohra。后悔在线决策问题。游戏与经济行为, 29:7-36, 1999.
    [13]
    D.P.Foster和A.Rakhlin。通过邻里观察没有内部遗憾。第十五届国际人工智能与统计会议记录(AISTATS’12), 2012.
    [14]
    D.A.弗里德曼。关于鞅的尾部概率。概率年报, 3:100-118, 1975.
    [15]
    J.E.Goodman和J.O'Rourke,编辑。离散与计算几何手册离散数学及其应用。查普曼和霍尔/CRC,佛罗里达州博卡拉顿,第二版,2004年。
    [16]
    S.Hart和A.Mas-Colell。导致相关平衡的简单自适应过程。计量经济学, 68:1127-1150, 2000.
    [17]
    S.Hart和A.Mas-Colell。一类通用的自适应策略。经济理论杂志, 98:26-54, 2001.
    [18]
    E.Lehrer和E.Solan。学习发挥部分特定的平衡。Mimeo,2007年。
    [19]
    G.Lugosi、S.Mannor和G.Stoltz。不完全监测下的预测策略。运筹学数学, 33:513-528, 2008. 2007年COLT大会上提出了一份扩展摘要。
    [20]
    S.Mannor和N.Shimkin。监控不完善的在线学习第十六届学习理论年会(COLT’03)会议记录第552-567页。斯普林格,2003年。
    [21]
    S.Mannor和N.Shimkin。可变阶段持续时间的重复矩阵博弈中的后悔最小化。游戏与经济行为, 63(1):227-258, 2008.
    [22]
    S.Mannor和G.Stoltz。校准的几何证明。运筹学数学, 35:721-727, 2010.
    [23]
    S.Mannor、J.Tsitsiklis和J.Y.Yu。具有样本路径约束的在线学习。机器学习研究杂志,2009年3月10日:569-590。
    [24]
    J.-F.Mertens、S.Sorin和S.Zamir。重复游戏。技术报告编号:9420、9421、9422,卢瓦因大学,1994年。
    [25]
    V.珀歇。使用随机信号进行校准和内部不重测。第二十届算法学习理论国际会议论文集(ALT'09),第68-82页,2009年。
    [26]
    V.珀歇。部分监控博弈中凸集的可逼近性。最优化理论与应用杂志,149:665-6772011a。
    [27]
    V.珀歇。内部对基于部分监测校准的优化算法感到遗憾。机器学习研究杂志,12:1893-1921,2011年b。
    [28]
    V.Perchet和M.Quincampoix。关于有或无信号游戏中可接近性的统一框架。Mimeo,2011年。
    [29]
    A.Piccolboni和C.Schindelhauer。具有任意反馈和损失的离散预测游戏。计算学习理论第十四届年会论文集(COLT’01),第208-223页,2001年。
    [30]
    A.Rakhlin、K.Sridharan和A.Tewari。在线学习:超越遗憾。第二十四届学习理论年会(COLT’11)会议记录JMLR研讨会和会议记录,2011年。
    [31]
    J.Rambau和G.Ziegler。多面体投影与广义Baues猜想。离散和计算几何, 16:215-237, 1996.
    [32]
    A.鲁斯蒂奇尼。最小化遗憾:一般情况。游戏与经济行为, 29: 224-243, 1999.

    引用人

    查看全部
    • (2023)通过离线贪婪算法进行在线学习管理科学10.1287/毫微秒2022.455869:7(3797-3817)在线发布日期:2023年7月1日
    • (2022)在线minimax多目标优化第36届神经信息处理系统国际会议记录10.5555/3600270.3602376(29051-29063)在线发布日期:2022年11月28日
    • (2021)通过blackwell可接近性实现公平在线学习的统一方法第35届神经信息处理系统国际会议记录10.5555/3540261.3541659(18280-18292)在线发布日期:2021年12月6日

    索引术语

    1. 设置有价值的可接近性和部分监控的在线学习
      索引项已通过自动分类分配给内容。

      建议

      评论

      信息和贡献者

      问询处

      发布于

      封面图片机器学习研究杂志
      机器学习研究杂志 第15卷第1期
      2014年1月
      4085页
      国际标准编号:1532-4435
      EISSN公司:1533-7928
      期刊目录

      出版商

      JMLR.org网站

      出版历史

      修订过的:2014年4月1日
      出版:2014年1月1日
      出版于JMLR体积15,发行1

      作者标记

      1. 可接近性
      2. 在线学习
      3. 局部监测
      4. 后悔

      限定符

      • 第条

      贡献者

      其他指标

      文献计量学和引文

      文献计量学

      文章指标

      • 下载次数(过去12个月)21
      • 下载次数(最近6周)0

      其他指标

      引文

      引用人

      查看全部
      • (2023)通过离线贪婪算法进行在线学习管理科学10.1287个月/2022.4558个月69:7(3797-3817)在线发布日期:2023年7月1日
      • (2022)在线minimax多目标优化第36届神经信息处理系统国际会议记录10.5555/3600270.3602376(29051-29063)在线发布日期:2022年11月28日
      • (2021)通过blackwell可接近性实现公平在线学习的统一方法第35届神经信息处理系统国际会议记录10.5555/3540261.3541659(18280-18292)在线发布日期:2021年12月6日

      视图选项

      查看选项

      PDF格式

      以PDF文件查看或下载。

      PDF格式

      电子阅读器

      使用联机查看电子阅读器.

      电子阅读器

      获取访问权限

      登录选项

      完全访问权限

      媒体

      数字

      其他

      桌子

      分享

      分享

      共享此出版物链接

      在社交媒体上分享