跳到主要内容
10.1145/1329125.1329173交流会议文章/章节视图摘要出版物页面原子吸收光谱法会议记录会议集合
研究论文

宽松Q学习者的理论优势:进化博弈论视角

出版:2007年5月14日出版历史

摘要

本文从进化博弈论(EGT)的角度提出了多个强化学习代理的动力学。我们为传统的多智能体Q-学习提供了一个复制者动力学模型,并且我们扩展了这些微分方程来解释宽容的学习者:原谅队友可能导致低回报的错误的智能体。我们使用这个扩展的形式化模型来可视化两个基准协调问题中传统和宽容的多智能体Q学习器的吸引域。结果表明,宽容为学习者提供了更准确的行为效用估计,从而提高了收敛到全局最优解的可能性。此外,我们的研究支持EGT作为多智能体强化学习主干的优势。

工具书类

  1. C.Claus和G.Boutiler。协作多智能体系统中强化学习的动力学。第十五届国际人工智能会议纪要,第746-752页,1998年。谷歌学者谷歌学者数字图书馆数字图书馆
  2. H.金蒂斯。博弈论演进:以问题为中心的战略互动建模导论普林斯顿大学出版社,2001年。谷歌学者谷歌学者
  3. J.Hofbauer和K.Sigmund。进化博弈与人口动力学剑桥大学出版社,1998年。谷歌学者谷歌学者交叉引用交叉引用
  4. S.Kapetanakis和D.Kudenko。协作多智能体系统中协调的强化学习。第十九届全国人工智能会议记录(AAAI-02), 2002.谷歌学者谷歌学者数字图书馆数字图书馆
  5. M.Lauer和M.Riedmiller。协作多智能体系统中的分布式强化学习算法。第十七届国际机器学习会议记录,第535-542页。Morgan Kaufmann,2000年。谷歌学者谷歌学者数字图书馆数字图书馆
  6. J.梅纳德·史密斯。进化与博弈论剑桥大学出版社,1982年。谷歌学者谷歌学者
  7. J.Maynard-Smith和J.Price。动物冲突的逻辑。性质, 146:15--18, 1973.谷歌学者谷歌学者交叉引用交叉引用
  8. L.Panait、K.Sullivan和S.Luke。对队友的宽容有助于多智能体的合作学习。第五届自治代理和多代理系统国际联合会议论文集——AAMAS-2006ACM,2006年。谷歌学者谷歌学者
  9. L.萨缪尔森。进化博弈与均衡选择麻省理工学院出版社,马萨诸塞州剑桥,1997年。谷歌学者谷歌学者
  10. S.P.Singh、M.J.Kearns和Y.Mansour。广义和博弈中梯度动力学的纳什收敛性。UAI'00:第16届人工智能不确定性会议记录,第541-548页,美国加利福尼亚州旧金山,2000年。摩根考夫曼出版公司。谷歌学者谷歌学者数字图书馆数字图书馆
  11. R.Sutton和A.Barto。强化学习:简介马萨诸塞州剑桥:麻省理工学院出版社。,1998谷歌学者谷歌学者数字图书馆数字图书馆
  12. K.Tuyls、P.’t Hoen和B.Vanschoenwinkel。迭代博弈中多智能体学习的进化动力学分析。自治代理和多代理系统杂志,12:115--1532006年。谷歌学者谷歌学者数字图书馆数字图书馆
  13. K.Tuyls、K.Verbeeck和T.Lenaerts。多智能体系统中Q学习的选择-变异模型。第二届自治代理和多代理系统国际联合会议。澳大利亚墨尔本ACM出版社,2003年。谷歌学者谷歌学者数字图书馆数字图书馆
  14. F.吠陀-雷东多。经济学与博弈论剑桥大学出版社,2003年。谷歌学者谷歌学者交叉引用交叉引用
  15. C.Watkins和P.Dayan。Q学习。机器学习, 8:279--292, 1992.谷歌学者谷歌学者数字图书馆数字图书馆
  16. C.J.沃特金斯。延迟强化学习模型1989年,英国剑桥大学心理学系博士论文。谷歌学者谷歌学者
  17. J.W.威布尔。进化博弈论麻省理工学院出版社,1996年。谷歌学者谷歌学者
  18. R.P.威根。协同进化算法分析2004年弗吉尼亚州费尔法克斯乔治·梅森大学博士论文。谷歌学者谷歌学者数字图书馆数字图书馆
  1. 宽松Q学习者的理论优势:进化博弈论视角

    建议

    评论

    登录选项

    请检查您是否可以通过登录凭据或您的机构访问此文章以获得完全访问权限。

    登录

    完全访问权限

    • 发布于

      封面图片ACM其他会议
      AAMAS'07:第六届自主智能体和多智能体系统国际联合会议论文集
      2007年5月
      1585页
      国际标准图书编号:9788190426275
      内政部:10.1145/1329125

      版权所有©2007 ACM

      如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人拥有的本作品组件的版权。允许用信用证进行摘要。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]

      出版商

      计算机协会

      美国纽约州纽约市

      出版历史

      • 出版:2007年5月14日

      权限

      请求有关此文章的权限。

      请求权限

      检查更新

      限定符

      • 研究论文

      接受率

      总体验收率1,155属于5,036提交文件,23%

    PDF格式

    以PDF文件查看或下载。

    PDF格式

    电子阅读器

    使用eReader联机查看。

    电子阅读器