研究论文

宽松Q学习者的理论优势：进化博弈论视角

作者：
Liviu Panait公司

谷歌公司，加利福尼亚州圣莫尼卡

谷歌公司，加利福尼亚州圣莫尼卡
查看个人资料

,
卡尔·图尔斯

马斯特里赫特大学，MiCC-IKAT，荷兰

马斯特里赫特大学，MiCC-IKAT，荷兰
查看个人资料

作者信息和声明

AAMAS’07：第六届自治代理和多代理系统国际联合会议记录2007年5月条款编号：40第1–8页https://doi.org/10.1145/1329125.1329173

出版：2007年5月14日出版历史

AAMAS’07：第六届自治代理和多代理系统国际联合会议记录

第1-8页

摘要

本文从进化博弈论（EGT）的角度提出了多个强化学习代理的动力学。我们为传统的多智能体Q-学习提供了一个复制者动力学模型，并且我们扩展了这些微分方程来解释宽容的学习者：原谅队友可能导致低回报的错误的智能体。我们使用这个扩展的形式化模型来可视化两个基准协调问题中传统和宽容的多智能体Q学习器的吸引域。结果表明，宽容为学习者提供了更准确的行为效用估计，从而提高了收敛到全局最优解的可能性。此外，我们的研究支持EGT作为多智能体强化学习主干的优势。

工具书类

C.Claus和G.Boutiler。协作多智能体系统中强化学习的动力学。在第十五届国际人工智能会议纪要，第746-752页，1998年。谷歌学者数字图书馆
H.金蒂斯。博弈论演进：以问题为中心的战略互动建模导论普林斯顿大学出版社，2001年。谷歌学者
J.Hofbauer和K.Sigmund。进化博弈与人口动力学剑桥大学出版社，1998年。谷歌学者交叉引用
S.Kapetanakis和D.Kudenko。协作多智能体系统中协调的强化学习。在第十九届全国人工智能会议记录（AAAI-02）, 2002.谷歌学者数字图书馆
M.Lauer和M.Riedmiller。协作多智能体系统中的分布式强化学习算法。在第十七届国际机器学习会议记录，第535-542页。Morgan Kaufmann，2000年。谷歌学者数字图书馆
J.梅纳德·史密斯。进化与博弈论剑桥大学出版社，1982年。谷歌学者
J.Maynard-Smith和J.Price。动物冲突的逻辑。性质, 146:15--18, 1973.谷歌学者交叉引用
L.Panait、K.Sullivan和S.Luke。对队友的宽容有助于多智能体的合作学习。在第五届自治代理和多代理系统国际联合会议论文集——AAMAS-2006ACM，2006年。谷歌学者
L.萨缪尔森。进化博弈与均衡选择麻省理工学院出版社，马萨诸塞州剑桥，1997年。谷歌学者
S.P.Singh、M.J.Kearns和Y.Mansour。广义和博弈中梯度动力学的纳什收敛性。在UAI'00：第16届人工智能不确定性会议记录，第541-548页，美国加利福尼亚州旧金山，2000年。摩根考夫曼出版公司。谷歌学者数字图书馆
R.Sutton和A.Barto。强化学习：简介马萨诸塞州剑桥：麻省理工学院出版社。，1998谷歌学者数字图书馆
K.Tuyls、P.’t Hoen和B.Vanschoenwinkel。迭代博弈中多智能体学习的进化动力学分析。自治代理和多代理系统杂志，12:115--1532006年。谷歌学者数字图书馆
K.Tuyls、K.Verbeeck和T.Lenaerts。多智能体系统中Q学习的选择-变异模型。在第二届自治代理和多代理系统国际联合会议。澳大利亚墨尔本ACM出版社，2003年。谷歌学者数字图书馆
F.吠陀-雷东多。经济学与博弈论剑桥大学出版社，2003年。谷歌学者交叉引用
C.Watkins和P.Dayan。Q学习。机器学习, 8:279--292, 1992.谷歌学者数字图书馆
C.J.沃特金斯。延迟强化学习模型1989年，英国剑桥大学心理学系博士论文。谷歌学者
J.W.威布尔。进化博弈论麻省理工学院出版社，1996年。谷歌学者
R.P.威根。协同进化算法分析2004年弗吉尼亚州费尔法克斯乔治·梅森大学博士论文。谷歌学者数字图书馆

宽松Q学习者的理论优势：进化博弈论视角
1. 计算方法
  1. 人工智能
    1. 分布式人工智能

建议

协作多智能体系统中的宽容学习者
AAMAS’06：第五届自主代理和多代理系统国际联合会议记录

在并发学习算法中，代理对联合搜索空间的感知取决于其他代理当前选择的动作。当每个代理的行为选择受到其学习的影响时，这些感知会发生变化。我们观察到。。。
阅读更多信息
宽容型学习者的理论优势：进化博弈论视角

本文从进化博弈论的角度提出了多学习主体的动力学。我们为协同进化算法和传统的多智能体Q学习提供了复制器动力学模型，并对这些模型进行了扩展。。。
阅读更多信息
宽容学习的实证和理论支持
AAMAS’11：第十届自主代理和多代理系统国际会议-第3卷

最近，人们提出了一种Lenient Q学习（LQ）的进化模型，为协作多智能体学习收敛到全局最优提供了理论保证。然而，实验表明，预测的。。。
阅读更多信息

登录选项

请检查您是否可以通过登录凭据或您的机构访问此文章以获得完全访问权限。

完全访问权限

获取此出版物

发布于
AAMAS'07：第六届自主智能体和多智能体系统国际联合会议论文集
2007年5月
1585页
国际标准图书编号：9788190426275
内政部：10.1145/1329125
会议主席：
埃德蒙·杜菲
密歇根大学
,
Makoto Yokoo公司
九州大学
,
课程主席：
迈克尔·胡恩斯
南卡罗来纳大学
,
Onn Shehory公司
IBM以色列海法研究实验室
版权所有©2007 ACM
如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人拥有的本作品组件的版权。允许用信用证进行摘要。要以其他方式复制或重新发布，在服务器上发布或重新发布到列表，需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]
赞助商
合作中
出版商
计算机协会
美国纽约州纽约市
出版历史
- 出版：2007年5月14日
权限
请求有关此文章的权限。
请求权限

检查更新
限定符
- 研究论文
会议

接受率
总体验收率1,155属于5,036提交文件，23%
资金来源
其他指标
查看文章指标

文章指标
- 7
  引文总数
  查看引文
- 257
  下载总量
- 下载量（最近12个月）26
- 下载次数（最近6周）5
其他指标
查看作者指标
引用人
查看全部

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用eReader联机查看。

电子阅读器

宽松Q学习者的理论优势：进化博弈论视角

AAMAS’07：第六届自治代理和多代理系统国际联合会议记录

摘要

工具书类

引用人

建议

协作多智能体系统中的宽容学习者

宽容型学习者的理论优势：进化博弈论视角

宽容学习的实证和理论支持

评论