LUDAE项目

 转到主页 下一个。。。

这个LUD项目

介绍

其中,主要的调查问题是学习。本项目关注基于完全竞争和全面合作,可能能够提取知识以改进其自己在特定工作问题上的表现:学习如何玩在比赛中表现出色。

为什么要玩游戏?

游戏无噪音、便宜且容易可复制环境,其中战术、战略、搜索、学习和其他相关特征的概念人工智能(AI)可以在最纯净的状态下进行测试。游戏,到期为了概念上的灵活性,允许为许多不同的思想。

游戏也很有趣。它们被所有文化、地区和时代所传播,并且可能一直(并将继续)对我们的进化非常重要,因为它们提供了智力和理性任务的娱乐维度。一场比赛可能成为学习如何正确思考的工具。

什么游戏?

奥运会开启了一片创意、概念、策略和众多关注的海洋不同的人。事实上,任何试图收集所有可用游戏的人都会很快被淹没根据它们的数量和种类。这里,当使用游戏这个词时,它指的是游戏没有机会(没有骰子或任何随机小工具)和隐藏的信息(每个人对比赛都有相同的认识时间)。这种游戏通常被称为完美信息游戏.为了限制更多这类可能的游戏,我们应该应对只供2名玩家玩的游戏(没有有趣但复杂的问题外交、虚张声势、政治、联盟……),在规则离散网格(即方形和六边形网格)和基于旋转的网格(这是完美信息)。此外,游戏主题(如果有的话)并不重要,因此这套游戏也适合抽象游戏类别。

从所有这些来看,我们将专注于只有一两种棋子的游戏;这将排除国际象棋(如亚历山大·克伦罗德(Alexander Kronrod)曾说过的人工智能果蝇)但仍包括Checkers、Othello、Go、Tic-Tac-Toe和许多其他(用于此类游戏的详细列表,请访问这个抽象游戏世界). 然而,这并不意味着严格限制在项目上(工件类型的最大数量很容易扩展到不仅仅是2),而是要使项目目标尽可能集中于我们打算研究的学习的基本问题。

其他作品

对棋类游戏软件玩家的实际调查领域包括几种不同的方法。其中一些在此处进行了审查(另请查看广泛的列表来自机器学习在游戏中):

这个基于特定知识该方法在以下方面取得了巨大成就一些游戏,最著名的案例是IBM的深蓝战胜卡斯帕罗夫谈国际象棋比赛。这个游戏的组阿尔伯塔大学在几种世界级的软件上工作方格图案,十六进制或作用线。胜利者艾利斯工作解决了Gomoku、Connect4和Qubic。约翰·罗梅因多游戏是一个使用面向规则的语言定义如何玩的程序,但仍然需要人工编码每个给定游戏的评估。

这个超塑性该方法试图从规则中找到已知模式并通过调整定义评估功能。巴尼佩尔元游戏是一个分析特定语言上所述规则的程序,并且自动为每个游戏位置创建适当的评估。最多使用这种方法的成功系统是商业应用Zillions公司第个游戏。这两个系统确实有很多不同的表现,他们可能会在适合的比赛中取得很好的成绩它们的元评估功能,在其他情况下发挥得很差。 

这个学习该方法提供了尽可能少的特定了解某个游戏,并使用优化机制来改进玩游戏。他们中的一些人将大量知识插入到特征,并将学习简化为相对权重的优化用于这些功能。这种方法的例子是塞缪尔的自学50年代和60年代的球员与方格队和迈克尔·盖里蒂队打交道SAL公司[论文]. 

另一个可能会离开任务,而不是插入良好的专业知识帐户特性(即使每个特性的相关性未定义)。结果是给定的游戏可能会出现,为知识获取提供了额外的维度。相关的工作可以在莱文森的莫尔夫,乌特戈夫精灵,布鲁GLEM公司,福塞特齐尼思[论文]. 

还提出了另一种方法通过苏珊爱泼斯坦HOYLE公司,根据几个启发式算法之间的先前协议决定下一步行动的程序,每个人都有一定的顾虑(每个启发式可能有不同的方法计算其知识)。

这个进化的A-生活方法通过使用遗传范式来进化来解决问题一代又一代的决策结构有望改进他们玩游戏的方式。大卫·福格尔就是一个很好的例子工作在进化神经网络上玩棋子。其他相关工作(使用特殊的神经网络架构)是SANE公司,在两个不同的种群共存的地方,宿主试图改善他们的当寄生虫数量增加以击败主机,提供持续的“攻击性”背景主机必须进化。另一个尝试使用不断发展的网络的游戏是点“n”框.

一般信息可在以下链接中找到[1,2].同时检查电脑类游戏组荷兰马斯特里赫特大学电脑类游戏研究所日本静冈大学。

术语

科学家宁愿用别人的牙刷
比别人的科学家命名法更重要。
老话

在LUDÆ内部,将有一组代理,称为运动员,能够执行多个竞赛给定的游戏.A型锦标赛一组球员之间的一系列比赛,所有球员都与其他。 

游戏由一组游戏材料(设置),的规则集,即一组规则 (它定义了有效集移动对于给定的游戏状态),的终局功能(定义游戏结束时间的函数)和最初的设置(即每次比赛的初始状态)。游戏状态由某个棋盘位置、下一个玩家和一些额外的玩家定义信息(例如,越野棋子的数量、实际游戏阶段、,捕获碎片的数量,…)两个玩家都可以看到。更正式地说:

  • 这个板是一组标签,或细胞,以及一组有序的单元格,或链接
    • 每个单元格与值关联,该值定义它是否为空或被某片(白人/黑人士兵/国王)占据
    • 一个电路板可以任选地具有与一组单元格,称为部门.
    • 一个位置是具有一组关联值的电路板对于每个单元格
  • 一个状态包括:
    • 一个董事会职位
    • 哪个是下一个玩家
    • 一组可选的寄存器定义额外信息。
  • 这个设置S公司是游戏G的所有状态集。
    • S公司0是一个叫做游戏设置
  • 这个规则集 R(右)是关系SxS
    • 每个对(S,Sj个)在R中称为合法的 移动
    • S公司是一个有效的 状态如果S =Rn个(S0),即,如果有一组n>=0的合法移动从设置
    • 全部有效状态SF类其中没有(SF类,S) 在R中称为最终状态.
    • 一个如果R是反身的,比赛允许传球
    • 一个若R是对称的,博弈是可逆的
    • 一个若R是可传递的,游戏有一个超级KO规则
  • 这个终局功能:S->NxN定义为:
    • 终局(S)=<0,0>如果S不是最终状态
    • 终局(S)=<1,1>如果S是最终状态第一名球员
    • 终局(S)=<1,0>如果S是最终状态,双方平局
    • 终局(S)=<1,-1>如果S是最终状态并且是第二名球员
  • 这个规则集R也称为游戏树
    • 这个从S开始的一组合法移动0已知的被认为是好的或坏的动作开放理论比赛的关键
    • 这个一组有效状态,从中可以知道所有合法移动直到达到某种最终状态,称为终局理论比赛的关键
    • 这个所有其他有效状态的集合称为中间游戏.
  • 一个行动是函数S->S
    • 一个动作是游戏板上的原子变化(例如。,插入/删除一块或一个单元格,更改游戏寄存器,…)。
    • 一个动作集A1,A2, ..., 一个n个为给定状态S,iff(S,a)定义合法移动1oA公司2o.…oAn个(S) )属于R
  • 一个游戏政策是函数P:S->an个这就决定了对于每个有效状态,下一步应该做什么。
    • 一个战术是一个实用函数,为每个函数返回一个实数有效状态。
    • 一个策略是一个加权战术序列。
    • 这个然后策略使用一个或多个策略来最大化下一个状态的预期值,从而决定哪个将是下一步,即P(状态)=arg max行动(战略(行动(状态))

在大多数游戏中,规则集R不能明确表示(游戏树可以无限或非常大),因此必须对定义R.A低级描述重点是对过程进行编码有效移动(状态),它给出了一组来自给定合法状态的有效移动。一个高级描述重点是定义一种语言来表示规则(万亿'ZRF公司是最多的使用和成功的示例)。 

竞技场&学术机构

LUD是一个试图在合作和竞争。这是两个主要结构的基础竞技场学院竞技场是所有比赛的举办地;学院是保存和制作之前所有锦标赛收集的所有知识的地方可供所有现有玩家学习和改进。

在竞技场内,每场比赛都有一组球员。这些玩家可能有不同的决策方式(决定哪一种是最好的在所有可能的选项之间移动)和学习(更新决策结构)。玩游戏时有过多不同的态度似乎有助于提高系统的全局性能。在任何优化问题中,避免局部极小值是取得更好的结果。使用不同的搜索策略一些玩家可能比其他玩家更容易摆脱局部极小值,最终,能够通过学院将信息发送给其他人。

在固定数量的比赛后(如果没有比赛,则只进行一次比赛参与学习),竞技场激活选择机制,有利于统计上表现最好。下一代玩家将是在前一届锦标赛的最佳参赛作品中,再加上一些新的球员的基因组合和突变(至少对于那些它们的内部结构的组合或突变是有意义的)。

学院里充斥着这些球员收集的知识。那里这个主题中有许多开放性问题:

  • 什么应该是插入/删除知识的标准吗? 
    • 严厉的玩家的控制结构
    • 怎么量化每一块知识的质量?(使用次数,成功的次数,在这种情况下战术应与胜利增量成比例)
    • 一个忘记未使用知识的价值,每个知识都会更新一代
  • 什么知识类型可以保留吗?
    • 这个开放理论,或Fuseki
    • 这个终局论
      • 了解如果可能的话,应该合并模式,以实现更多广义的。
    • 本地/中间游戏模式移动(战术),或Tesujis
      • 使用表示它们的模式? 
      • 分析比赛?(例如,T好吗游戏G上的pentomino?)
      • 怎么从专家游戏中提取Tesujis?
      • 怎么推广两个类似的Tesuji?
    • 功能评价者(启发式)和决策机制(策略)
    • 全部出于历史或遗传目的的玩家(?)
  • 什么是否使用了表征语言?
    • 一个可以翻译为玩家自己的语言语言(世界语)
    • 全部知识是相同的,还是不同的?
  • 可以在线添加专家人类知识?
  • 可以知识是混合的吗?怎么用?

学院

拉斐尔·桑齐奥(Rafael Sanzio)——雅典学校,16世纪

阿雷纳

古罗马竞技场

玩家

玩家可以为特定游戏。它由以下部分组成:

  • 一个与竞技场对话的通信模块(因此其他玩家)
  • 一个与学院对话的通信模块(发送/接收命令)
    • 需要知道如何将他的知识翻译成学院语言
  • 一个博弈树上的搜索机制(α-β, ...)
  • 一个游戏政策
    • 这个策略内部结构由玩家的类型定义(可能使用基因、神经网络、专家特征……)

球员应该:

  • 知道游戏规则为了创建一组有效的移动给定状态(即,如果给定,它必须能够创建游戏树足够的时间)
  • 能够决定在他所有的选择中。
  • (可选)能够学习,这样它可以(希望)改进自己的决策能力
  • (可选)能够分析游戏树,独立于实际游戏体验。

最后两点是指收集数据的相反方法。分析是一种积极的探索游戏树,它不需要任何知识体验,以应对最终的游戏状态。学习是被动的,被动的勘探游戏树,它根据发生的事件产生知识游戏状态。原则上,如果分配了足够的资源,但每个资源都有其弱点。甚至很深对游戏树的分析可能不足以发现只有与专家较量才能获得经验。打开另一方面,通过做出无法逆转的糟糕动作来学习更糟糕,如果玩家能够预测并在第一时间避免地点。分析可以创造关于只会很少发生的情况的无用知识真正的游戏。只从与新手的游戏中学习,在从长远来看。

当谈到学习时,上面的前两点包括在调用了博弈域的弱理论(查看爱泼斯坦的作品了解更多详细信息)。原则上,一个学习型玩家甚至不需要知道规则,它可以在开始时随机玩,并学习游戏树(即集合指法律行动)。然而,这是对计算机的一大浪费资源和有问题的学习游戏的方法(没有人这样学习游戏方式)。更相关的一点是决定玩家还应该知道什么。它是否应该知道一些“一般”的启发式(如移动性、捕获计算工件价值的潜力)?Alpha-Beta呢?特定的游戏启发(例如,角单元格《奥赛罗》很好)?

原则上,一个薄弱的理论应该给出最小和最一般的知识,以支持获得有价值和具体的知识。学习应该得到这些信息的帮助,但不应该受到在这个框架中,玩家应该学习如何使用给定的弱理论它所玩的特定游戏的元游戏。但计算资源有界(在大多数情况下过于有界),必须在最小理论信息(即根本没有信息)和在不破坏玩家能力的情况下尽可能减少。[这仍然是一个非常开放性问题,在LUDÆ的当前初始阶段

重要的一点如下。到目前为止,相关工作(提到早期)没有混合主动和被动的游戏树探索;分析和学习不利于培养球员的比赛实力。如果规则的高级描述可用(即使很难实现并且执行速度较慢),它使玩家有可能检查一些游戏属性(例如,计分能力或目标类型),以及这些知识可以用来调整学习结构,甚至在学习开始之前!这种在开始游戏之前进行规划的态度可能意味着更有效的信息获取。在制定此规划时应插入多少预先构建的知识结构是一个非常相关的问题,(据我所知)是一个新问题(答案应尽可能少地提供专家信息性能受损)。

如果没有高水平的描述,玩家甚至可以这样能够分析以下功能:

  • 这个电路板拓扑结构(单元数、每个单元的平均链路等)。
  • 这个每种工件类型的平均移动次数;这将提供一个预期的工件值。
  • 游戏对称吗?通过分析设置和随机位置应用时有效移动(),有可能实现此功能的高度确定性。但这应该是一个弱理论领域的一部分。 
    • 在这种情况下,玩家应该使用两种不同的评估功能(每种颜色一个)。

玩家决策机制,也称为政策基于策略,即战术加权序列评估(或只是战术)。更好玩家有更好的策略,即使它可能具有相同的战术知识一个糟糕的球员(这是他从中选择的方式,更好)。一个最优的政策标识从初始游戏状态到最大决赛的路径状态值可实现,采取了一定的对手行为。可能相关的关键是,即使在对称游戏中,完美的游戏也会导致第一或第二名球员的胜利(或以平局告终)。这是否意味着玩家应该两种不同的策略,一种是先玩,另一种是玩第二个?

马克·汤姆森评论:一场失败的比赛,理想情况下,球员的比赛方式应该是让对手有可能犯错误并失去优势。这将涉及推断其他玩家的策略,并设置一个这种情况会导致另一个玩家误入歧途。或者,还有更多简单地说,输球的球员可以选择拖延输球时间最长的动作时间,假设这会给其他玩家带来很多犯错误的机会

力量

每个玩家在给定游戏中的实力直接取决于表现它玩这个游戏的策略。我们如何比较不同玩家的优势?国际游戏联合会使用已建立的评级对玩家进行分类他们在实际比赛中的表现比较。例如,国际象棋ELO公司(由Arpad Elo教授提出),使用正常的分布和公式。比赛结束后,球员的新ELO计算如下:

新ELO=旧ELO+C。(游戏分数-预期分数)

其中C是一个常数,当运动员的力量增加。也就是说,ELO小于2000的玩家C=30,ELO为10ELO>2400,否则C=130-(对手等级)/20。

与往常一样,输球得分为0,平局得分为0.5,平局为1.0一场胜利。游戏的预期分数由正态分布给出平均值为0.5(抽签值),方差为200。这意味着两个差200分的球员,实力越强结果为0.84。100 ELO的差异将导致较好球员的预期得分为0.69。大于426的差额不会获得ELO得分为更好的球员(舍入小数部分后)。A禁食方式计算这个期望值是:例外结果=1/(1+10^(-D/400)),其中D是玩家之间的实际ELO差异。

最糟糕的球员可能是随机,选择哪种策略随机一次合法行动。根据定义,该播放器具有固定的ELO零点。请注意,一个具有错误策略(即试图放松)的玩家会最终形成负ELO。 

假设策略S2比策略S1高一个游戏级别,当S2对S1的预期比分约为2/3时(赢得三分之二游戏),即他们的ELO差异约为100。如果另一个策略S3是一个等级高于S2,S3对S1的预期得分是否可能为0.84(ELO差值为200)?这是真的吗?仅当关系为可传递,但可能不是。只有在比赛中的运动员池。在这种情况下,ELO给出的平均值为与该锦标赛的球员相比,预期得分。如果玩家的数量非常大,就像在国际象棋或围棋世界中一样,每个玩家都是只能进行数量有限的比赛,给出预期值用于ELO。

战略是稳定的如果面对同一批球员在50个ELO点的间隔内,ELO是相同的;否则,它是不稳定的

一个动作是合理的如果选择ELO E另一名球员采用ELO>E-100的策略。一个动作是好的如果它将由另一个策略为ELO>E+100的玩家选择。否则,它是一个贫穷的移动。显然,这是指比赛的观点(一个好的动作可能会因为糟糕而被认为是坏的分析或仅仅因为他们都是糟糕的玩家)。

策略,即策略中的加权特征,是本质的(有害的),如果删除它将使战略绩效降低(提高)一个级别(ELO增加/减少100)。确实如此批评的(破坏性的),如果增加(减少)大于200 ELO点。一种策略是冗余如果它的删除不影响战略实力。如果策略删除改变每场比赛的整体战略实力结构的.

游戏属性

本节提出了一些定性和定量建议属性来定义和分类抽象游戏。

定量措施

  • 这个搜索空间的维度,即可能的游戏树中的位置,可以用来定义潜力游戏复杂性。

    大小(G)=对数10(NT型)

    其中NT型是G游戏树的节点数。

  • 这个可通过以下方式找到的潜在专业水平数量不同的策略。

    深度(G)=E/100+6/log10(损益)

    其中E是最知名玩家的ELO,PL是大于10或现有人类玩家数量G.对数的使用是双重的,是数字的粗略近似值玩家的数量就足够了,加在E上的值会慢慢减少随着损益的增加(专业知识的发展似乎不是线性的与球员人数有关)。数字6指出,当我们得到100万认真的球员,最好的应该是,大约,一个级别低于完美球员。

  • 这个博弈的分支因子,即

    宽度(G)=平均预期合法移动次数一个有效的位置

    此测量值可以通过自动计算进行统计近似搜索实际比赛。

  • 这个实际交互之间的时间安排(即捕获的可能性或在敌方直接影响下进入领土)合理的对手。

    速度(G)=工件的平均移动次数相互作用

    这个度量可以通过博弈分析进行统计近似与排名前25%的球员进行的实际比赛ELO公司。 

  • 这个整体工件移动性

    流动性(G)=平均(每件的移动次数*空单元格百分比)

    此测量值可以通过自动计算进行统计近似从实际比赛中搜索位置。

  • 这个规则的简单性也可以衡量游戏的质量(尤其是当以比赛的深度来判断时)。我们可以使用科尔莫戈洛夫概念复杂性在这个度量中(对于带有随机元素的游戏,Shannon概念熵也应该是有用的)。

    清晰度(G)=计算的最小程序的大小有效移动()和结束游戏()

    在这种情况下,游戏整体策略的非正式概念可能与的算法大小有关(通常不是给定有界资源的可用资源)功能查找最佳移动( ). 另一点,准确地说这个定义给出的数字是无可辩驳的(!)我们只能对其真实价值进行估计。

定性的措施

这些措施处理整体玩家对游戏树的无知的相关性。他们的确切情况只有在整个游戏树分析为可能。 

  • 之后位置或物质优势,是否有可能在为了获胜?还是很容易逆转,达到平局?

    果断(G)=仓位的平均百分比凭借位置优势获胜战略。 

    位置优势是通过使用最知名玩家的策略。如果果断接近零,这意味着游戏树的结束状态被密集覆盖带抽签。这意味着一个胜利的状态就可以实现在两个玩家的帮助下(例如,用敌人的坏动作),这意味着游戏拖沓,因此存在缺陷。 

    一场果断的比赛应该容易地能够到达比赛结束前的位置,其中这些位置足以以合理的方式赢得比赛。使用Go术语,一个合理的句子/词不平衡应该足以确定赢得比赛的结果。

     

  • 之后位置优势,有合理的恢复机会吗?

    戏剧(G)=合理变动的平均百分比这将带来一个平衡的位置,并赋予位置优势。

    在某种意义上,戏剧是果断的反义词。糟糕的戏剧导致迅速果断的行动;高度戏剧化应该导致尽管有任何位置优势,但结果出乎意料。但他们的定义并不是相互排斥的,游戏可能有优秀的果断,即使只有非常优秀的球员才能从中获利!

     

  • 怎么定义战术和战略计划容易吗?

    清晰(G)=所需子树的平均深度找到合理的移动/日志10(平均数量该子树的节点)

    因此,清晰性告诉我们,战略必须在多大程度上搜索树来确定合理的移动。对于相同数量的节点,如果子树较薄(即较深),这意味着清晰度更好(较低需要横向分析)。对数的用法只是为了避免接近零的数字。

    使用一些诗意的许可缺乏清晰度是战争的迷雾,笼罩着完美的深渊策略。

另一个有趣的属性是拓扑不变性(TI),它将游戏的可玩性与不同板的不同尺寸。也许TI是一个应该添加到每个度量值中,表明当董事会已更改。 

致谢

我想谢谢你大卫普洛格对于游戏分类标准的富有成果的讨论,以及引用速度和硬度(决断力的另一个名称)的概念。有一些公开讨论关于这些科目与克劳德·乔尼尔,约翰劳森Jean-Pierre Queille女士,这对这份文件做出了很大贡献。 也非常感谢卡梅隆布朗因为他对游戏树复杂性的深刻思考作记号汤姆森因为他的精彩文章”定义摘要“以及用于审阅此文本。 我也想承认这里提到的所有科学工作都帮助我掌握了术语和阐述LUDÆ的概念工具。

我不想忘记所有的种子蜘蛛(x x x)在过去10年中填充了数千个电子邮件游戏年!最后,万岁挪威语蓝色!

Joáo Pedro Neto(c)2002年


转到顶部 下一个。。。