总结

传球是足球运动员的关键技能之一,但通常用于评估传球能力的指标是粗略的,主要限于各种形式的传球完成率。由于两个一般原因,这些指标可能会产生误导:它们没有考虑到试图传球的难度,也没有考虑到基于每个球员不同传球次数的经验观察中所涉及的各种不确定性水平。我们通过建立一个统计模型来解决这两个不足,在该模型中,传球的成功取决于执行球员的技能以及其他因素,包括传球的起点和终点、队友和对手的技能,以及对执行球员施加的防守压力和随机机会的代理。我们利用Opta提供的2006-2007赛季英超联赛的数据拟合模型,估计每个球员的传球技巧,并预测下个赛季。模型预测大大优于单纯使用上一个季度的完成率作为下一个季度完成率预测值的朴素方法。特别是,我们展示了在两个赛季中,传球难度的变化如何解释了一些球员在观察到的表现中有很大比例的变化,如果用原始完成率来评估球员的技能,这一事实就会被忽略。

1引言

近年来,无论是在行业内还是在学术界,统计在体育问题上的应用都在增加。棒球等美国体育运动已经接受了这样的观点,即统计数据可以帮助获得竞争优势。足球协会(此处为足球)在将统计数据作为一种有用的工具方面进展缓慢。也许这在一定程度上是由于比赛的复杂性和动态性,而棒球的离散性更为简单,这意味着将统计思维应用于足球更为困难。然而,随着计算能力和数据的不断增加,足球现在更容易进行统计分析。

有很多潜在的方法可以利用足球统计数据来帮助球队表现,但最明显的两种方法是告知比赛策略(例如,哪些球员在一起踢得很好,哪些球员应该在球场上,哪些对手球员最危险?),以及建议球员招募。在本文中,我们关注的是其中的后者。

球员招募基本上可归结为两项任务:对球员进行评级和评估每个球员对球队或俱乐部的价值。估计球员的价值也许是财务分析师的任务,但统计学家当然可以帮助对球员进行评级,并且已经进行了很多尝试。迪什. (2010),Oberstone(2011)和麦克海尔. (2012)都提出了评价球员的方法。然而,这些方法回顾了球员在前几场比赛中的表现,主要用于媒体、球迷和权威人士的辩论,而不是评估球员未来的表现。

足球界已经做了一些工作来预测未来的表现。麦克海尔和什切潘斯基(2014)采用混合效应模型估计足球运动员的进球能力,并在模型拟合过程中使用数据后,通过预测每个球员在本赛季的进球数来衡量他们的得分表现。进球无疑是足球比赛中最重要的方面,因为进球是决定比赛结果的因素,但进球通常是一场比赛的结果,在比赛中,球队将球从一名球员传给另一名球员,目的是创造射门(从而得分)的机会。

由于传球技术在创造得分机会方面的重要作用,因此在评估球员时,传球技术受到了很大的重视,媒体经常报道每个球员的“传球次数”和/或“传球完成率”,以证明球员的比赛表现良好(或较差)。然而,这些统计数据特别粗糙,有缺陷。例如,众所周知,当传球接近对方球门时,完成传球变得更加困难(当对方球员防守球门时球场上的空间变得更加拥挤)。可以对这些天真的统计数据进行调整,比如测量“球场最后三分之一的传球”。将经验传球完成率放在球场上执行传球的部分或方向上,这肯定比引用每个球员的单一价值要好。然而,这也带来了一些新的问题:例如,为什么我们应该专注于球场最后三分之一的传球,而不是,比方说,最后一节?从科学的角度来看,做出这样一个武断的决定显然没有吸引力。衡量传球能力的一个更合适的指标不仅仅是球员在球场最后三分之一的传球完成率,还包括传球的起点和目的地的信息。为了做到这一点,并正确衡量传球的能力,我们采用了统计建模技术。

本文提出的方法试图为评价足球运动员的传球能力提供一个全面的框架。我们解决这个问题的方法是使用广义加性混合效应模型来估计传球成功的概率,即传球在传球队员的球队中找到另一名球员。我们的模型控制了外部环境对传球结果的影响,例如球员团队和对手的质量,以及传球的起点和终点。我们认为模型的关键力量来自于承认经验传球完成百分比中固有的随机成分。例如,那些在一个赛季中传球完成率异常高或异常低的球员很可能分别从好运或厄运中受益,而在下一个赛季传球成功率可能不会达到如此高。我们的混合效应模型认识到可能存在噪音,并将每个球员的经验传球完成百分比缩小到平均值。

在与球员表现相关的经验统计数据中,噪音的影响以前已经被考虑过了。引领潮流的是棒球:埃夫隆和莫里斯(1975)使用Stein的估计器缩小观察到的击球平均数,并显示出对预测的积极影响。阿尔伯特(1992,2006)运用随机效应模型对本垒打者进行分析,并分别对投手的能力进行评估。相关方法已应用于分析延森棒球的其他方面. (2009)专注于防守表现以及拉金和巴根(2008)调查投手和接球手对垒盗的影响。据我们所知,唯一一篇研究足球中类似问题的学术论文是麦克海尔和什切潘斯基(2014)他研究了球员的进球能力。

本文结构如下。章节2概述了我们用于分析的数据。我们在建模方法之前提出这一点,因为了解可用数据可以证明我们做出的一些建模选择是合理的。章节描述了我们的传球模式。在节中4我们给出了模型的拟合结果,然后用它进行各种类型的预测,并与经验数据进行了比较。我们在第节中进行了一些讨论5

2数据

足球比赛的动态特性意味着,将足球比赛简化为可供分析的数据集比板球和棒球等其他离散运动更为困难。然而,像Prozone和Opta这样的公司现在记录时间和位置(x个-在球场上协调)比赛中的每个动作(进球、射门、传球、铲球等)。我们从Opta获得了数据(网址:http://www.optasports.com). 数据由三名分析师组成的团队记录,他们在现场观看每场比赛,并在平板电脑上的专业软件中输入比赛的地点和类型。例如,这些数据用于在比赛日提供实时评论的网站。每次匹配后,都会检查数据是否有错误,并在必要时进行更正。我们的数据提供了2006–2007和2007–2008赛季英超760场比赛的详细情况。该数据库包括每场比赛中试图传球的信息,如执行球员、比赛时间(分和秒)、传球起点的球场坐标、传球终点的球场坐标,无论是用脚还是用头传球,以及成功指示器,在许多其他人中。

为了将注意力集中在我们预期的大致相同的一组比赛上,我们选择了两名外场球员之间的所有公开传球=253 090个事件需要分析。K(K)=481名外场球员T型=我们拟合样本中的20支球队,仅为2006–2007赛季。

2.1影响传球成功的因素及其代理人

我们评估每位球员传球能力的方法是,根据传球环境的信息,当然还有传球球员的身份,对每次传球成功的概率进行建模。因此,我们想要创建一组协变量来描述我们可用的数据中的传递情况。

许多因素可能会影响传球的结果

  • (a)

    固有的技能球员传球,

  • (b)

    的程度控制执行球员在尝试传球时球上的情况(例如,在腰部高度弹跳的球比静止在地面上的球更难传球),

  • (c)

    的级别压力反对派派给传球执行人,

  • (d)

    这个距离尝试传球的次数,

  • (e)

    的级别压力对手队让球员接球

  • (f)

    熟悉在尝试传球的情况下(例如,主队球员可能更了解地面;类似地,边锋更可能在广阔的场地上成功传中,而不是偶尔在这一区域出现的中锋)。

在这些因素中,只有通过距离可以直接从我们的数据集推导出来。关于其他因素的信息无法直接获得;然而,我们可以使用这些数据来开发这些因素的代理。例如,我们不知道接到传球的球员承受了多大的压力,但我们可以假设,通常情况下,他离对手的目标越近,压力就越大,但随着对手球员在比赛接近尾声时疲劳过度,压力就可能越小。这使我们产生了这样的想法,即使用传球的预期目的地和传球的时间作为球员接球压力的代理,并尝试将其作为协变量包含在我们的模型中,以估计传球成功的概率。

继续这种思维方式,我们从数据中创建了几个变量来代理影响传球成功的因素。这些变量中的每一个都可以被认为在许多方面影响传球的成功。

  • (a)

    通行证的来源(x个-和-球场上的坐标)和传球的预期目的地(我们用x个结束-和结束-球场上的协调)代表传球球员的压力、接球球员的承受压力以及传球距离的难度。

  • (b)

    自上一次传递以来的时间(我们表示δt)以及该队当前传球序列中的传球次数,e(电子),代表传球球员对球的控制以及对方球员给他和接球球员施加的压力。

  • (c)

    比赛时间(t吨,以分钟为单位)代表传球球员和接球球员可能面临的压力。此外,这可能反映出球员持球疲劳,并对传球球员产生负面影响。

  • (d)

    传球是用球员的头还是脚进行的,或者上一次传球是以球员的头或脚进行的。我们给这个协变量符号

  • (e)

    从数据集中,我们可以提取出关于每个动作是否都是在决斗之后进行的信息(根据数据提供商的定义,决斗是比赛中对手双方的两名球员之间的一场紧密平衡的比赛),对于传球项目,这可以代表传球球员可能面临的压力。我们将决斗称为d日进行空中决斗d日t吨进行地面决斗。如果决斗后立即传球,这些变量等于1。第三个决斗变量,d日,表示该传球是由参与决斗的玩家发出的。例如,如果球员A成功拦截对手,控制球并传球,d日t吨= 1,d日=0,和d日本次传球=1。如果在铲球后球落在他的队友B身上,d日=0,表示随后的B通过。

  • (f)

    无论球员是否在主场,小时作为熟悉条件的代表。

  • (g)

    最后,我们认为球员的位置代表了他是否受到了对手的压力,以及他所传给的球员是否受到了压力。我们用平均值来表示x个-的坐标k个比赛前的第位选手j个第次匹配为x个¯k个,j个~¯k个,j个。下面我们将更详细地讨论此变量的定义和含义。

表中定义了合成的协变量及其符号1还包括每个协变量作为代理的一个或多个因子,以及我们是否在模型中包括变量的滞后。当将这些协变量包括在第节所述的统计模型中时,可以验证这些协变量是否携带有关通过成功率的信息

表1

用于代理影响传球成功因素的协变量

类型协变量符号滞后近似系数
控制传递球员压力距离接收球员压力熟悉度
连续起点和目的地x、 y、x结束,结束0
上次通过后的时间δt0,1
此焊道序列中的焊道编号e(电子)0
游戏时间(分钟)t吨0
玩家在游戏中的位置x个¯k个,j个,~¯k个,j个0
指示器头球传球0, 1
决斗(空中、铲球、同一球员)d日,天t吨,天1
家庭优势小时0
类型协变量符号滞后近似系数
控制传递球员压力距离接收球员压力熟悉度
连续起点和目的地x、 y、x结束,结束0
上次通过后的时间δt0, 1
此焊道序列中的焊道编号e(电子)0
游戏时间(分钟)t吨0
玩家在游戏中的位置x个¯k个,j个,~¯k个,j个0
指示器头球传球0, 1
决斗(空中、铲球、同一选手)d日,天t吨,天1
家庭优势小时0

滞后表示是否考虑与执行的过程(滞后=0)或前一个过程(滞后=1)对应的值。

表1

用于代理影响传球成功因素的协变量

类型协变量符号滞后近似系数
控制传递球员压力距离接收球员压力熟悉程度
连续出发地和目的地x、 y、x结束,结束0
上次通过后的时间δt0, 1
此焊道序列中的焊道编号e(电子)0
游戏时间(分钟)t吨0
玩家在游戏中的位置x个¯k个,j个,~¯k个,j个0
指示器头球传球0, 1
决斗(空中、铲球、同一球员)d日,天t吨,天1
家庭优势小时0
类型协变量符号滞后近似系数
控制传递球员压力距离接收球员压力熟悉度
连续起点和目的地x、 y、x结束,结束0
上次通过后的时间δt0, 1
此焊道序列中的焊道编号e(电子)0
比赛时间(分钟)t吨0
玩家在游戏中的位置x个¯k个,j个,~¯k个,j个0
指示器头球传球0, 1
决斗(空中、铲球、同一球员)d日,天t吨,天1
家庭优势小时0

滞后表示是否考虑与执行的过程(滞后=0)或前一个过程(滞后=1)对应的值。

2.2确定球员的平均位置

我们模型中的一个关键变量是传球球员在比赛中的位置。我们打算用这一点来代替传球球员可能受到的来自对手的压力。将其作为协变量的一个复杂因素是比赛位置和传球成功率之间可能存在反向因果关系。例如,球员的位置(通常由经理或教练指定)可能是其传球成功率的函数,因为被认为传球成功的球员被要求靠近对手的球门,这反过来又降低了他们的传球成功度,因为对该球员的压力增加。为了防止内生性的可能性,我们使用了“预期比赛位置”,即当前比赛前球员在比赛中平均坐标的加权平均值。球员在给定比赛中的传球能力不会影响他以这种方式定义的预期比赛位置。

现在,我们描述了从单个事件数据中得出这一结果的方法。可以使用更复杂的算法来实现这一点,但由于这不是我们研究的主要重点,因此我们采用以下方法来预测k个第位选手j个第次比赛。

  • (a)
    计算宽度坐标中距节距中心距离的绝对值(节距坐标为x个∈〈0,1〉表示球场长度(0是球队在球门上的坐标),以及∈〈0,1〉宽度(右侧边线为0)作为
    ˜=|负极12|
    当我们计算比赛中球员在比赛中变换位置时距球场中心的平均距离时,我们使用该距离的绝对值来避免取消条款。
  • (b)

    计算(x个¯k个,j个,~¯k个,j个)作为所有k个第个运动员在比赛前的比赛项目(投篮、传球、铲球、决斗、运球等)j个第次比赛。白天玩的游戏中事件的重量d日以指数形式取决于当天和j个th固定装置和由exp{−给出(d日j个负极d日)}. 我们设置了ϕ=0.1,这意味着游戏中的坐标对平均值的贡献约为一周后游戏中坐标的一半。这种选择完全是武断的,但在我们的模型中运行良好(一般来说,球员被分配到我们期望的位置,因为我们知道球员的专业知识)。这些连续变量作为协变量进入我们的模型。

为了展示我们的结果并简化解释,我们根据(x个¯k个,j个,~¯k个,j个)值符合图。1。我们根据球员在该赛季被分配到每个位置的频率,进一步将他们归类为整个赛季的名义位置。最后一步仅用于按位置显示球员的传球评级,而不会出现在传球结果的模型中。

2006-2007赛季比赛中预期球员位置的等高线图:x轴代表边线,x̅=0.0是球队的球门线,而x \773;=1.0是对手的球门线上;y轴是指与穿过球门中心的轴之间的距离,因此y=0.0是球门的中心,y=0.5对应于两条引入线;球员的名义位置基于所示的边界定义(LRD,左后卫或右后卫;CD,中后卫;LRM,左中场或右中场;CM,中中场;CA,中攻击手)
图1

2006-2007赛季预期球员位置的等高线图:x个-轴表示边线,=0.0是该队的目标线=1.0是对手的球门线;这个-轴是从穿过球门中心的轴的距离,所以~¯=00是目标的中心~¯=05对应于两条投入线;球员的名义位置基于所示的边界定义(LRD,左后卫或右后卫;CD,中后卫;LRM,左中场或右中场;CM,中中场;CA,中攻击手)

最后,由于我们根据过去的比赛预测球员的位置,数据缺失((x个¯k个,j个,~¯k个,j个))在样本中每个玩家的第一场游戏中。我们从拟合样本中删除这些观察结果=242 478个数据点和K(K)=456名球员参加了多场比赛。

3足球运动员传球能力的估算模型

如上所述,我们使用模型预测传球成功的概率,以估计球员的传球能力。我们使用的模型来自Lin和Zhang的广义可加混合模型框架(1999). 广义可加混合模型是广义线性模型的扩展,其中线性预测器可以包含协变量的光滑函数以及随机效应。

第次通过o个哪里o个=1表示成功通过o个否则=0。我们假设通过结果的分布遵循伯努利分布,成功概率由线性预测器的逆logit函数表示η以下为:

(o个|η)伯努利(第页)
(1)

哪里

第页=经验(η)1+经验(η)
(2)

我们让η是固定效应的函数β和随机效应b条固定效应对应于表中列出的所有指标变量的矩阵1和拦截

W公司=(1,(n个),(n个负极1),d日(n个负极1),d日t吨(n个负极1),d日(n个负极1),小时(n个))

所以W公司是该矩阵的一行,对应于第次通过。上标n个负极L(左)指示滞后于的值L(左),即对应于事件L(左)在电流通过之前,例如。d日(n个负极1)=1在空中决斗之前的所有传球d日(n个负极1)=0其余部分。

随机效应由向量给出b条,第一个K(K)=456个元素代表球员的传球能力,其余2×T型=2×20个元素,分别对应于传球队员的球队能力和对方促进和阻碍传球执行的能力,从而

b条(K(K)+2T型)×1=((b条(第页))T型(b条(t吨))T型(b条(o个))T型)T型

在广义可加混合模型中η由提供

η=W公司β+Z轴b条+1(t吨(n个))+2(e(电子)˜(n个))+(δt吨(n个))+4(δt吨(n个负极1))+5(x个¯[k个,j个]()(n个),˜¯[k个,j个]()(n个))+6(x个(n个),x个结束,(n个),|(n个)负极0.5|,|结束,(n个)负极0.5|)+7(x个(n个),x个结束,(n个),((n个)负极0.5)(结束,(n个)负极0.5)),
(3)

其中指数k个j个对应于j个第次比赛k个第个玩家和x个¯[k个,j个]()(n个),~¯[k个,j个]()(n个)是执行游戏的玩家先前游戏事件的平均坐标第次焊道(见图。1).Z轴是选择随机效应向量元素的设计矩阵的一行b条对应于执行传球,他效力的球队和对手。的前两列Z轴由0和1组成,而第三列由0和−1组成,因此

  • (a)

    个人传球技巧,

  • (b)

    团队促进传球和

  • (c)

    团队阻碍传球的能力

都反映在相对较高的相应随机效应值中。1,…,7是我们在下面讨论的平滑函数。我们注意到我们截断了e(电子),传递序列中的传递数,因此我们在模型中使用的协变量实际上是e(电子)~=最小值(e(电子),15)这是因为与此协变量对应的拟合平滑函数的形状表明,它正在拟合大于15的值的噪声。

最后,对于随机效应,我们假设

b条N个{0,Σ(σ)},
(4)

其中∑(σ) = Σ(σ第页,σt吨,σo个)是一个(K(K)+2T型)-维对角技巧协方差矩阵与第一K(K)对角线上的元素等于玩家技能方差σ第页2,下一个T型等于球员团队技能方差的元素σt吨2和决赛T型元素等于相反的团队能力方差σo个2这反映了我们的信念,即非常优秀(和糟糕)的球员和球队比平均的个。

在本应用中,球员的随机效应值是感兴趣的关键参数,因为它们可以被解释为球员的传球能力。其他随机效应可用于评估每支球队促进和阻碍传球的能力。

3.1平滑功能

这个(f),(f)=1,…,7,方程式中的项(3)是平滑函数。这些函数在指定协变量和响应变量之间的关系时提供了很大的灵活性。在模型拟合过程中,每个变量都表示为一些基本函数(协变量)的总和,这些基本函数由需要估计的回归系数加权。

这种方法的灵活性带来的风险是,如果基函数数量足够大,平滑函数可能会以不太可能代表底层数据生成过程的形状覆盖观测数据。函数的平滑度与它与观测数据的拟合程度之间存在权衡。通过严格定义的公式(例如函数二阶导数的积分)测量的最佳平滑度在模型拟合过程中确定。

有很多方法可以选择基,这是一组基函数,定义了应该包含目标函数近似值的空间。这里对于单个协变量的光滑函数,(f),(f)=1,…,4(即游戏时间t吨,上次通过后的时间,δt,以及其滞后时间,以及团队当前传球序列中的传球次数,e(电子)~)我们使用薄板回归样条,约为薄板样条函数后者是一个理论上很有吸引力的解决一般平滑问题的方法(参见Wood(2006),第154–156页),但从计算的角度来看是不切实际的,因此是近似值。

对于平滑功能5,67我们使用张量积平滑这是因为薄板回归样条是各向同性的,因为它们在所有维度上都平等地对待拟合样条的平滑度。在我们的应用中,没有理由相信存在这种各向同性。例如,函数的平滑度5,67即使我们将两个维度都缩放到相同的实际比例(例如米),沿着音高的方向几乎可以肯定地与函数的平滑度不同。相反,张量积平滑不一定是各向同性的,因此这里使用了张量积光滑。

我们使用两个功能描述通道(起点和终点)组件的位置:67.在某种程度上,我们希望将左右(沿-轴)节距的侧面。例如,在保持所有外部性不变的情况下,我们预计,距离轴线左侧10米处穿过两个目标中心的通道与距离轴线右侧10米处的通道成功的几率相同,并且到这一点的通道也一样。这种信念反映在6-功能。然而,我们想将传球与右边10米的点区分开来,从右边1米的轴线到左边21米的传球(同样x个). 这个6-函数不允许进行这种区分(|(n个)负极0.5||结束,(n个)负极0.5|这两种传递方式相同)。因此,我们引入((n个)负极0.5)(结束,(n个)负极0.5)这一术语表示向球场同一侧传球为正,表示穿过球场轴线的传球为负。我们在7平滑函数与x个-和x个结束-协变量允许其效果随传球起点和终点到两条球门线的距离而不同。

方程中广义可加混合模型的参数(1)(4)使用惩罚拟似然法(Schall,1991; 布雷斯洛和克莱顿,1993)R(R核心团队,2012)使用mgcv包(Wood,2006).

3.2预测和估计球员的传球能力

方程中玩家的随机效应(4)可以解释为球员的传球能力。根据方程式中描述的模型(1)(4),我们可以计算分析中感兴趣的几个通过率预测。

  • (a)

    完整的预测,第页^((f)),可以通过替换方程中的固定参数来获得(3)和他们的估计β^随机效应及其预测(b条^(第页),b条^(t吨),b条^(o个))并使用剩余协变量的拟合平滑函数。从这个意义上说,这是我们最完整的预测类型,它既考虑了传球运动员的技术,也考虑了预测传球的难度。它预测实际尝试的传球的完成率。通过比较实际通过率和平均通过率第页^¯k个,((f))此值的k个第个球员在第二个赛季传球(≡2007–2008)我们可以知道相对于模型预期,他表现得有多好。然而,这个指标并不能很好地衡量球员的传球技巧,因为它还包含了有关传球难度的信息。虽然它可以作为模型拟合度的指标,但还是很有用的。下一种预测是为了过滤传球难度,以便对球员的传球能力进行公平比较。

  • (b)

    预测“平均”难度通过2006–2007赛季k个第个玩家,作为第页^k个,2006/2007(av(平均值))它平均了传球的难度完整的预测这样就可以公平地比较玩家的随机效应预测。使用以下程序计算。

    • (i)

      对于每个第四步,我们计算线性预测因子η与完整预测的方式相同,只是玩家的随机效应b条(p)设置为0。

    • (ii)

      我们计算了2006-2007赛季所有传球的线性预测值的平均值。

    • (iii)

      我们将上述平均线性预测因子添加到玩家的随机效应预测中b条^(第页)

    • (iv)

      最后,我们通过计算上述调整后的线性预报器的逆logit函数,将这些值放在概率标度上。

      我们用这个预测来衡量通过能力。当然,我们可以只使用玩家的随机效应预测b条^(第页)而不是为了这个。然而,为了便于解释,我们使用此转换将其置于通过率的范围内。

  • (c)

    针对“平均”难度通过的夹具特定预测获得方式为第页^k个,j个(私人电话),对于玩家k个固定装置内j个((pto)缩写代表“球员、球队、对手”)。完整的预测,它忽略了所有传球难度信息,除了在给定比赛中促进和阻碍球队传球的能力。使用以下程序计算。

    • (i)

      首先,我们计算2006-2007赛季传球的平均线性预测值,方法与平均难度及格预测,除了对于每次传球,我们将球员、他们的球队和对手的所有随机效果设置为0(以及他们估计的所有其他参数)。

    • (ii)

      对于每个玩家k个在每个固定装置中j个在2007-2008赛季,我们将上述平均线性预测值添加到球员、球队和对手的随机影响预测中。(对于2007-2008赛季新升入联盟的球队,他们没有自己的随机效应预测,我们使用2006-2007赛季从联盟降级的球队各自随机效应的平均值。)

    • (iii)

      我们通过计算上述调整后的线性预测值的逆logit函数,将这些值放在概率标度上。

    对于每个固定装置j个我们计算这些家庭预测的平均值,第页^¯小时,j个(私人电话)以及客场队员,第页^¯,j个(私人电话)我们还计算了原始预测的相应平均值,o个^¯小时,j个o个^¯,j个,根据j个2007–2008赛季的第次比赛k个这位球员预计将以他在合适样本中的平均速度完成传球(2006-2007赛季)。我们使用这两组平均值作为j个通过比较原始传球完成率来衡量球员技能,从而评估我们模型的实用性。

  • (d)

    平均玩家预测第页^(e(电子))预测如果由普通玩家执行,则给定传球将成功完成的概率。它的计算方法与完整的预测除了玩家的随机效果b条(p)设置为0。这个值可以被认为是一个易于传递的代理。我们还计算平均值第页^¯k个,(e(电子))对于所有k个两个赛季中第个球员的传球

4结果

4.1广义线性混合模型估计结果

2给出向量中包含的参数模型项的估计β

表2

参数模型项的估计(向量的各个元素β)

协变量姓名估算标准z值
错误
1拦截1.280.0341.91
(n个)头球传球−1.220.02−77.03
(n个–1)上一次传球被顶出−0.210.02−12.82
d日(n个负极1)之前的比赛是空中决斗−0.510.05−9.52
d日t吨(n个负极1)上一场比赛是铲球0.220.045.03
d日(n个负极1)之前的事件是一场涉及通行证执行人的决斗0.130.042.97
小时(n个)传球执行者为主队比赛0.090.018.11
协变量姓名估算标准z值
错误
1拦截1.280.0341.91
(n个)人头传球−1.220.02−77.03
(n个–1)上一次传球被顶出−0.210.02−12.82
d日(n个负极1)之前的比赛是空中决斗−0.510.05−9.52
d日t吨(n个负极1)上一场比赛是铲球0.220.045.03
d日(n个负极1)之前的事件是一场涉及通行证执行人的决斗0.130.042.97
小时(n个)传球执行者为主队比赛0.090.018.11
表2

参数模型项的估计(矢量的各个元素β)

协变量姓名估算标准z值
错误
1拦截1.280.0341.91
(n个)头球传球−1.220.02−77.03
(n个–1)上一次传球被顶出−0.210.02−12.82
d日(n个负极1)之前的比赛是空中决斗−0.510.05−9.52
d日t吨(n个负极1)上一场比赛是铲球0.220.045.03
d日(n个负极1)之前的事件是一场涉及通行证执行人的决斗0.130.042.97
小时(n个)传球执行者为主队比赛0.090.018.11
协变量姓名估算标准z值
错误
1拦截1.280.0341.91
(n个)头球传球−1.220.02−77.03
(n个–1)上一次传球被顶出−0.210.02−12.82
d日(n个负极1)之前的比赛是空中决斗−0.510.05−9.52
d日t吨(n个负极1)上一场比赛是铲球0.220.045.03
d日(n个负极1)之前的事件是一场涉及通行证执行人的决斗0.130.042.97
小时(n个)传球执行者为主队比赛0.090.018.11

不出所料,头球传球((n个)=1)比用脚传球的准确性低,并且对后续传球也有负面影响((n−1个)=1),可能是因为他们迫使接球手再次顶球,或者花更多时间控制球并将球压到脚上。头球传球通常不太准确,因为在这种情况下,执行球员对球的控制力不如用脚传球。如果传球是赢得空中决斗的直接结果(d日(n个负极1)=1),它完成的机会进一步下降,但如果同一个玩家赢得决斗并传球,这种效果会得到一定程度的补偿(d日(n个负极1)=1). 用铲球从对方手中夺回球后立即进行的传球通常更有可能完成,可能是因为对方需要一些时间重新组织自己(例如,被铲球的球员在传球时可能在地面上)。

图。2在线性预测器的尺度上给出了时间相关协变量的估计平滑函数。在时间压力下通过(图。2(c) )成功的概率相对较低,就像那些在球队建立控球之前交换过几次传球的球员一样(图。2(b) )。有趣的是,在游戏的后期,传球通常更容易(图。2(a) )也许是因为球队变得疲倦,无法像比赛早期那样有效地对传球者施加压力;然而,这种影响很小。

线性预测标度上的时间重定分量平滑函数(,95%置信区间):(a)游戏时间(分钟);(b) 通行证号码;(c) 上次通过后的时间(秒);(d) 前一次和前一次之间的时间
图2

线性预测器尺度上的时间分量平滑函数(图形,95%置信区间):(a)游戏时间(分钟);(b) 特定管有中的通行证号码;(c) 上次通过后的时间(秒);(d) 前一次和前一次之间的时间

传球的成功也与执行球员在前几场比赛中的平均位置有关,如图所示。.控制其他一切,防守队员(低水平球员x个¯(n个))似乎比其他球员都容易,其次是边锋和中场。中锋通常面临着最艰巨的任务。要理解为什么这可能是真的,可以考虑一下自己球门附近的传球。如果是一名中锋传球,那么球队很可能面临来自对手的巨大压力,所有球员都被推回自己的球门附近,几乎没有传球的选择。或者,如果是后卫传球,那么球员(和他的球队)承受压力的可能性就较小。

在线性预测器的尺度上,前几场比赛中执行运动员的平均位置(涉及他的所有项目的位置)的平滑函数s6(x⁄(n),y⁄;y⁄(n)平均了从穿过两个球门中心的轴的距离,以便不允许y值抵消那些改变球场位置的球员
图3

平滑功能6(x个¯(n个),˜¯(n个))执行球员在之前比赛中的平均位置(涉及他的所有项目的位置)的线性预测值:x个¯(n个)对应于节距的长度和˜¯(n个)宽度;˜¯(n个)平均从穿过两个目标中心的轴的距离,以便不允许取消换场地的球员

说明传球起点和终点对其成功概率的影响是一个更大的挑战,因为在我们的模型中,后者的线性预测取决于通过两个多维函数的音高坐标。图。4是为了应对这一挑战。其目的是确定某一点(图中的粗点)的焊道原点位置、最常见值处的指示变量以及最接近中值的观测值处的连续变量。图。4显示了相对于传递目的地位置的线性预测器的轮廓。

相对于焊道原点和终点位置的线性预测器值:等高线是焊道终点在水平轴(xend(n))和垂直轴(yend(n,从(0.25,0.50,0.75)×(0.25,050,0.76)网格中选择(直接通往目标)
图4

相对于通道起点和终点位置的线性预测器值:等高线是水平方向上通道终点的线性预验器值(x个e(电子)n个d日(n个))和垂直方向(e(电子)n个d日(n个))轴和过程原点变量(x个(n个)(n个))固定在粗点所示的值上,粗点从(0.25,0.50,0.75)×(0.25,050,075)网格中选择(图形,直达目标)

首先,注意相对于穿过两个目标中心的轴的设计对称性。除此之外,向对手球门(沿着粗点的横轴)传球的成功几率往往比侧向传球,尤其是向后传球的成功几率更小。此外,传球给两翼中的任何一翼都比直接向前传球更有可能成功。这是因为防守队员往往会集中精力,不让持球队员在球门正前方进入方便的射门位置。最后,成功的概率往往在传球球员之前下降(假设他面对对手的球门)。这可能是因为通常有一个对手在传球球员的前面,挡住了通往球门的最直接路线(虚线)。

团队随机效应的预测如图所示。5垂直轴对应于术语b条(t)代表每个球队的传球能力(例如通过巧妙的“离球”动作)。它越高,团队就越好。横轴包含术语b条(o)捕捉每支球队阻止对手传球的能力(例如,通过攻击性压迫和近距离盯防)。同样,数字越高越好。与对角线虚线的距离可以被视为团队在这两方面能力的总结。剧情中有四个明显的局外人:阿森纳、切尔西、曼联和利物浦,他们在联赛中占据主导地位,尤其是在传球能力方面。阿森纳就是一个极端的例子,因为他们在传球方面做得最好,但在阻止传球方面做得一般。相比之下,利物浦在这两个方面几乎都做得一样好。

团队随机效应预测
图5

团队随机效应预测

足球狂热爱好者可能会发现这些结果对协变量对通过成功概率的影响是直观合理的。我们认为,这表明该模型运行良好。

4.2通行便利

我们将拟合样本中每一次传球的容易程度与普通球员完成传球的概率近似,第页^(e(电子)).图。6(a) 显示了生成的直方图。

易传性:(a)所有位置(连续四分位的切分);(b) 球员从指定位置轻松传球的相对频率(左中场或右中场;左后卫或右后卫;中中场;中后卫;中攻击手)
图6

轻松传球:(a)所有位置(图形,连续四分位数的切割);(b) 球员从指定名义位置传球的相对容易程度(图形左中场或右中场;图形左后卫或右后卫;图形中前卫;图形中后卫;图形,中央攻击者)

越往右,越容易通过(越有可能完成)。有趣的是,分布高度偏向于轻松传球:一半的传球预期完成概率超过76%,四分之一的传球成功执行的概率为90%或更高。相比之下,只有大约四分之一的传球不太可能完成。

我们可以根据球员的名义位置来细分传球难度信息。这在图中完成。6(b) ●●●●。相对较高比例的轻松传球(最右边)是由中场球员尝试的。传球难度越大,这组球员执行的传球比例就越低,相反,进攻球员在中路(中前卫)和边路(左右中场)的尝试次数就越多。防守队员(中后卫和左右后卫)传球的比例实际上与传球的难易程度有关。

我们认为,原始传球完成率不能很好地衡量球员的传球能力的原因之一是,它受到了尝试传球难度的污染。换言之,这个简单的指标可能仅仅因为尝试传球类型的变化而波动,而不是执行球员固有的技术水平。如果是这样的话,那么对于在第二个赛季尝试更轻松传球的球员,我们可能会期望完成率从一个赛季增加到另一个赛季,反之亦然。这是图中分析的内容。7它将2007年至2008年的平均完成率与2006年至2007年的平均完工率进行了比较(图。7(a) )和完整模型预测的平均值,第页^¯k个,2007/2008((f))(图。7(b) )。聚焦于图。7(a) 首先,不同季节的经验值之间存在一定的相关性。然而,同样明显的是,许多偏差可以用传球的容易性来解释,因为表现有所提高(在突破的身份线之上)的球员在2007-2008赛季往往比上一个赛季面临更容易的任务,第页^¯k个,2007/2008(e(电子))负极第页^¯k个,2006/2007(e(电子))>0相反,在第二个赛季尝试更高难度传球的球员的完成率往往会下降。由于该模型可以控制通过难度,因此其预测值与2007-2008年经验值之间的关系更强(图。7(b) ),模型的皮尔逊相关系数为0.92,朴素预测为0.72。除了说明传球难度的影响外,该分析还可以作为模型的一些验证。

2007-2008年的平均观察传球完成率o³k,2007/2008年,与天真的oák,2006/2007年和模型p³k(2007/2008(f))预测相比:2007-2008(e)−p³k2006/2007的数量是第k名球员在2006-2007至2007-2008赛季传球容易性代理值的变化(,正;,负)(,0.05; , 0.10; , 0.15; , 0.05; , 0.10; , 0.15; , 标识函数)
图7

2007年至2008年观察到的平均通过率o个¯k个,2007/2008对抗天真,o个¯k个,2006/2007和模型,第页^¯k个,2007/2008((f)),预测:数量第页^¯k个,2007/2008(e(电子))负极第页^¯k个,2006/2007是2006–2007赛季到2007–2008赛季,代表传球难易度的值的变化k个第个玩家(图形,阳性;图形,负)(图形, 0.05;图形, 0.10;图形, 0.15;图形, 0.05;图形, 0.10;图形, 0.15;图形,标识函数)

根据模型列出了每个位置的前五名球员,以及他们的预测和经验值。该名单仅限于在2007-2008赛季至少传球100次的球员,以便在模型预测和验证样本中的观察值之间进行可靠比较。揭示了一些具体的例子,说明该模型如何合并并解释在预测中如何克服困难。

表3

2006–2007赛季表现排名前五的传球者

职位名字姓氏2006–2007赛季成绩2007-2008赛季成绩
团队n个平均观测完成率,o个¯平均通过率,第页^¯(e(电子))通过评级,第页^(av(平均值))团队n个全部预测的平均值,第页^¯((f))观察到的平均完成率,o个¯平均易通过性,第页^¯(e(电子))完成率偏差,o个¯负极第页^¯((f))
光盘约翰特里切尔西10580.880.810.83切尔西6130.840.840.790
光盘威廉加拉斯阿森纳7300.860.810.81阿森纳8840.890.920.870.03
光盘萨米语希比亚利物浦10880.750.720.79利物浦6480.780.790.760.01
光盘里卡多卡瓦略切尔西11930.830.800.79切尔西6210.820.860.810.03
光盘克里斯里戈特米德尔斯堡1420.720.650.79米德尔斯堡2200.670.720.650.05
LRD公司帕斯卡希姆邦达维甘和托特纳姆13510.750.720.80托特纳姆热刺11190.770.790.740.02
LRD公司法维奥奥雷利奥利物浦4350.710.660.80利物浦5920.720.700.69−0.03
LRD公司安得烈泰勒米德尔斯堡11740.680.650.79米德尔斯堡4530.670.680.640.01
LRD公司史蒂夫芬南利物浦13110.750.730.79利物浦6310.760.740.74−0.02
LRD公司史蒂芬卡尔纽卡斯尔联队8580.730.700.79纽卡斯尔联队2970.720.700.70−0.02
厘米保罗斯科尔斯曼联18980.900.840.85曼联13410.890.890.84−0.00
厘米斯蒂利安佩特罗夫阿斯顿维拉9960.790.740.80阿斯顿维拉5620.780.790.740.01
厘米迈克尔埃辛切尔西16370.840.810.80切尔西12200.820.800.79−0.01
厘米迈克尔卡里克曼联17620.820.790.80曼联12800.820.820.790.01
厘米迪迪埃佐科拉托特纳姆热刺11050.820.790.80托特纳姆热刺10320.830.840.810.01
LRM公司米克尔阿特塔埃弗顿12920.730.680.81埃弗顿8770.690.720.650.03
LRM公司亚力山大赫莱布阿森纳14550.800.780.79阿森纳13490.800.820.780.02
LRM公司加雷思巴里阿斯顿维拉14510.680.650.79阿斯顿维拉12030.710.720.690.01
LRM公司凯文基尔班埃弗顿和维甘8310.620.590.79维根队7250.640.570.62−0.07
LRM公司克里斯蒂亚诺罗纳尔多曼联12000.780.760.78曼联10170.760.760.740
加利福尼亚州约翰小心阿斯顿维拉3090.560.520.79阿斯顿维拉7230.560.550.54−0.01
加利福尼亚州戴伦弯曲查尔顿竞技6790.650.630.78托特纳姆热刺1600.590.580.57−0.01
加利福尼亚州卡洛斯特维斯西汉姆联5180.740.710.78曼联9500.800.800.780
加利福尼亚州尼古拉斯阿内尔卡博尔顿流浪者队8130.660.640.78博尔顿和切尔西6200.680.660.66−0.01
加利福尼亚州恩万科卡努语朴茨茅斯9020.720.700.78朴茨茅斯4360.760.750.75−0.01
职位名字姓氏2006–2007赛季成绩2007-2008赛季成绩
团队n个平均观测完成率,o个¯平均通过率,第页^¯(e(电子))通过评级,第页^(av(平均值))团队n个全部预测的平均值,第页^¯((f))平均观测完成率,o个¯平均通过率,第页^¯(e(电子))完成率偏差,o个¯负极第页^¯((f))
光盘约翰特里切尔西10580.880.810.83切尔西6130.840.840.790
光盘威廉加拉斯阿森纳7300.860.810.81阿森纳8840.890.920.870.03
光盘萨米语希比亚利物浦10880.750.720.79利物浦6480.780.790.760.01
光盘里卡多卡瓦略切尔西11930.830.800.79切尔西6210.820.860.810.03
光盘克里斯里戈特米德尔斯堡1420.720.650.79米德尔斯堡2200.670.720.650.05
LRD公司帕斯卡希姆邦达维甘和托特纳姆13510.750.720.80托特纳姆热刺11190.770.790.740.02
LRD公司法维奥奥雷利奥利物浦4350.710.660.80利物浦5920.720.700.69−0.03
LRD公司安得烈泰勒米德尔斯堡11740.680.650.79米德尔斯堡4530.670.680.640.01
LRD公司史蒂夫芬南利物浦13110.750.730.79利物浦6310.760.740.74−0.02
LRD公司史蒂芬卡尔纽卡斯尔联队8580.730.700.79纽卡斯尔联队2970.720.700.70−0.02
厘米保罗斯科尔斯曼联18980.900.840.85曼联13410.890.890.84−0.00
厘米斯蒂利安佩特罗夫阿斯顿维拉9960.790.740.80阿斯顿维拉5620.780.790.740.01
厘米迈克尔埃辛切尔西16370.840.810.80切尔西12200.820.800.79−0.01
厘米迈克尔卡里克曼联17620.820.790.80曼联12800.820.820.790.01
厘米迪迪埃佐科拉托特纳姆热刺11050.820.790.80托特纳姆热刺10320.830.840.810.01
LRM公司米克尔阿特塔埃弗顿12920.730.680.81埃弗顿8770.690.720.650.03
LRM公司亚力山大赫莱布阿森纳14550.800.780.79阿森纳13490.800.820.780.02
LRM公司加雷思巴里阿斯顿维拉14510.680.650.79阿斯顿维拉12030.710.720.690.01
LRM公司凯文基尔班埃弗顿和维甘8310.620.590.79维根队7250.640.570.62−0.07
LRM公司克里斯蒂亚诺罗纳尔多曼联12000.780.760.78曼联10170.760.760.740
加利福尼亚州约翰小心阿斯顿维拉3090.560.520.79阿斯顿维拉7230.560.550.54−0.01
加利福尼亚州戴伦弯曲查尔顿竞技6790.650.630.78托特纳姆热刺1600.590.580.57−0.01
加利福尼亚州卡洛斯特维斯西汉姆联5180.740.710.78曼联9500.800.800.780
加利福尼亚州尼古拉斯阿内尔卡博尔顿流浪者队8130.660.640.78博尔顿和切尔西6200.680.660.66−0.01
加利福尼亚州恩万科卡努语朴茨茅斯9020.720.700.78朴茨茅斯4360.760.750.75−0.01

CD,中后卫;LRD,左后卫或右后卫;CM,中场;LRM,左中场或右中场;CA,中央攻击者。

表3

2006–2007赛季表现排名前五的传球者

职位名字姓氏2006–2007赛季成绩2007-2008赛季成绩
团队n个平均观测完成率,o个¯平均通过率,第页^¯(e(电子))通过评级,第页^(av(平均值))团队n个全部预测的平均值,第页^¯((f))平均观测完成率,o个¯平均通过率,第页^¯(e(电子))完成率偏差,o个¯负极第页^¯((f))
光盘约翰特里切尔西10580.880.810.83切尔西6130.840.840.790
光盘威廉加拉斯阿森纳7300.860.810.81阿森纳8840.890.920.870.03
光盘萨米语希比亚利物浦10880.750.720.79利物浦6480.780.790.760.01
光盘里卡多卡瓦略切尔西11930.830.800.79切尔西6210.820.860.810.03
光盘克里斯里戈特米德尔斯堡1420.720.650.79米德尔斯堡2200.670.720.650.05
LRD公司帕斯卡希姆邦达维甘和托特纳姆13510.750.720.80托特纳姆热刺11190.770.790.740.02
LRD公司法维奥奥雷利奥利物浦4350.710.660.80利物浦5920.720.700.69−0.03
LRD公司安得烈泰勒米德尔斯堡11740.680.650.79米德尔斯堡4530.670.680.640.01
LRD公司史蒂夫芬南利物浦13110.750.730.79利物浦6310.760.740.74−0.02
LRD公司史蒂芬卡尔纽卡斯尔联队8580.730.700.79纽卡斯尔联队2970.720.700.70−0.02
厘米保罗斯科尔斯曼联18980.900.840.85曼联13410.890.890.84−0.00
厘米斯蒂利安佩特罗夫阿斯顿维拉9960.790.740.80阿斯顿维拉5620.780.790.740.01
厘米迈克尔埃辛切尔西16370.840.810.80切尔西12200.820.800.79−0.01
厘米迈克尔卡里克曼联17620.820.790.80曼联12800.820.820.790.01
厘米迪迪埃佐科拉托特纳姆热刺11050.820.790.80托特纳姆热刺10320.830.840.810.01
LRM公司米克尔阿特塔埃弗顿12920.730.680.81埃弗顿8770.690.720.650.03
LRM公司亚力山大赫莱布阿森纳14550.800.780.79阿森纳13490.800.820.780.02
LRM公司加雷思巴里阿斯顿维拉14510.680.650.79阿斯顿维拉12030.710.720.690.01
LRM公司凯文基尔班埃弗顿和维甘8310.620.590.79维根队7250.640.570.62−0.07
LRM公司克里斯蒂亚诺罗纳尔多曼联12000.780.760.78曼联10170.760.760.740
加利福尼亚州约翰Carew公司阿斯顿维拉3090.560.520.79阿斯顿维拉7230.560.550.54−0.01
加利福尼亚州戴伦弯曲查尔顿竞技6790.650.630.78托特纳姆热刺1600.590.580.57−0.01
加利福尼亚州卡洛斯特维斯西汉姆联5180.740.710.78曼联9500.800.800.780
加利福尼亚州尼古拉斯阿内尔卡博尔顿流浪者队8130.660.640.78博尔顿和切尔西6200.680.660.66−0.01
加利福尼亚州恩万科卡努语朴茨茅斯9020.720.700.78朴茨茅斯4360.760.750.75−0.01
职位名字姓氏2006–2007赛季成绩2007-2008赛季成绩
团队n个平均观测完成率,o个¯平均通过率,第页^¯(e(电子))通过评级,第页^(av(平均值))团队n个全部预测的平均值,第页^¯((f))平均观测完成率,o个¯平均通过率,第页^¯(e(电子))完成率偏差,o个¯负极第页^¯((f))
光盘约翰特里切尔西10580.880.810.83切尔西6130.840.840.790
光盘威廉加拉阿森纳7300.860.810.81阿森纳8840.890.920.870.03
光盘萨米语希比亚利物浦10880.750.720.79利物浦6480.780.790.760.01
光盘里卡多卡瓦略切尔西11930.830.800.79切尔西6210.820.860.810.03
光盘克里斯里戈特米德尔斯堡1420.720.650.79米德尔斯堡2200.670.720.650.05
LRD公司帕斯卡希姆邦达维甘和托特纳姆13510.750.720.80托特纳姆热刺11190.770.790.740.02
LRD公司法维奥奥雷利奥利物浦4350.710.660.80利物浦5920.720.700.69−0.03
LRD公司安得烈泰勒米德尔斯堡11740.680.650.79米德尔斯堡4530.670.680.640.01
LRD公司史蒂夫芬南利物浦13110.750.730.79利物浦6310.760.740.74−0.02
LRD公司史蒂芬卡尔纽卡斯尔联队8580.730.700.79纽卡斯尔联队2970.720.700.70−0.02
厘米保罗斯科尔斯曼联18980.900.840.85曼联13410.890.890.84−0.00
厘米斯蒂利安佩特罗夫阿斯顿维拉9960.790.740.80阿斯顿维拉5620.780.790.740.01
厘米迈克尔埃辛切尔西16370.840.810.80切尔西12200.820.800.79−0.01
厘米迈克尔卡里克曼联17620.820.790.80曼联12800.820.820.790.01
厘米迪迪埃佐科拉托特纳姆热刺11050.820.790.80托特纳姆热刺10320.830.840.810.01
LRM公司米克尔阿特塔埃弗顿12920.730.680.81埃弗顿8770.690.720.650.03
LRM公司亚力山大赫莱布阿森纳14550.800.780.79阿森纳13490.800.820.780.02
LRM公司加雷思巴里阿斯顿维拉14510.680.650.79阿斯顿维拉12030.710.720.690.01
LRM公司凯文基尔班埃弗顿和维甘8310.620.590.79维根队7250.640.570.62−0.07
LRM公司克里斯蒂亚诺罗纳尔多曼联12000.780.760.78曼联10170.760.760.740
加利福尼亚州约翰小心阿斯顿维拉3090.560.520.79阿斯顿维拉7230.560.550.54−0.01
加利福尼亚州戴伦弯曲查尔顿竞技6790.650.630.78托特纳姆热刺1600.590.580.57−0.01
加利福尼亚州卡洛斯特维斯西汉姆联5180.740.710.78曼联9500.800.800.780
加利福尼亚州尼古拉斯阿内尔卡博尔顿流浪者队8130.660.640.78博尔顿和切尔西6200.680.660.66−0.01
加利福尼亚州恩万科卡努语朴茨茅斯9020.720.700.78朴茨茅斯4360.760.750.75−0.01

CD,中后卫;LRD,左后卫或右后卫;CM,中场;LRM,左中场或右中场;CA,中央攻击者。

例如,卡洛斯·特维斯的传球完成率o个¯从2006-2007年的第一个赛季到下一个赛季,增长了几个百分点(从0.74到0.80)。然而,该模型对此进行了很好的预测(第页^¯2007/2008((f))=0.80)在很大程度上,这种进步可以用第二季传球的难度要高得多的事实来解释(第页^¯2007/2008(e(电子))=0.78与…相比第页^¯2006/2007(e(电子))=0.71). 就特维斯而言,这与他在2007-2008年从西汉姆联(2006年-2007年曾面临降级威胁的球队)转会至2007-2008赛季英超冠军曼联(Manchester United)后,与质量更好的球员一起踢球的事实有很大关系。

4.3评估球员

图。8绘制模型衍生球员的传球能力,第页^(av(平均值))与观察到的通过率相比o个¯2006–2007赛季。虚线是身份函数。具体玩家示例可在表中查看

球员的估计传球能力p^k,2006/2007(av)与观察到的传球完成率o^k,2006-2007(e)(,0.8;,0.7;,0.6;,0.5;,0.4)和拟合样本中的传球次数(,500;,1000;,1500;,2000):标记玩家对应的点是他们名字右下角的点,并用竖线额外标记,恒等函数,普通球员的传球能力
图8

运动员的估计传球能力第页^k个,2006/2007(av(平均值))相对于观察到的通过率o个¯k个,2006/2007,代表了通行的便利性,第页^¯k个,2006/2007(e(电子))(图形, 0.8;图形, 0.7;图形, 0.6;图形, 0.5;图形,0.4)和拟合样本中的通过次数(图形, 500;图形, 1000;图形, 1500;图形(2000):与标记的玩家对应的点是他们名字右下角的点,并用竖线额外标记;图形、身份函数;图形普通球员的传球能力

自然,拟合样本中的经验完成率之间存在正相关关系,o个¯以及基于模型的传递能力第页^(av(平均值))因为模型通常认为以较高速度传球的球员在这项技能上表现更好。然而,这一幼稚的规则有相当大的偏离。

首先,球员试图传球的情况不同。他们中的一些人在更容易的情况下通过了比赛,并且/或者选择了更容易的选项,这将他们的观察完成率提高到了仅仅根据他们的传球能力就可以预期的水平。相反,一些人面临着异常困难的任务,这使得他们的经验完成率在进行公平比较时看起来比应得的要差。这反映在平均通过容易程度(点的亮度)和观察到的成功率(横轴)之间的正相关性中。为了说明该模型如何在评估球员的技术时考虑传球难度,考虑两名中锋约翰·卡鲁和雅库布·艾耶格贝尼。前者在拟合样本中的经验通过率较低;然而,他的技术被模特评为更高,因为他尝试的传球通常更难(更暗的点)。同样,在表中萨米·海皮亚的传球技巧(第页^(av(平均值)))虽然观察到的完成率略高于里卡多·卡瓦略o个¯因为他尝试的传球平均难度大得多(较低第页^¯(e(电子))).

其次,一些玩家的成功率是基于很少的观察结果,这使得他们的数据不那么可靠。该模型通过将个人表现回归到由完整水平线表示的总体平均值来认识到这一事实,传球次数越少,效果越强。举一个极端的例子,马修·厄普森(Matthew Upson)完成率为100%,但只通过了六次传球就实现了。该模型认识到,在如此小的样本中包含的信息非常少。相比之下,保罗·斯科尔斯在拟合样本中完成了更多的传球(一个更大的点),因此,尽管他的经验完成率较低,但他的得分要高得多。同样,在表中克里斯·里戈特的传球技巧第页^(av(平均值))被评为与里卡多·卡瓦略(Ricardo Carvalho)大致相同,尽管经验完成率之间存在差异o个¯以及传球的难度第页^¯(e(电子))对于前者来说要大得多。这是因为卡瓦略在多次传球中证明了他异常高的完成率。

总之,要在模型框架中获得经验传球成功的认可,球员必须在这种情况下以高于普通球员的速度传球,并为此提供足够的证据。

4.4比较预测效用

评级方法的最终测试是其预测效用。在我们的案例中,验证这一点很复杂,因为我们试图评估的内容,即足球运动员的传球技巧,是无法观察到的。例如,我们不能仅仅使用2007-2008赛季观察到的传球完成率作为预测的基准,因为我们的论点的本质是它是一个糟糕的传球技能指标。

团队成功是一个客观的衡量标准。如果通过一个指标评估的团队人才库比基于另一个指标的人才库能更好地预测团队未来的结果,那么应该首选前者。换言之,足球俱乐部应该根据能够提供未来球队成绩信息的方法来评估球员。一个“好”球员是帮助球队获胜的人。考虑到这一点,对于2007-2008赛季的每一场比赛,我们计算了两个统计数据,这两个数据应该能够反映出两支参赛球队的传球技能的总体水平:一个是基于2006-2007赛季的原始传球完成率,o个^¯和一个基于我们在那个季节的模型,第页^¯(私人电话)。的主要功能第页^(私人电话)-预测(在第节的预测类型列表末尾有更详细的定义3.2)他们使用的是执行传球的球员和参与比赛的球队的信息,但没有其他关于传球难度的信息。因此,在2007-2008赛季,每场比赛每个球员产生一个这样的价值(使用基于2006-2007赛季的估计值)。给定赛程中主队球员的这些平均值构成了该队基于模型的传球指数,第页^¯小时(私人电话),在那个固定装置中。客场球队的相应指数为第页^¯(私人电话)

我们检查这些指数值的差异对比赛结果的预测能力。

首先,对于每一场比赛,我们根据图中两支球队的指数差异,绘制出主客场球队目标的差异。9.基于合格完成指数的皮尔逊相关系数(图。9(a) 2007–2008赛季主队进球优势为0.309,90%置信区间为(0.22,0.392),而基于模型的预测值(图。9(b) )为0.417,置信区间为(0.335,0.493)90%。当然,我们并不期望传球质量和比赛结果之间有“完美”的关系,因为还有其他因素决定比赛结果,比如射门质量。然而,基于模型的传球能力测量与比赛结果有较强的线性关系,这一事实令人放心。

主队在2007-2008赛季的比赛中进球最多,而主队和客队球员在比赛中的传球完成率的平均预测值不同:(a)基于原始传球完成率的预测因子(o^是x队球员在给定比赛中上赛季平均传球完成率的平均值);(b) 基于模型传球完成率预测的预测器(p^x(pto)是给定比赛中x队球员的传球完成率预测的平均值(有条件地仅取决于球员和球队信息)
图9

主队在2007-2008赛季的比赛中取得了领先的进球,而主队和客队球员在比赛中的传球完成率的平均预测值存在差异:(a)基于原始传球完成速率的预测值(o个^¯是上个赛季球队球员平均传球完成率的平均值x个在给定夹具中);(b) 基于模型的预测器通过率预测(第页^x个(私人电话)是团队中球员的传球完成率预测的平均值(仅有条件地取决于球员和团队信息)x个在给定夹具中)

其次,我们拟合了比赛结果(主场胜利、平局或客场胜利)的两个有序logit回归模型,以主客场球队平均传球指数的差异作为唯一的协变量:一个基于原始传球完成率的指数模型,o个^¯一个用于基于模型的索引,第页^¯(私人电话)后一个模型提供了更好的拟合,与基于通过率的模型的−303.25相比,log-likelihood为−291.28(两个模型的参数数量相同)。

我们检查了这些结果对计算平均传球技能指数所需的给定比赛中两支球队中具有传球技能等级的最小球员数量(即,在拟合样本中也观察到的球员)不敏感。

5讨论

本文提出了一种评估足球运动员控球难度的传球技术的方法。我们在统计模型中结合了影响传球成功概率的各种因素的代理,并在此背景下评估球员的内在技能。球员传球技巧的衡量标准在这个框架中有一个自然的解释,传球难度的衡量标准也是如此。最后,我们可以用相同的程序综合处理观察样本中的所有玩家,而无需任意丢弃已观察到的玩家太少了需要可靠评估的时间。基于少量观察结果的经验通过率的可靠性自然会在建议的框架内得到考虑。

我们基于传球难度等因素评估球员传球能力的方法存在一个复杂的问题,即技术娴熟的球员很可能能够为自己创造更容易的传球机会,因此传球难度可能是球员技能的外生因素。然而,即使有这个潜在的缺陷,结果似乎也很好,我们的方法可以识别出那些擅长传球的球员。

在比较拟议方法的效用和预测比赛结果的原始传球完成率时,我们使用了模型预测,条件是对球员以及参与每场比赛的球队的能力进行估计。这是因为在传球完成率统计中,团队能力与球员能力混淆了。在模型预测中忽略团队能力会给朴素的方法带来不公平的优势,因为大多数球员在拟合和预测样本中为同一个团队比赛。有人可能会说,我们采取的方法反过来又给我们的方法带来了优势,因为有些球员确实会在两个赛季之间更换球队。然而,我们认为,我们的方法可以将球员能力与团队能力和其他因素分离开来,并将它们以不同的配置组合在一起,这是我们方法的优势之一。

还请注意,预测期内的团队参数可能对应于不同的团队(在人员变动的情况下)。然而,这只会给基于模型预测的及格指数增加噪音,只会对其不利;因此,他们的表现相对较好更令人放心。

关于该模型产生的球员评估,需要说明的一点是,我们认为,在类似情况下,在执行类似类型传球的球员之间进行比较时,这些评估最有用。这可能是由于球员的比赛位置和球员的传球能力不独立造成的,因此中场球员的一些能力(例如)被“赋予”位置“中场”的系数估计值。因此,按位置细分结果是比较球员进行类似传球类型的一种方法,可以减轻传球能力与比赛位置相关的混淆影响。例如,如果认为一名中后卫在没有一段过渡期的情况下被调到边锋位置时会保持他的传球得分,那就太天真了。

说到位置,我们只根据球员在前几场比赛中在球上的动作位置,将球员分为几个类别。任何球迷都会知道,这是一种非常简单的方法,因为有更多可能的位置和其他因素决定球员属于哪一个。根据球员的行为将球员分类到不同的位置本身就是一个有趣的研究问题。在本文中,使用了一种简单的分类算法来突出我们结果中一些潜在的有趣方面(如图。6和表)但不是我们模型的组成部分。因此,就这一分类而言,我们决定采用简单化的方法。

另一个警告这里给出的结果是,虽然我们确实考虑了团队的一般能力,以促进成功完成传球,但传球接受者的个人技能没有考虑在内。因此,对于一个倾向于向特定队友传球比例异常高的球员,后者可能仍然会感到困惑。例如,如果约翰·特里经常进行长距离传球,那么他的评分可能会被夸大,而这通常很难完成,但如果迪迪尔·德罗巴是目标球员,那么可能就不那么容易了(德罗巴以其远距离传球的能力而闻名)。在方程中包含传递接收器可能是一个潜在的模型扩展。然而,Opta目前不收集有关未成功传球的预期传球接受者的信息。

另一条可以帮助我们改进模型的信息是天气数据,但在我们的数据集中无法获得。强风、雨雪等条件都会影响球员的传球表现,控制这些条件可能会提高我们对球员传球技能的评估。

这方面的进一步工作还可能包括根据传球对球队的价值而不是难度来评估传球。可能是一些球员的传球比他们的传球难度更高,从而增加了价值,而其他球员则倾向于尝试不必要的困难传球,这在本文提出的框架中没有得到认可。此外,确定模型有效性的另一种方法是获得球员传球能力的专家判断,并将这些专家评估与模型预测和传球完成率进行比较。最后,如本文所述,我们的模型可能会奖励那些尝试艰难传球的球员,这些传球对球队没有积极影响,甚至可能产生消极影响。然而,尽管存在这种可能性,我们相信我们的结果表明该模型是有价值的,如果使用统计模型来衡量足球运动员的传球能力,这无疑是朝着正确的方向迈出的一步。

致谢

我们感谢赞助Łukasz Szczepanski博士研究的Smartods Ltd,Opta允许我们使用这些数据,以及三位审稿人和副主编在改进论文方面的有益评论。

工具书类

艾伯特
,
J。
(
1992
)
本垒打运动员泊松随机效应模型的贝叶斯分析
美国统计局
,
46
,
246
253

艾伯特
,
J型
. (
2006
)
投手统计、天赋和运气,以及有史以来最好的三振赛季
J.数量。分析。Sprts公司
,
2
,没有。
1

布雷斯洛
,
东北。
克莱顿
,
D.克。
(
1993
)
广义线性混合模型中的近似推理
《美国统计杂志》。助理。
,
88
,
9
25

迪什
,
J型
.,
韦兹曼
,
J.S公司
.和
阿玛拉尔
,
洛杉矶
. (
2010
)
量化队员在团队活动中的表现
PLOS ONE系列
,
5
,没有。
6
,条款e10937。

埃夫隆
,
B。
莫里斯
,
C、。
(
1975
)
使用Stein估计及其推广的数据分析
《美国统计杂志》。助理。
,
70
,
311
319

延森
,
S.T.公司。
,
雪莉
,
英国工程师。
怀纳牌手表
,
A.J.公司。
(
2009
)
Bayesball:一个用于评估美国职业棒球大联盟防守的贝叶斯层次模型
附录。统计师。
,
,
491
520

,
X。
,
D。
(
1999
)
广义可加混合模型的光滑样条推理
J.R.统计。Soc.B公司
,
61
,
381
400

拉金
,
总经理。
巴根
,
J.L公司。
(
2008
)
职业棒球大联盟中投手和接球手对垒盗的影响评估
J.Sprts科学。
,
26
,
15
20

麦克海尔
,
I.G.公司。
,
围巾
,
第页。
福克
,
D。
(
2012
)
英超足球运动员表现评价体系的开发
接口
,
42
,
339
351

麦克海尔
,
I.G.公司。
什切潘斯基
,
Ł.
(
2014
)
足球运动员进球能力识别的混合效应模型
J.R.统计。社会学硕士
,
177
,
397
417

奥伯斯通
,
J型
. (
2011
)使用MAP模型评估英超球员的表现。
程序。第三届国际数学竞赛
(编辑
D。
珀西
,
J。
阅读
第页。
围巾
),第页。
153
159
海上南端
以下为:
数学及其应用研究所

核心团队
(
2012
)
R: 统计计算语言与环境
维也纳
以下为:
R统计计算基础
,

沙尔
,
R。
(
1991
)
具有随机效应的广义线性模型的估计
生物特征
,
78
,
719
727

木材
,
序号
. (
2006
)
广义可加模型:R引言
博卡拉顿
以下为:
查普曼和霍尔——CRC

本文根据牛津大学出版社标准期刊出版模式的条款出版和发行(https://academic.oup.com/journals/pages/open_access/funder_policies/chorus/standard_publication_model)