跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
J应用统计。2023; 50(15): 3088–3107.
2022年7月18日在线发布。 数字对象标识:10.1080/02664763.2022.2101044
PMCID公司:项目经理10631390
PMID:37969543

使用PLS-PM对球员足球表现进行分析时观察到的异质性

摘要

如今,数据科学被应用于日常生活的几个领域。在体育运动中有许多应用。在这种情况下,注意力将集中在足球(即美国人的“足球”)上:无论是足球俱乐部的球探部门还是技术人员,直至管理层,都必须做出战略选择。利用电子艺界(EA)专家提供的数据以及卡格尔数据科学平台上的可用数据,对2018/2019赛季前五名欧洲联赛足球运动员的表现进行了测量和监测。为此,在足球专家的帮助下,采用三阶偏最小二乘路径模型(PLS-PM)方法对索菲法关键绩效指标,以计算按角色区分的综合指标,并将其与EA Sports的著名总体指标进行比较。这已经考虑到球员观察到的异质性(即角色和联盟),因为专家们经常提到这些特征的差异,所以目的是科学地验证它们的重要性。结果与此非常一致,因为它们强调了绩效的某些子领域根据角色具有不同的显著性权重。

关键词:复合指标、足球、分析、异质性、PLS-PM

1.简介

近年来,足球作为世界上最受关注的运动,正朝着数据驱动的革命发展[8]; 特别是,足球分析诞生的目的是预测比赛结果,关于这一主题已经有很多论文[]. 此外,从几年前开始,这一领域的研究已经转向对球员表现的评估,这正成为足球教练管理球队的战略关键。为此,开发了不同的方法:例如,Pappalardo[32]采用支持向量机(SVM)观察比赛结果来评估球员的表现,Schultze和Wellbrock[38]创建了一个使用正负指标和Carpita的评级指数[5]采用无监督方法对不同的绩效领域进行分类。关注最后一个问题:事实上,我们的目标是探索玩家的关键绩效指标(KPI),以评估和衡量不同的战略技能;这有助于理解教练的关键选择,也有助于指导球员转会、合同谈判的决策,以及改进未来的预测模型。我们必须记住,球员的表现是通过使用电子艺术(EA)体育专家组织的调查数据来衡量的,该调查结合了9000多名球探的主观评价,教练和季票持有者——他们尽可能多地观看现场比赛——对超过18000名球员进行评级(EA FIFA评级,www.FifaUltimateTeam.it网站 [28]); 他们通过系统和定期的数据收集不断维护这个数据库。EA体育专家还将这些数据整合到最著名的足球视频游戏FIFA中(网址:www.easports.com). 特别是,EA Sports专家考虑了六个由六个综合指标定义的六个绩效维度(潜在特征),每个指标都有特定的KPI,可以结合到著名的EA中总体的指标:使用这些数据,McHale等人[29]已经为英超联赛开发了球员表现评级系统,但没有考虑球员的位置或角色;Matano等人。[28]将国际足联的评分和调整后的加减法合并为一个单一指标,而Kirschstein和Liebscher[25]使用这些数据预测和评估足球运动员的市场价值。最近,比切克和伯兹科夫斯基[2]试图在2018/2019赛季使用这些数据来评估和组合球员的表现和市场价值。

与其他广泛可用的数据(即球员的工资和货币价值)一起,表现属性指导着组建竞技运动队的策略:球探、技术总监和教练不再仅仅依赖主观的、容易出错的直觉,而是转向似是而非,可用的最新数据,用于为其球队选择球员或确定球队阵容Bidaurrazaga-Letona等人。[44]. 许多研究证实,专家的评估不仅对技能分类有用,而且对预测球员的货币价值以及商品化潜力也有用,科茨和帕沙科夫[45];Kirschstein和Liebscher,[46]。

但在这一点上,主要问题是专家的意见在统计上没有得到支持[4,6]此外,还不清楚他们如何考虑球员的异质性(例如他们在球场上的角色):Carpita等人[5]根据球员的角色,研究了他们的密度,并提出了一个初步模型,但没有考虑这位体育科学家的观点,发现了绩效KPI的一些显著差异。事实上,已经证实,专家们在定义独特的绩效模式方面没有达成一致意见。为此,体育科学家提出了不同的方法,例如从技术和实践的角度[16]或者考虑比赛的上场时间[33]研究每个玩家的身体峰值需求。为了改进Carpita等人定义的初步模型[5]从统计学的角度考虑,并考虑到双方的不同意见索菲法专家和体育科学家,偏最小二乘路径模型(PLS-PM[43])使用三阶方法([34],第节)改进了Cefis和Carpita提出的早期鸟类PLS-SEM二阶模型[9]最终目标是探索和衡量玩家的总体表现(即总体指标)及其子组(如EA专家定义的六个表现领域)。事实上,正如专家所指出的那样,球员在球场上需要一些互补的能力[22]考虑到他们之间的异质性(即角色和联盟)也很有用。目标是让决策者、经理和体育科学家更容易通过不同的表现子领域对球员进行评估,这对足球队来说越来越重要。此外,从运动科学家的角度来看,运动评估是运动员和团队训练过程中的一个基本环节,是教练不可或缺的支持[15].

在介绍之后,本文的结构如下:给出了数据和角色分类(第节2),然后解释所采用的方法(第节); 第节显示了实际应用和结果4,最后在第节中给出了结论5.

总之,这是一项探索性工作,旨在复制总体的EA Sports通过创新的三阶PLS-PM测量模型得出的指标,考虑到统计证据和专家意见,对其进行验证,创建一个完整的模型(即所有球员),并通过在角色和联盟之间分割数据来比较该模型,以考虑到观察到的异质性。

2.数据和角色分类

对于此应用程序,EA专家提供的数据以及Leone在著名的Kaggle数据科学平台上提供的数据1已使用;特别是,重点将放在前五名欧洲联赛(如意大利甲级联赛、德国德甲联赛、英超联赛、西班牙西甲联赛和法国一级联赛)的所有球员的统计数据上。该数据集包含另外28个变量(例如KPI),玩家在不同能力方面的定期表现为0-100分,分类如下索菲法六种潜在性能特征的专家:进攻、技巧、动作、力量、心态、防守(有关详细分类,请参见表1); 出于目的,我们使用的数据依赖于2018/2019赛季初的数据,因此我们的数据集是由大约2662名球员的统计数据组成的(注意,守门员由于其独特的角色而被排除在分析之外)。

表1。

KPI分类。

KPI/MV指标PLS-PM命名索菲法低压
十字路口a1级 
完成a2类 
航向精度a3类攻击
短传a4类 
排球a5类 
运球第1页 
曲线s2秒 
FK精确度第3节技能
长传球第4节 
球形控制器第5节 
加速度摩尔1 
冲刺速度二氧化钼 
敏捷性莫3移动
反应四氧化二钼 
余额五氧化二钼 
铅球威力第1页 
跳跃的第2页 
耐力第3页电源
力量第4页 
长镜头第5页 
侵略医用电气1 
拦截医用电气2 
定位甲基丙烯酸甲酯心态
愿景医用电气设备4 
处罚医用电气设备5 
标记第1天 
立式滑车第2天辩护
滑动滑车第3天 

此外,为了对角色进行分类,遵循了足球专家的主要建议[22]为了得到每个球员的具体角色(而不是经典的三个角色,如后卫、中场或前锋):我们可以在图中更好地看到这种分类1回想一下,由于门将的特殊作用,他们被排除在分析之外。

保存图片、插图等的外部文件。对象名称为CJAS_A_2101044_F0001_c.jpg

专家对玩家角色的分类。

3.方法

过去20年来,综合指标的数量大幅增长;它们用于评估和监督经济、社会、工业和卫生等广泛主题中的问题。如《复合材料手册》中所定义[14],在基础模型的基础上,将单个指标编译为单个指数,形成复合指标;它用于衡量多维概念,目的是综合现象并对其进行监控,以帮助决策者做出战略决策。它比一组简单的指数更容易解释,因此它也有助于与公民和媒体沟通,促进问责制。另一方面,也可能存在过于简化主题并导致政策结论过于简单的风险。另一个相关主题是选择简单指标及其权重:这可能是政治争议的主题。因此,辩论是公开的,与所有方法框架一样,如上所述,综合指标也有其利弊;统计学家和专家之间的合作,除了对构建组合所使用的方法进行明确解释外,可能会导致对该框架达成一致意见,这是合理的。因此,基于模型的组合指标,尤其是PLS-PM,也称为PLS-SEM(即偏最小二乘结构方程建模[17]),可能是实现此目的的重要工具。

3.1. 制定的框架

这里详细解释了提议的框架:如上所述,对于本项目,PLS-PM方法[43]这为众所周知的基于协方差的模型(CBSEM)提供了一个有效的替代方案[24]使用:事实上,尽管有CBSEM,PLS-PM方法在数据分布和样本大小方面的限制性假设较少;虽然CBSEM适合用作确定理论的方法,但PLS-PM适合用作探索和理论开发工具,因此它也被称为软建模技术[42]. 该工具通过结合主成分来评估测量模型,并通过路径分析估计潜在变量(LV)之间的关系,从而确定路径模型中一组方程的参数[19]. 从实践的角度来看,PLS-PM的目标是测量概念之间的因果关系(例如LVs索菲法我们案例中的潜在特征),从一些显性变量(MV、索菲法KPI):通过在普通最小二乘回归的迭代序列中估计部分模型关系,最大化内生LV的解释方差(在我们的案例中作为绩效的结果变量)[31]. PLS-PM的另一个基本点是,它不需要任何关于数据分布的初步假设,因此它被称为软建模技术。借助领域专家的意见[16,33]开发的PLS-PM框架经过迭代后,同时估计了这两个模型:

  • 将MV(KPI)链接到其相应LV的度量(外部)模型。每个MV块X(X),=1,,G公司=6(表1)必须包含至少一个MV,并且此关系已被形成性地处理(MV是其自身LV的原因[10]). 特别是,假设每个LVξ由其KPI在多元回归后形成(1),其中w个是外部回归权重的向量δ误差项,其条件期望值假定为零(2). 最后,使用OLS估计第gth LV的外部权重向量(,模式B)
    ξ=X(X)w个+δ,
    (1)
    电子[δ|X(X)]=0,
    (2)
    w个=(X(X)T型X(X))1X(X)T型ξ.
    (3)
    在这种情况下(即使用形成性构造),PLS-PM还计算外部模型的载荷(即。λ),表示MV与其相应LV估计值之间的相关性[34].
  • 将LV分为两组的结构(内部)模型:外源性和内源性。第一个路径图中没有任何前置路径,其余的是内生路径(图2). 对于j个模型中的内源性LV,其自身结构模型的线性方程定义为(4),通过标准化数据;特别地,R(右)表示影响内源性LV的外源性LV数量β第页j个称为路径系数,是指第页外源性LV和j个第个内生的,其中ζj个是错误项
    ξj个=第页=1R(右)β第页j个ξ第页+ζj个,
    (4)
    其中错误项ζj个假定为居中,β第页j个是所谓的路径系数,它将第页第个外源性LV与内源性LV,可通过以下最新方法之一进行估算:
    • 析因方案[27]:β第页j个是内生LV之间的相关系数ξj个和外生的ξ第页.
    • 结构方案[27]:β第页j个是OLS系数ξ第页对内生的影响ξj个.
    保存图片、插图等的外部文件。对象名称为CJAS_A_2101044_F0002_OB.jpg

    路径图:球员表现的三阶内部模型。

    在这项工作中,使用了阶乘方案。所以,你必须记住,为了避免误解β系数,分别在图中找到和图中所示8是每个外源和内源LV之间的相关性,因此它们不是回归系数。

    保存图片、插图等的外部文件。对象名称为CJAS_A_2101044_F0003_OC.jpg

    考虑所有2662名玩家的完整模型输出。

    保存图片、插图等的外部文件。对象名称为CJAS_A_2101044_F0008_OC.jpg

    中场球员PLS-PM的输出。

如前一段所述,采用了高阶构造模型(HOC,也称为层次模型),因此可以包括代表高级抽象级别的LV。我们已经看到LV代表理论概念的抽象,但有时我们需要额外的LV代表其他构造[34]. 特别是,使用了三阶模型。事实上,为了这个项目的目的,玩家的表现被构建为一个更高(第三)阶的额外潜在结构,由两个额外的LV(二阶结构)形成,即,非相位(_P)(球员进攻的阶段,即在对方中场,控球或不控球)和定义阶段(_P)(球员防守的阶段,即在自己的中场,控球或不控球)[16,33]. 假设最初的六个索菲法LV(一阶结构)对二阶LV的贡献如下:除辩护塑造非相位(_P),而所有LV除外攻击为…作出贡献定义阶段(_P)(图(图2)。2). 这些二阶LV具有双重作用:它们对于三阶结构来说是外生的,而对于它们自己的低阶结构来说则是内生的。

此外,由于没有指标的LV在PLS-PM模型中没有位置,特别是我们的二阶和三阶结构在默认情况下没有任何MV,因此文献建议使用不同的技术来建模该框架:最简单的方法是重复指标法[7,34,41]包括采用低阶LV的所有MV,并将其用作HOC的MV;由于我们的框架具有三阶结构,为了避免一些共线问题,首选两步或补丁方法[34]:在该方法的第一步中,使用主成分分析(PCA)获得低阶LV的分数(每个LV的第一个主成分IPC),在第二步中,标准PLS-PM使用这些PC作为高阶LV中的MV。由于这种方法,我们假设HOC和他们自己的MV之间存在反射关系。当然,这种方法有其自身的弱点:第一,只为每个较低LV块选择一个组件;第二,这一部分具有很强的代表性,但预测能力较弱[7]. 为了超过这一限制,在过去几年中,在HOC估计中开发了一些新技术,如混合两步法或偏最小二乘分量回归法,但目前只对二阶结构的情况进行测试[12].

特别是,采用的MV非相位(_P)是的个人电脑吗进攻、技巧、动作、力量心态(在第节的图表中标记为off1到off54),而对于定义阶段(_P)的I PC运动、力量、心理、防守技能(剖面图中的def1至def54). 最后非相位(_P)定义阶段(_P)作为MV用于性能。

对于每个HOC的测量(外部)模型估计,如前所述,通过构造(即PCA),假设HOC和其自己的MV之间存在反射(模式a)关系:每个MV块反映其自己的LV;请注意,反射指示器是可互换的,事实上,如果我们删除一个项目,我们不会改变其基本概念。它还假设每个MV块都是一维的(只有一个潜在的概念反映在不同的指标上)

P(P)C类=ξH(H)O(运行)C类λT型+F类,电子[F类|ξH(H)O(运行)C类]=0,
(5)

哪里F类指示错误项和λ是可由OLS估算的荷载系数矩阵:

λ^T型=((ξH(H)O(运行)C类)T型ξH(H)O(运行)C类)1(ξH(H)O(运行)C类)T型P(P)C类,
(6)

哪里P(P)C类表示块(即作为矩阵)该特定HOC的第一个主成分得分(即MV); 例如,考虑到关闭相位(_P)作为ξH(H)O(运行)C类,其块MV数量(P(P)C类)由第一个主成分得分组成进攻、技巧、动作、力量心态。请记住,由于我们在开始时对数据进行了规范化,因此我们将约束保持为具有单位方差,因此(6)有效。由于每个MV都是其对应LV和估计负荷系数之间的简单线性回归,因此每个区块的指标之间没有任何多重共线性问题[43].

为了评估模型的性能,拟合优度(GoF[43])计算指数;这是PLS-PM环境中最综合的性能指标,但我们必须注意并谨慎解释,正如通常建议的那样[21],因为它只是内部和外部模型性能之间的几何平均值,它并没有告诉我们模型在其他环境中是否可以复制。

到目前为止,该模型一直在描述中,隐含地假设数据来自同质人群,但实际上,这种假设通常是不现实的。事实上,参与者(及其特殊性)经常是不同的,分析所有数据而不考虑这种异质性可能会产生误导性的结果和错误的结论[35]. 因此,本研究的创新之处在于考虑了球员角色和联盟之间观察到的异质性;通常通过分割数据集并创建不同的PLS-PM来处理,每组一个,并评估其差异。为此,进行了两项测试:

  • “使用偏最小二乘路径建模进行多组比较的测试”[26]由Klesel、Schuberth、Henseler和Niehaves提出;在这种方法中,模型简化的方差-协方差矩阵(对于MV和LV)是跨组比较的。它通过众所周知的平方欧氏距离测量模型简化方差-协方差矩阵之间的距离。如果比较两个以上的组,则使用所有组的平均距离。
  • 已经执行了直观的多组测试来评估评估中的组差异:此方法基于围绕引导估计构建的置信区间(CI)(即,它通过一次比较两个组来工作)。如果一组的参数包含在另一组的CI中,反之亦然,则可以得出结论,即没有组间差异[36].

最后,作为对其预测能力的深入分析,提供了与基准模型的比较;广义结构元分析[23])用于此目的,它将因子替换为观测变量的精确线性组合。总之,该模型采用定义明确的最小二乘准则来估计模型参数。因此,它避免了偏最小二乘法的主要局限性(即缺乏全局优化程序),同时完全保留了偏最小二乘的所有优点(例如,较少限制的分布假设)。

对于整个工作,R软件包csem公司 [30]和半成品 [39]已被使用;为了评估路径重要性,对模型进行了bootstrap验证(即1000次重采样)。在下一节中,将显示结果。

4.应用

在本节中,第节中解释的模型的应用并给出了相关结果;本节组织如下:在第节中4.1,给出了对整个模型及其性能的估计。然后,第节4.2介绍了考虑联盟之间观察到的异质性的结果,然后是第节4.3,这对角色也是一样的。第节对这位中场球员的模型进行了深入分析4.4,然后对第节中的模型进行全局比较4.5.

4.1. 完整模型

作为起点,创建一个完整的PLS-PM(即使用所有2662名玩家);在图中图3图中显示了参数估计值及其统计意义,圆圈表示LV和矩形MV。LOC外部模型(左侧)从MV到LV的箭头方向表示形成框架,而对于HOC,箭头从LV指向MV(例如,I PC)并表示反射模型;箭头的厚度与其效果的强度成正比。外部模型的每个箭头上方都有载荷(即。λ)每个MV和相应LV之间。对于内部模型,β上面的每个箭头表示遵循阶乘方案的每对外源和内源LV之间的相关性(即路径系数)(4). 每个值旁边的星号表示其统计显著性(在1000次引导重采样后);虚线箭头表示相应参数的负值。

图3说明了这一点非相位(_P)与绩效的相关性更强定义阶段(_P)(0.57对0.43,均显著);值得注意的是,所有LV都是重要的(第页-值<1%, ***). 关于与非相位(_P),的攻击能力具有最强的路径系数(βt吨t吨c(c)k个n个=0.3),后跟泛型技能(βk个=0.26); 我们还可以注意到心态,权力运动在上具有类似的值关闭相位(_P).关于定义阶段(_P),最强的是通用的技能能力(βk个=0.36),其次是心态(βe(电子)n个t吨t吨=0.28); 奇怪的是,如何辩护上的路径系数最低定义阶段(_P)关于MV,其中一些MV与相关LV之间存在负负荷,这使得一些MV难以解释(例如。辩护); 其他的负载很低(接近零),例如与攻击,“me1”用于心态或“p4”表示权力.

与基准相比,关于此模型的性能总体的EA Sports的指标,这个新指标具有中等相关性(0.65,图4). 在引导验证后,它还具有良好的GoF指数(0.76)。图中的散点图图44比较EA总体的性能与PLS-PM的性能指标(即标准化值),表明了一种取决于角色的模式:该图显示了PLS-PM指标根据角色的明显差异,而EA似乎并非如此总体的.

保存图片、插图等的外部文件。对象名称为CJAS_A_2101044_F0004_OC.jpg

PLS-PM公司总体的绩效指标与EA总体的按角色列出的绩效指标。

综上所述,通过该模型获得的指标与基准指标具有中等相关性,就GoF而言表现良好,但一些LV和MV难以解释;其中一些还具有弱路径(即接近于零)。已经显示了如何根据角色来确定模式,下面将对其进行深入分析。

4.2. 联盟间观察到的异质性

在本节中,我们将对欧盟前五大联盟之间的异质性进行研究,以确定它是否是第节中构建的模型的混淆因素4.1遵循第节中解释的想法,Klesel等人试验的初步结果。建议拒绝(第页-价值<5%)它对MV关注的内容的假设是无效的(即联盟之间的平等),而对结构(LV,第页-价值>5%):LV和MV的不同联赛的方差-协方差矩阵之间似乎没有显著差异。然后,使用热图显示第二次测试的输出(图5)自举CI的非重叠率:该比率是非重叠CI数量与CI总数之间的比例(即,它包括内部模型的路径系数和外部模型的权重,因此总共有52个估计值)。

保存图片、插图等的外部文件。对象名称为CJAS_A_2101044_F0005_OC.jpg

非重叠率的热图95%按联盟引导CI。

在图中图5,5,我们可以看到PLS-PM估计值差异较大的联赛颜色较深(即黑色),尤其是ENG与SPA、FRA与SPA以及ITA与ENG。在每种情况下,这似乎并不相关,因为最高比率为8%:例如,这意味着英超联赛和西班牙西甲联赛的比较在52个估计中只有4个不同。因此,单独考虑这些联赛似乎没有什么用处,因此也不会混淆一般模型。

4.3. 观察到角色之间的异质性

数据集中观察到的异质性的另一个方面是由于不同的角色2在第节中介绍2(图(图1)。1). 这一点至关重要,因为其目的是调查这是否是一个可能的混淆因素。使用与前一小节相同的方法:第一个多组测试建议拒绝(第页-价值<5%)MV和LV方差协方差矩阵的零假设(即角色之间的相等性)。然后,对专家定义的不同角色之间引导CI的非重叠率进行热映射[22]显示(图6). 与之前的解释一样,深色(即黑色)表示角色之间的不重叠率很高(即多样性很高)。白色矩形表示不同角色之间存在显著的相似性。

保存图片、插图等的外部文件。对象名称为CJAS_A_2101044_F0006_OC.jpg

非重叠率的热图95%按角色引导CI。

与联盟的情况不同,图图66显示了角色的情况如何不同:左上角的颜色比例达到50%(黑色)(也是右下角,因为矩阵是对称的)。例如,观察CB的作用及其估计值与其他作用之间的差异(热图的第一列),CB与FB和MF的不重叠率较低(低于30%),而与进攻性角色(即FW、OM和WG)的不重叠比率较高。但是,如果我们看最后一篇关于FW的专栏文章,他们与CB和FB的差异率很高,与MF的差异性中等,而与OM和WG的差异最小。正如可以预料的那样,唯一一个似乎具有更均衡估计的角色是MF(在其自己的列中没有黑色汇率)。总而言之,我们可以看到角色估计值之间存在非常显著的差异,这比考虑联赛时的差异更大。为了有一个更清晰的概念,图中给出了一个总结图7具有路径系数(即内部模型)及其95%的引导CI。

保存图片、插图等的外部文件。对象名称为CJAS_A_2101044_F0007_OC.jpg

1000次引导后按角色和95%CI估计的路径系数。

值得注意的是非相位(_P)定义阶段(_P)绩效综合指标的通径系数通常最高(绝对值)。基本上,运动与两者相比,LV的路径系数最低非相位(_P)定义阶段(_P),在某些情况下也没有统计学意义(例如,运动与。定义阶段(_P)对于FW)。阿尔索辩护朝着定义阶段(_P)相关性很低:在这种情况下,只有CB和MF有实际影响(大于0.15);对于FB而言,该系数并不显著。在每种情况下,对于每组路径系数,角色之间都有明显的差异。下面是每个路径的一些特定注释:

  • 技能 非相位(_P):这是角色之间最平衡的路径,事实上从0.2个中场到0.28个边路。
  • 技能 定义阶段(_P):我们可以在这里看到,两者之间的差异比前一个大得多。技能定义阶段(_P)FB(接近0.4),而MF最低。
  • 权力 关闭相位(_P):CB、MF和OM的值最高。
  • 权力 定义阶段(_P):权力对于定义阶段(_P)FW和OM的性能。
  • 非相位(_P) 性能:在这里我们可以看到复合非相位(_P)对于所有角色来说都非常高(大于0.45),FB的峰值大于0.7(这是唯一奇怪的估计,可以在未来的研究项目中进行调查,因为FB并不是一个进攻性角色)。值大于0.5的其他角色是WG、OM和FW(典型的进攻角色)。
  • 定义阶段(_P) 性能:在这里我们可以看到复合定义阶段(_P)所有角色的影响都很高(大于0.35),CB和MF的峰值大于0.5(即只有这两个角色的影响比非相位(_P)).
  • 运动 非相位(_P):如前所述,运动能力对非相位(_P)除了FB(这似乎是对的,因为它们通常沿着球场的边路跑)。
  • 运动 定义阶段(_P):这里,估计值略高于前一个案例,而且在这种情况下,FB具有最高的相关性。
  • 心态 非相位(_P):这套能力在非相位(_P)对于所有角色,MF和CB的峰值(路径估计值大于0.3)。
  • 心态 定义阶段(_P):用于定义阶段(_P),心态能力对几乎所有角色都很重要(路径大于0.3),除了FB和CB,路径略低(仍大于0.2)。
  • 辩护 定义阶段(_P):严格遵守辩护正如预期的那样,能力只对MF和CB重要。
  • 攻击 非相位(_P):在这种情况下,严格来说攻击能力对FW的影响最大非相位(_P)(大于0.3)。

由于更均衡的值(路径系数与其他值差异较小的作用)属于MF模型,因此下一小节将对其进行深入分析和更准确的验证。

4.4. 深入分析:中场模式

这位中场球员的PLS-PM只考虑了全部数据中的621名球员。引导验证后,其输出如图所示图88(注意,其解释逻辑与图中相同图3).

与初始完整模型不同,很明显,所有路径系数(即内部模型的相关性)和载荷(外部模型)都是显著且一致的。这位中场球员的体重更重定义阶段(_P)(0.53)比非相位(_P)(0.47)对全球绩效的影响。对于两者定义阶段(_P)非相位(_P),心态是影响最大的LV,而运动是最低的。

与基准相比总体的EA Sports的指标,这一新的具体指标大大提高了其相关性(0.93比全模型的0.65)。在引导验证后,它还具有良好的GoF指数(0.76)。为了评估该模型的预测能力,进行了五次交叉验证(即默认值),如图9我们可以看到复合性能指标的每个PC(即主成分,作为MV)的输出。除了def1和off3(即运动):从其高预测误差指数中证实,实际值和预测值之间的相关性较差(表2); 此外,回想一下图图88 运动尽管意义重大,但对非相位(_P)定义阶段(_P)(即路径系数小于0.1)。尽管我们的目标是创建一个测量模型而不是预测模型,但为了完整性,我们将预测的能力与基准模型(如GSCA)进行了比较[23]表中的和2我们可以看到MAE和RMSE(即分别为平均绝对误差和均方根误差,由预测值和实际值之间的差值定义[30])对于内生的每个MV(例如非相位(_P),定义阶段(_P)和性能)。

保存图片、插图等的外部文件。对象名称为CJAS_A_2101044_F0009_OC.jpg

中场球员PLS-PM:PC表现的实际值与预测值(标准化)。

表2。

MF玩家角色的PLS-PM vs.GSCA。

中压MAE(PLS-PM)MAE(GSCA)RMSE(PLS-PM)RMSE(GSCA)公司
关闭10.30740.25530.38990.3277
关闭20.33520.29500.41820.3686
关闭30.70650.66810.93880.8828
关闭40.47890.49350.60000.6177
关闭50.22770.31990.28630.4073
定义10.71530.68640.95090.9098
定义20.44010.39440.55420.4976
定义30.21530.33140.27220.4259
定义40.54320.55780.68560.7045
定义50.40970.42760.51330.5311
性能10.16070.31300.20300.3969
性能20.17290.10220.22290.1285

在表中2,粗体为目标值(PLS-PM)中MAE(RMSE)指数低于基准值的保时捷中心:参考文献[18,40]由于目标模型中MAE(RMSE)较低的PC(MV)比例相等(6对12),因此可以合理地确认PLS-PM在MF玩家角色中的中等预测能力。

4.5. 模型的比较

作为我们分析的最终结果,通过考虑GoF指数以及与总体的EA Sports的指标:结果如表所示.

表3。

按玩家角色进行PLS-PM比较。

角色n个法国政府与EA相关总体的
CB(断路器)5240.770.86
联邦调查局7320.760.90
MF公司6210.760.93
运行维护1760.780.97
工作组2010.790.97
FW公司4080.780.95
完全26620.760.65

按玩家角色划分的所有PLS-PM的GoF都大于或等于完整模型的GoF,最高的是WG的GoF(0.79)。因此,每个模型都有很好的GoF价值。而是关注与众所周知的总体的EA Sports的指标显示,所有角色的值(从CB的0.86到WG和OM的0.97)都显著高于完整模型的值(0.65):这一点至关重要,因为它支持玩家角色的混淆功能。在这种情况下,角色之间观察到的异质性让我们能够以相关的方式改进模型的性能结果。

5.讨论和结论

本文的出发点是EA Sports专家,他们是足球成绩测量的最终权威:他们通过仔细和系统的数据收集,不断维护真实球员表现属性的数据库。专家们认为,绩效变量构成了几个更广泛的理论维度。这项研究的最初部分致力于考虑所有参与者的PLS-PM:它在一些LV中有点不连贯(例如解释困难、负重和重量),并且与电子艺术(EA)有中等相关性总体的; 然后,考虑到观察到的异质性可能是一个混淆的原因,它被考虑到联赛和不同的角色:该模型被复制到每个不同的联赛中,发现只有非常低的差异(例如,英超联赛和西班牙的西甲联赛之间最大不重叠率为8%)内部和外部模型的估计值;此外,Klesel等人的测试。对于LV的方差-协方差矩阵,接受联盟之间相等的假设:因此,联盟似乎不是一个混淆因素。相反,如果考虑到球员在球场上的角色,则输出会发生变化:在这里,所有角色的路径估计差异都很明显(非重叠率最大为50%),尤其是相反位置之间的差异(例如中卫对前锋或后卫对前锋),Klesel等人的试验也证实了这一点。(第页-价值<5%); 此外,按角色考虑这些模型,有必要强调其良好的GoF和与基准指数(即。总体的). 尽管不是本文的主要目标,但也对MF模型进行了深入分析,并与基准(GSCA)进行了比较,评估了其预测能力:它表明该框架中的PLS-PM具有中等预测能力。

按角色考虑路径系数(图(图7)7)以及它们的bootstrap验证,从逻辑角度来看,结果也相当合理;只有FB(一个典型的更具防守性的角色)被注意到其值太高非相位(_P)性能(超过0.7),尽管对定义阶段(_P)(0.3). 也许这可能是由于一些进攻型边后卫的影响,但无论如何,对于未来的研究来说,进行一个具体的确认性综合分析(CCA)应该很有趣[13,20,37])为了改进和进一步验证模型:例如,通过考虑可能的共线性问题,或进行预测有效性,例如更好地评估和提高中场球员PLS-PM的def1和off3的预测能力,或考虑加权PLS(WPLS)算法的程序[11]使用PLS技术进行评估时。未来项目的其他有趣问题可能是考虑玩家之间未观察到的异质性,可能使用PLS-POS算法[1]或将此指标作为起点来改进其他现有足球分析模型(例如预期目标模型)。

总的来说,提醒大家这项研究的核心是建立一个球员的表现衡量模型,而不是一个预测模型,本研究试图复制一个球员表现的创新模型,同时建立另外两个有趣的指标,非相位(_P)定义阶段(_P),采用三阶PLS-PM方法,目的是帮助足球政策制定者对其球员进行公正的评估,具体针对每个角色。此外,该方法旨在帮助体育科学文献,以便建议将其与其他数据(例如身体或运动数据)一起应用,以帮助力量和体能教练监控运动员。这种新方法的另一个优点是可以将性能划分为子区域,以便深入研究玩家的状况。

注释

1www.kaggle.com/stefanoleone992/fifa-20-complete-player-dataset名为“国际足联20名完整球员数据集”。

2CB:中后卫,FB:后卫,MF:中场,WG:边路,OM:进攻中场,FW:前锋。

披露声明

提交人没有报告潜在的利益冲突。

工具书类

1Becker J.M.、Rai A.、Ringle C.M.和Völckner F。,发现结构方程模型中未观察到的异质性以避免有效性威胁《MIS季刊》第37期(2013年),第665-694页。
2Biecek P.和Burzykowski T。,解释性模型分析:探索、解释和检验预测模型,查普曼和霍尔/CRC,纽约,2021年。[谷歌学者]
三。Carpita M.、Sandri M.、Simonetto A.和Zuccolotto P。,利用数据挖掘发现足球比赛结果的驱动因素,资格。Technol公司。数量。管理。 12(2015),第561-577页。[谷歌学者]
4Carpita M.、Ciavolino E.和Pasca P。,探索和模拟卡格尔欧洲足球数据库的球队表现,统计模型。 19(2019年),第74-101页。[谷歌学者]
5Carpita M.、Ciavolino E.和Pasca P。,基于球员角色的足球队综合绩效指标:一个统计视角,社会指标。物件。 156(2021年),第815-830页。[谷歌学者]
6Carpita M.和Golia S。,发现欧洲足球联赛中球员的表现指标与比赛结果之间的关联,J.应用。斯达。 48(2021年),第1696-1711页。[PMC免费文章][公共医学][谷歌学者]
7Cataldo R.、Grassia M.G.、Lauro N.C.和Marino M。,构建复合指标体系的高阶PLS-PM开发,资格。数量。 51(2017),第657-674页。[谷歌学者]
8塞菲斯·M·。,足球分析:关于过去十年贡献的文献计量研究,电子。J.应用。统计师。分析。 15(2022年),第232-248页。[谷歌学者]
9Cefis M.和Carpita M。,足球分析:评估球员表现的高阶PLS-SEM方法,预订短款巴普。姐妹 2021(2021年),第508–513页。[谷歌学者]
10Cheah J.H.、Ting H.、Ramayah T.、Memon M.A.、Cham T.H.和Ciavolino E。,五种反思性形成性评估方法的比较:旅游研究的反思与建议,资格。数量。 53(2019年),第1421-1458页。[谷歌学者]
11Cheah J.H.、Roldán J.L.、Ciavolino E.、Ting H.和Ramayah T。,偏最小二乘结构方程建模中的抽样权重调整:指南和图解,总质量。管理。公共汽车。Excell公司。 32(2021年),第1594-1613页。[谷歌学者]
12Ciavolino E.和Nitti M。,使用混合两步估计方法识别二阶潜在变量模型,J.应用。斯达。 40(2013),第508-526页。[谷歌学者]
13Ciavolino E.、Ferrante L.、Sternativo G.A.、Cheah J.H.、Rollo S.、Marinaci T.和Venuleo C。,互动焦虑量表意大利验证的验证性复合分析:高阶版本《行为测量学》49(2021),第1-24页。
14委员会J.R.C.E.等人。,构建综合指标手册:方法和用户指南经合组织出版社,法国,2008年。[谷歌学者]
15D’Santo T.、D’Elia F.、Raiola G.和Altavilla G。,运动成绩的评估:理论方面和实践意义,蒙大拿运动。 17(2019年),第79-82页。[谷歌学者]
16菲莱蒂·C·、鲁西略·B·、德奥塔维奥·S·和法内利·V·。,基于半自动视频跟踪系统的精英足球比赛技术、战术、身体参数与最终成绩关系的研究,感知。电机。技能 124(2017),第601-620页。[公共医学][谷歌学者]
17Hair J.F.、Ringle C.M.和Sarstedt M。,PLS-SEM:确实是一颗银弹,J.Mark.理论与实践。 19(2011),第139-152页。[谷歌学者]
18Hair J.F.、Risher J.J.、Sarstedt M.和Ringle C.M。,何时使用以及如何报告PLS-SEM结果,欧洲公共汽车。版次。 31(2019年),第2-24页。[谷歌学者]
19Hair Jr J.F.、Sarstedt M.、Ringle C.M.和Gudergan S.P。,偏最小二乘结构方程建模中的前沿问题,Sage Publications,洛杉矶,2017年。[谷歌学者]
20Hair Jr J.F.、Howard M.C.和Nitzl C。,使用验证性复合分析评估PLS-SEM中的测量模型质量,J.总线。物件。 109(2020年),第101-110页。[谷歌学者]
21Henseler J.和Sarstedt M。,偏最小二乘路径建模的优良指数,计算。斯达。 28(2013),第565–580页。[谷歌学者]
22.Hughes M.D.、Caudrelier T.、James N.、Redwood-Brown A.、Donnelly I.、Kirkbride A.和Duschesne C。,金钱球与足球——按位置分析优秀男子足球运动员的关键绩效指标,J.嗯,运动 7(2012),第402-412页。[谷歌学者]
23.Hwang H.和Takane Y。,广义结构元分析,心理测量学 69(2004),第81-99页。[公共医学][谷歌学者]
24Jöreskog K.G。,协方差矩阵和相关矩阵的结构分析,心理测量学 43(1978),第443–477页。[谷歌学者]
25Kirschstein T.和Liebscher S。,评估足球运动员的市场价值——对德国1。和2。德甲联赛,J.应用。斯达。 46(2019),第1336–1349页。[谷歌学者]
26Klesel M.、Schuberth F.、Henseler J.和Niehaves B。,使用偏最小二乘路径建模进行多组比较的测试,互联网研究。 29(2019年),第464-477页。[谷歌学者]
27罗莫勒J.B。,预测与结构建模:PLS与ML,英寸基于偏最小二乘法的潜变量路径建模海德堡施普林格出版社,1989年,第199-226页。
28Matano F.、Richardson L.F.、Pospisil T.、Eubanks C.和Qin J。,根据国际足联的评级,增加足球比赛的调整正负,预印本(2018)。可从arXiv:1810.08032获取。
29McHale I.G.、Scarf P.A.和Folker D.E。,英国超级联赛足球运动员表现评价体系的开发,接口 42(2012),第339-351页。[谷歌学者]
30.Mehmetoglu M.和Venturini S。,基于Stata和R的偏最小二乘结构方程建模,CRC出版社,纽约,2021年。[谷歌学者]
31Monecke A.和Leisch F。,SEMPLS:使用偏最小二乘法的结构方程建模,J.统计软件。 48(2012),第1-32页。[谷歌学者]
32Pappalardo L.、Cintia P.、Ferragina P.、Massucco E.、Pedreschi D.和Giannotti F。,球员:通过机器学习方法进行数据驱动的足球表现评估和球员排名,ACM事务处理。智力。系统。Technol公司。 10(2019年),第1-27页。[谷歌学者]
33Riboli A.、Semeria M.、Coratella G.和Esposito F。,队形、在场内球和控球对精英足球峰值需求的影响,生物运动 38(2021年),第195页。[PMC免费文章][公共医学][谷歌学者]
34Sanchez G.和Trinchera L。,“plspm”包,宾夕法尼亚州州立学院,美国(2013年)。可在网址:http://www.scribd.com/plspm.
35.Sarstedt M.和Ringle C.M。,PLS路径建模中未观察到的异质性的处理:FIMIX-PLS与不同数据分析策略的比较,J.应用。斯达。 37(2010),第1299-1318页。[谷歌学者]
36Sarstedt M.、Henseler J.和Ringle C.M。,偏最小二乘(PLS)路径建模中的多组分析:替代方法和实证结果,英寸国际营销中的测量与研究方法M.Sarstedt、M.Schwaiger和C.R.Taylor编辑,第22卷,Emerald Group Publishing,宾利出版社,2011年,第195-218页。
37Schuberth F.、Henseler J.和Dijkstra T.K。,验证性综合分析,前面。精神病。 9(2018),第2541页。[PMC免费文章][公共医学][谷歌学者]
38Schultze S.R.和Wellbrock C.M。,足球运动员个人表现的加权加减指标,《体育杂志》。 4(2018),第121–131页。[谷歌学者]
39Shmueli G.、Ray S.、Estrada J.M.V.和Chatla S.B。,房间里的大象:PLS模型的预测性能,J.总线。物件。 69(2016),第4552–4564页。[谷歌学者]
40Shmueli G.、Sarstedt M.、Hair J.F.、Cheah J.H.、Ting H.、Vaithilingam S.和Ringle C.M。,PLS-SEM中的预测模型评估:使用plspredict的指南,《欧洲期刊》(Eur.J.Mark)。53(2019年),第2322–2347页。[谷歌学者]
41威尔逊B。,使用PLS研究高阶品牌构建之间的相互作用效应,英寸偏最小二乘手册,V.Esposito Vinzi,W.Chin,J.Henseler,H.Wang,eds.,施普林格出版社,2010年,第621-652页。
42沃尔德·H。,软建模:基本设计和一些扩展,系统。在间接对象下。 2(1982年),第343页。[谷歌学者]
43沃尔德·H。,统计科学百科全书《偏最小二乘法》,威利出版社,纽约(1985年),第581-591页。
44Bidaurrazaga-Letona I.、Lekue J.A.、Amado M.、Santos-Concejero J.和Gil S.M。,确定有天赋的年轻足球运动员:条件、人体测量和生理特征作为表现的预测因素,国际体育中心修订版(2014),第79-95页。[谷歌学者]
45Coates D.和Parshakov P。,群众智慧与传递市场价值,欧洲,《运营研究杂志》.301(2022年),第523-534页。[谷歌学者]
46Kirschstein T.和Liebscher S。,评估足球运动员的市场价值——对德国1。和2。德甲,J.应用。斯达。.46(2019),第1336–1349页。[谷歌学者]

文章来自应用统计学杂志由以下人员提供泰勒和弗朗西斯