<trans data-src="Beyond Completion Rate: Evaluating the Passing Ability of Footballers">超越完成率：足球运动员传球能力的评价

用于代理影响传球成功因素的协变量†

类型	协变量	符号	滞后	近似系数
类型	协变量	符号	滞后	控制	传递球员压力	距离	接收球员压力	熟悉度
连续	起点和目的地	x、 y、x_结束,年_结束	0		✓	✓	✓
	上次通过后的时间	δt	0，1	✓	✓		✓
	此焊道序列中的焊道编号	e（电子）	0	✓	✓		✓
	游戏时间（分钟）	t吨	0	✓	✓		✓
	玩家在游戏中的位置	${\bar{x个}}_{k个, j个}, {\bar{\tilde{年}}}_{k个, j个}$	0		✓		✓	✓
指示器	头球传球	一	0, 1	✓
	决斗（空中、铲球、同一球员）	d日_一，天_t吨，天_秒	1	✓	✓
	家庭优势	小时	0					✓

类型	协变量	符号	滞后	近似系数
类型	协变量	符号	滞后	控制	传递球员压力	距离	接收球员压力	熟悉度
连续	起点和目的地	x、 y、x_结束,年_结束	0		✓	✓	✓
	上次通过后的时间	δt	0, 1	✓	✓		✓
	此焊道序列中的焊道编号	e（电子）	0	✓	✓		✓
	游戏时间（分钟）	t吨	0	✓	✓		✓
	玩家在游戏中的位置	${\bar{x个}}_{k个, j个}, {\bar{\tilde{年}}}_{k个, j个}$	0		✓		✓	✓
指示器	头球传球	一	0, 1	✓
	决斗（空中、铲球、同一选手）	d日_一，天_t吨，天_秒	1	✓	✓
	家庭优势	小时	0					✓

†

滞后表示是否考虑与执行的过程（滞后=0）或前一个过程（滞后=1）对应的值。

表1

用于代理影响传球成功因素的协变量†

类型	协变量	符号	滞后	近似系数
类型	协变量	符号	滞后	控制	传递球员压力	距离	接收球员压力	熟悉程度
连续	出发地和目的地	x、 y、x_结束,年_结束	0		✓	✓	✓
	上次通过后的时间	δt	0, 1	✓	✓		✓
	此焊道序列中的焊道编号	e（电子）	0	✓	✓		✓
	游戏时间（分钟）	t吨	0	✓	✓		✓
	玩家在游戏中的位置	${\bar{x个}}_{k个, j个}, {\bar{\tilde{年}}}_{k个, j个}$	0		✓		✓	✓
指示器	头球传球	一	0, 1	✓
	决斗（空中、铲球、同一球员）	d日_一，天_t吨，天_秒	1	✓	✓
	家庭优势	小时	0					✓

类型	协变量	符号	滞后	近似系数
类型	协变量	符号	滞后	控制	传递球员压力	距离	接收球员压力	熟悉度
连续	起点和目的地	x、 y、x_结束,年_结束	0		✓	✓	✓
	上次通过后的时间	δt	0, 1	✓	✓		✓
	此焊道序列中的焊道编号	e（电子）	0	✓	✓		✓
	比赛时间（分钟）	t吨	0	✓	✓		✓
	玩家在游戏中的位置	${\bar{x个}}_{k个, j个}, {\bar{\tilde{年}}}_{k个, j个}$	0		✓		✓	✓
指示器	头球传球	一	0, 1	✓
	决斗（空中、铲球、同一球员）	d日_一，天_t吨，天_秒	1	✓	✓
	家庭优势	小时	0					✓

†

滞后表示是否考虑与执行的过程（滞后=0）或前一个过程（滞后=1）对应的值。

2.2确定球员的平均位置

我们模型中的一个关键变量是传球球员在比赛中的位置。我们打算用这一点来代替传球球员可能受到的来自对手的压力。将其作为协变量的一个复杂因素是比赛位置和传球成功率之间可能存在反向因果关系。例如，球员的位置（通常由经理或教练指定）可能是其传球成功率的函数，因为被认为传球成功的球员被要求靠近对手的球门，这反过来又降低了他们的传球成功度，因为对该球员的压力增加。为了防止内生性的可能性，我们使用了“预期比赛位置”，即当前比赛前球员在比赛中平均坐标的加权平均值。球员在给定比赛中的传球能力不会影响他以这种方式定义的预期比赛位置。

现在，我们描述了从单个事件数据中得出这一结果的方法。可以使用更复杂的算法来实现这一点，但由于这不是我们研究的主要重点，因此我们采用以下方法来预测k个第位选手j个第次比赛。

（a）
计算宽度坐标中距节距中心距离的绝对值（节距坐标为x个∈〈0,1〉表示球场长度（0是球队在球门上的坐标），以及年∈〈0,1〉宽度（右侧边线为0）我作为
${\tilde{年}}_{我} = | 年_{我} 负极 \frac{1}{2} | 。$
当我们计算比赛中球员在比赛中变换位置时距球场中心的平均距离时，我们使用该距离的绝对值来避免取消条款。
（b）
计算 $({\bar{x个}}_{k个, j个}, {\bar{\tilde{年}}}_{k个, j个})$ 作为所有k个第个运动员在比赛前的比赛项目（投篮、传球、铲球、决斗、运球等）j个第次比赛。白天玩的游戏中事件的重量d日_米以指数形式取决于当天和j个th固定装置和由exp{−给出(d日_j个负极d日_米)}. 我们设置了ϕ=0.1，这意味着游戏中的坐标对平均值的贡献约为一周后游戏中坐标的一半。这种选择完全是武断的，但在我们的模型中运行良好（一般来说，球员被分配到我们期望的位置，因为我们知道球员的专业知识）。这些连续变量作为协变量进入我们的模型。

为了展示我们的结果并简化解释，我们根据 $({\bar{x个}}_{k个, j个}, {\bar{\tilde{年}}}_{k个, j个})$ 值符合图。1。我们根据球员在该赛季被分配到每个位置的频率，进一步将他们归类为整个赛季的名义位置。最后一步仅用于按位置显示球员的传球评级，而不会出现在传球结果的模型中。

$2006-2007赛季比赛中预期球员位置的等高线图：x轴代表边线，x̅=0.0是球队的球门线，而x \773；=1.0是对手的球门线上；y轴是指与穿过球门中心的轴之间的距离，因此y=0.0是球门的中心，y=0.5对应于两条引入线；球员的名义位置基于所示的边界定义（LRD，左后卫或右后卫；CD，中后卫；LRM，左中场或右中场；CM，中中场；CA，中攻击手）$

图1

2006-2007赛季预期球员位置的等高线图：x个-轴表示边线，x̅=0.0是该队的目标线x̅=1.0是对手的球门线；这个年-轴是从穿过球门中心的轴的距离，所以 $\bar{\tilde{年}} = 0 。 0$ 是目标的中心 $\bar{\tilde{年}} = 0 。 5$ 对应于两条投入线；球员的名义位置基于所示的边界定义（LRD，左后卫或右后卫；CD，中后卫；LRM，左中场或右中场；CM，中中场；CA，中攻击手）

最后，由于我们根据过去的比赛预测球员的位置，数据缺失（ $({\bar{x个}}_{k个, j个}, {\bar{\tilde{年}}}_{k个, j个})$ ⁠)在样本中每个玩家的第一场游戏中。我们从拟合样本中删除这些观察结果我=242 478个数据点和K（K）=456名球员参加了多场比赛。

3足球运动员传球能力的估算模型

如上所述，我们使用模型预测传球成功的概率，以估计球员的传球能力。我们使用的模型来自Lin和Zhang的广义可加混合模型框架(1999). 广义可加混合模型是广义线性模型的扩展，其中线性预测器可以包含协变量的光滑函数以及随机效应。

让我第次通过o个_我哪里o个_我=1表示成功通过o个_我否则=0。我们假设通过结果的分布遵循伯努利分布，成功概率由线性预测器的逆logit函数表示η_我以下为：

({o个}_{我} | η_{我}) \sim 伯努利 ({第页}_{我})

(1)

哪里

{第页}_{我} = \frac{经验 (η_{我})}{1 + 经验 (η_{我})} 。

(2)

我们让η_我是固定效应的函数β和随机效应b条固定效应对应于表中列出的所有指标变量的矩阵1和拦截

W公司 = (1, 一^{(n个)}, 一^{(n个 负极 1)}, {d日}_{一}^{(n个 负极 1)}, {d日}_{t吨}^{(n个 负极 1)}, {d日}_{秒}^{(n个 负极 1)}, {小时}^{(n个)})

所以W公司_我是该矩阵的一行，对应于我第次通过。上标n个负极L（左）指示滞后于的值L（左），即对应于事件L（左）在电流通过之前，例如。 ${d日}_{一}^{(n个负极 1)} = 1$ 在空中决斗之前的所有传球 ${d日}_{一}^{(n个负极 1)} = 0$ 其余部分。

随机效应由向量给出b条，第一个K（K）=456个元素代表球员的传球能力，其余2×T型=2×20个元素，分别对应于传球队员的球队能力和对方促进和阻碍传球执行的能力，从而

{b条}_{(K（K） + 2 T型) \times 1} = {({({b条}^{(第页)})}^{T型} {({b条}^{(t吨)})}^{T型} {({b条}^{(o个)})}^{T型})}^{T型} 。

在广义可加混合模型中η_我由提供

η_{我} = {W公司}_{我} β + {Z轴}_{我} b条 + 秒_{1} ({t吨}_{我}^{(n个)}) + 秒_{2} ({\tilde{e（电子）}}_{我}^{(n个)}) + 秒_{三} (δ {t吨}_{我}^{(n个)}) + 秒_{4} (δ {t吨}_{我}^{(n个 负极 1)}) + 秒_{5} ({\bar{x个}}_{[k个, j个] (我)}^{(n个)}, {\bar{\tilde{年}}}_{[k个, j个] (我)}^{(n个)}) + 秒_{6} ({x个}_{我}^{(n个)}, {x个}_{结束, 我}^{(n个)}, | 年_{我}^{(n个)} 负极 0.5 |, | 年_{结束, 我}^{(n个)} 负极 0.5 |) + 秒_{7} ({x个}_{我}^{(n个)}, {x个}_{结束, 我}^{(n个)}, (年_{我}^{(n个)} 负极 0.5) (年_{结束, 我}^{(n个)} 负极 0.5)),

(3)

其中指数k个和j个对应于j个第次比赛k个第个玩家和 ${\bar{x个}}_{[k个, j个] (我)}^{(n个)}$ ⁠, ${\bar{\tilde{年}}}_{[k个, j个] (我)}^{(n个)}$ 是执行游戏的玩家先前游戏事件的平均坐标我第次焊道（见图。1).Z轴_我是选择随机效应向量元素的设计矩阵的一行b条对应于执行我传球，他效力的球队和对手。的前两列Z轴由0和1组成，而第三列由0和−1组成，因此

（a）
个人传球技巧，
（b）
团队促进传球和
（c）
团队阻碍传球的能力

都反映在相对较高的相应随机效应值中。秒₁,…,秒₇是我们在下面讨论的平滑函数。我们注意到我们截断了e（电子），传递序列中的传递数，因此我们在模型中使用的协变量实际上是 $\tilde{e（电子）} = 最小值 (e（电子）, 15)$ ⁠这是因为与此协变量对应的拟合平滑函数的形状表明，它正在拟合大于15的值的噪声。

最后，对于随机效应，我们假设

b条 \sim N个 {0, Σ (σ)},

(4)

其中∑(σ) = Σ(σ_第页,σ_t吨,σ_o个)是一个(K（K）+2T型)-维对角技巧协方差矩阵与第一K（K）对角线上的元素等于玩家技能方差 $σ_{第页}^{2}$ ⁠，下一个T型等于球员团队技能方差的元素 $σ_{t吨}^{2}$ 和决赛T型元素等于相反的团队能力方差 $σ_{o个}^{2}$ ⁠这反映了我们的信念，即非常优秀（和糟糕）的球员和球队比平均的个。

在本应用中，球员的随机效应值是感兴趣的关键参数，因为它们可以被解释为球员的传球能力。其他随机效应可用于评估每支球队促进和阻碍传球的能力。

3.1平滑功能

这个秒_（f）,（f）=1，…，7，方程式中的项(3)是平滑函数。这些函数在指定协变量和响应变量之间的关系时提供了很大的灵活性。在模型拟合过程中，每个变量都表示为一些基本函数（协变量）的总和，这些基本函数由需要估计的回归系数加权。

这种方法的灵活性带来的风险是，如果基函数数量足够大，平滑函数可能会以不太可能代表底层数据生成过程的形状覆盖观测数据。函数的平滑度与它与观测数据的拟合程度之间存在权衡。通过严格定义的公式（例如函数二阶导数的积分）测量的最佳平滑度在模型拟合过程中确定。

有很多方法可以选择基，这是一组基函数，定义了应该包含目标函数近似值的空间。这里对于单个协变量的光滑函数，秒_（f）,（f）=1，…，4（即游戏时间t吨，上次通过后的时间，δt，以及其滞后时间，以及团队当前传球序列中的传球次数， $\tilde{e（电子）}$ ⁠)我们使用薄板回归样条，约为薄板样条函数后者是一个理论上很有吸引力的解决一般平滑问题的方法（参见Wood(2006)，第154–156页），但从计算的角度来看是不切实际的，因此是近似值。

对于平滑功能秒₅,秒₆和秒₇我们使用张量积平滑这是因为薄板回归样条是各向同性的，因为它们在所有维度上都平等地对待拟合样条的平滑度。在我们的应用中，没有理由相信存在这种各向同性。例如，函数的平滑度 $秒_{5}$ ⁠, $秒_{6}$ 和 $秒_{7}$ 即使我们将两个维度都缩放到相同的实际比例（例如米），沿着音高的方向几乎可以肯定地与函数的平滑度不同。相反，张量积平滑不一定是各向同性的，因此这里使用了张量积光滑。

我们使用两个功能描述通道（起点和终点）组件的位置：秒₆和秒₇.在某种程度上，我们希望将左右（沿年-轴）节距的侧面。例如，在保持所有外部性不变的情况下，我们预计，距离轴线左侧10米处穿过两个目标中心的通道与距离轴线右侧10米处的通道成功的几率相同，并且到这一点的通道也一样。这种信念反映在秒₆-功能。然而，我们想将传球与右边10米的点区分开来，从右边1米的轴线到左边21米的传球（同样x个). 这个秒₆-函数不允许进行这种区分（ $| 年_{我}^{(n个)} 负极 0.5 |$ 和 $| 年_{结束, 我}^{(n个)} 负极 0.5 |$ 这两种传递方式相同）。因此，我们引入 $(年_{我}^{(n个)} 负极 0.5) (年_{结束, 我}^{(n个)} 负极 0.5)$ 这一术语表示向球场同一侧传球为正，表示穿过球场轴线的传球为负。我们在秒₇平滑函数与x个-和x个_结束-协变量允许其效果随传球起点和终点到两条球门线的距离而不同。

方程中广义可加混合模型的参数(1)–(4)使用惩罚拟似然法（Schall，1991; 布雷斯洛和克莱顿，1993)R（R核心团队，2012)使用mgcv包（Wood，2006).

3.2预测和估计球员的传球能力

方程中玩家的随机效应(4)可以解释为球员的传球能力。根据方程式中描述的模型(1)–(4)，我们可以计算分析中感兴趣的几个通过率预测。

（a）
完整的预测, ${\hat{第页}}_{我}^{(（f）)}$ ⁠，可以通过替换方程中的固定参数来获得(3)和他们的估计 $\hat{β}$ ⁠随机效应及其预测 $({\hat{b条}}^{(第页)}, {\hat{b条}}^{(t吨)}, {\hat{b条}}^{(o个)})$ 并使用剩余协变量的拟合平滑函数。从这个意义上说，这是我们最完整的预测类型，它既考虑了传球运动员的技术，也考虑了预测传球的难度。它预测实际尝试的传球的完成率。通过比较实际通过率和平均通过率 ${\bar{\hat{第页}}}_{k个, 秒}^{(（f）)}$ 此值的k个第个球员在第二个赛季传球(秒≡2007–2008）我们可以知道相对于模型预期，他表现得有多好。然而，这个指标并不能很好地衡量球员的传球技巧，因为它还包含了有关传球难度的信息。虽然它可以作为模型拟合度的指标，但还是很有用的。下一种预测是为了过滤传球难度，以便对球员的传球能力进行公平比较。
（b）
预测“平均”难度通过2006–2007赛季k个第个玩家，作为 ${\hat{第页}}_{k个, 2006 / 2007}^{(av（平均值）)}$ ⁠它平均了传球的难度完整的预测这样就可以公平地比较玩家的随机效应预测。使用以下程序计算。
- （i）
  对于每个我第四步，我们计算线性预测因子η_我与完整预测的方式相同，只是玩家的随机效应b条^（p）设置为0。
- （ii）
  我们计算了2006-2007赛季所有传球的线性预测值的平均值。
- （iii）
  我们将上述平均线性预测因子添加到玩家的随机效应预测中 ${\hat{b条}}^{(第页)}$ ⁠。
- （iv）
  最后，我们通过计算上述调整后的线性预报器的逆logit函数，将这些值放在概率标度上。
  我们用这个预测来衡量通过能力。当然，我们可以只使用玩家的随机效应预测 ${\hat{b条}}^{(第页)}$ 而不是为了这个。然而，为了便于解释，我们使用此转换将其置于通过率的范围内。
（c）
针对“平均”难度通过的夹具特定预测获得方式为 ${\hat{第页}}_{k个, j个}^{(私人电话)}$ ⁠，对于玩家k个固定装置内j个（（pto）缩写代表“球员、球队、对手”）。与完整的预测，它忽略了所有传球难度信息，除了在给定比赛中促进和阻碍球队传球的能力。使用以下程序计算。
- （i）
  首先，我们计算2006-2007赛季传球的平均线性预测值，方法与平均难度及格预测，除了对于每次传球，我们将球员、他们的球队和对手的所有随机效果设置为0（以及他们估计的所有其他参数）。
- （ii）
  对于每个玩家k个在每个固定装置中j个在2007-2008赛季，我们将上述平均线性预测值添加到球员、球队和对手的随机影响预测中。（对于2007-2008赛季新升入联盟的球队，他们没有自己的随机效应预测，我们使用2006-2007赛季从联盟降级的球队各自随机效应的平均值。）
- （iii）
  我们通过计算上述调整后的线性预测值的逆logit函数，将这些值放在概率标度上。
对于每个固定装置j个我们计算这些家庭预测的平均值， ${\bar{\hat{第页}}}_{小时, j个}^{(私人电话)}$ ⁠以及客场队员， ${\bar{\hat{第页}}}_{一, j个}^{(私人电话)}$ ⁠我们还计算了原始预测的相应平均值， ${\bar{\hat{o个}}}_{小时, j个}$ 和 ${\bar{\hat{o个}}}_{一, j个}$ ⁠，根据j个2007–2008赛季的第次比赛k个这位球员预计将以他在合适样本中的平均速度完成传球（2006-2007赛季）。我们使用这两组平均值作为j个通过比较原始传球完成率来衡量球员技能，从而评估我们模型的实用性。
（d）
平均玩家预测 ${\hat{第页}}_{我}^{(e（电子）)}$ 预测如果由普通玩家执行，则给定传球将成功完成的概率。它的计算方法与完整的预测除了玩家的随机效果b条^（p）设置为0。这个值可以被认为是一个易于传递的代理。我们还计算平均值 ${\bar{\hat{第页}}}_{k个, 秒}^{(e（电子）)}$ 对于所有k个两个赛季中第个球员的传球秒。

4结果

4.1广义线性混合模型估计结果

表2给出向量中包含的参数模型项的估计β。

表2

参数模型项的估计（向量的各个元素β)

协变量	姓名	估算	标准	z值
			错误
1	拦截	1.28	0.03	41.91
一^(n个)	头球传球	−1.22	0.02	−77.03
一^(n个–1)	上一次传球被顶出	−0.21	0.02	−12.82
${d日}_{一}^{(n个负极 1)}$	之前的比赛是空中决斗	−0.51	0.05	−9.52
${d日}_{t吨}^{(n个负极 1)}$	上一场比赛是铲球	0.22	0.04	5.03
${d日}_{秒}^{(n个负极 1)}$	之前的事件是一场涉及通行证执行人的决斗	0.13	0.04	2.97
小时^(n个)	传球执行者为主队比赛	0.09	0.01	8.11

协变量	姓名	估算	标准	z值
			错误
1	拦截	1.28	0.03	41.91
一^(n个)	人头传球	−1.22	0.02	−77.03
一^(n个–1)	上一次传球被顶出	−0.21	0.02	−12.82
${d日}_{一}^{(n个负极 1)}$	之前的比赛是空中决斗	−0.51	0.05	−9.52
${d日}_{t吨}^{(n个负极 1)}$	上一场比赛是铲球	0.22	0.04	5.03
${d日}_{秒}^{(n个负极 1)}$	之前的事件是一场涉及通行证执行人的决斗	0.13	0.04	2.97
小时^(n个)	传球执行者为主队比赛	0.09	0.01	8.11

表2

参数模型项的估计（矢量的各个元素β)

协变量	姓名	估算	标准	z值
			错误
1	拦截	1.28	0.03	41.91
一^(n个)	头球传球	−1.22	0.02	−77.03
一^(n个–1)	上一次传球被顶出	−0.21	0.02	−12.82
${d日}_{一}^{(n个负极 1)}$	之前的比赛是空中决斗	−0.51	0.05	−9.52
${d日}_{t吨}^{(n个负极 1)}$	上一场比赛是铲球	0.22	0.04	5.03
${d日}_{秒}^{(n个负极 1)}$	之前的事件是一场涉及通行证执行人的决斗	0.13	0.04	2.97
小时^(n个)	传球执行者为主队比赛	0.09	0.01	8.11

协变量	姓名	估算	标准	z值
			错误
1	拦截	1.28	0.03	41.91
一^(n个)	头球传球	−1.22	0.02	−77.03
一^(n个–1)	上一次传球被顶出	−0.21	0.02	−12.82
${d日}_{一}^{(n个负极 1)}$	之前的比赛是空中决斗	−0.51	0.05	−9.52
${d日}_{t吨}^{(n个负极 1)}$	上一场比赛是铲球	0.22	0.04	5.03
${d日}_{秒}^{(n个负极 1)}$	之前的事件是一场涉及通行证执行人的决斗	0.13	0.04	2.97
小时^(n个)	传球执行者为主队比赛	0.09	0.01	8.11

不出所料，头球传球(一^(n个)=1）比用脚传球的准确性低，并且对后续传球也有负面影响(一^(n−1个)=1），可能是因为他们迫使接球手再次顶球，或者花更多时间控制球并将球压到脚上。头球传球通常不太准确，因为在这种情况下，执行球员对球的控制力不如用脚传球。如果传球是赢得空中决斗的直接结果(⁠ ${d日}_{一}^{(n个负极 1)} = 1$ ⁠)，它完成的机会进一步下降，但如果同一个玩家赢得决斗并传球，这种效果会得到一定程度的补偿(⁠ ${d日}_{秒}^{(n个负极 1)} = 1$ ⁠). 用铲球从对方手中夺回球后立即进行的传球通常更有可能完成，可能是因为对方需要一些时间重新组织自己（例如，被铲球的球员在传球时可能在地面上）。

图。2在线性预测器的尺度上给出了时间相关协变量的估计平滑函数。在时间压力下通过（图。2（c））成功的概率相对较低，就像那些在球队建立控球之前交换过几次传球的球员一样（图。2（b））。有趣的是，在游戏的后期，传球通常更容易（图。2（a））也许是因为球队变得疲倦，无法像比赛早期那样有效地对传球者施加压力；然而，这种影响很小。

线性预测标度上的时间重定分量平滑函数（，95%置信区间）：（a）游戏时间（分钟）；（b）通行证号码；（c）上次通过后的时间（秒）；（d）前一次和前一次之间的时间

图2

线性预测器尺度上的时间分量平滑函数(，95%置信区间）：（a）游戏时间（分钟）；（b）特定管有中的通行证号码；（c）上次通过后的时间（秒）；（d）前一次和前一次之间的时间

传球的成功也与执行球员在前几场比赛中的平均位置有关，如图所示。三.控制其他一切，防守队员（低水平球员 ${\bar{x个}}^{(n个)}$ ⁠)似乎比其他球员都容易，其次是边锋和中场。中锋通常面临着最艰巨的任务。要理解为什么这可能是真的，可以考虑一下自己球门附近的传球。如果是一名中锋传球，那么球队很可能面临来自对手的巨大压力，所有球员都被推回自己的球门附近，几乎没有传球的选择。或者，如果是后卫传球，那么球员（和他的球队）承受压力的可能性就较小。

在线性预测器的尺度上，前几场比赛中执行运动员的平均位置（涉及他的所有项目的位置）的平滑函数s6（x⁄（n），y⁄；y⁄（n）平均了从穿过两个球门中心的轴的距离，以便不允许y值抵消那些改变球场位置的球员

图3

平滑功能 $秒_{6} ({\bar{x个}}^{(n个)}, {\bar{\tilde{年}}}^{(n个)})$ 执行球员在之前比赛中的平均位置（涉及他的所有项目的位置）的线性预测值： ${\bar{x个}}^{(n个)}$ 对应于节距的长度和 ${\bar{\tilde{年}}}^{^{(n个)}}$ 宽度； ${\bar{\tilde{年}}}^{(n个)}$ 平均从穿过两个目标中心的轴的距离，以便不允许年取消换场地的球员

说明传球起点和终点对其成功概率的影响是一个更大的挑战，因为在我们的模型中，后者的线性预测取决于通过两个多维函数的音高坐标。图。4是为了应对这一挑战。其目的是确定某一点（图中的粗点）的焊道原点位置、最常见值处的指示变量以及最接近中值的观测值处的连续变量。图。4显示了相对于传递目的地位置的线性预测器的轮廓。

相对于焊道原点和终点位置的线性预测器值：等高线是焊道终点在水平轴（xend（n））和垂直轴（yend（n，从（0.25,0.50,0.75）×（0.25,050,0.76）网格中选择（直接通往目标）

图4

相对于通道起点和终点位置的线性预测器值：等高线是水平方向上通道终点的线性预验器值(⁠ ${x个}_{e（电子） n个 d日}^{(n个)}$ ⁠)和垂直方向(⁠ $年_{e（电子） n个 d日}^{(n个)}$ ⁠)轴和过程原点变量(x个^(n个)和年^(n个))固定在粗点所示的值上，粗点从（0.25,0.50,0.75）×（0.25,050,075）网格中选择(，直达目标）

首先，注意相对于穿过两个目标中心的轴的设计对称性。除此之外，向对手球门（沿着粗点的横轴）传球的成功几率往往比侧向传球，尤其是向后传球的成功几率更小。此外，传球给两翼中的任何一翼都比直接向前传球更有可能成功。这是因为防守队员往往会集中精力，不让持球队员在球门正前方进入方便的射门位置。最后，成功的概率往往在传球球员之前下降（假设他面对对手的球门）。这可能是因为通常有一个对手在传球球员的前面，挡住了通往球门的最直接路线（虚线）。

团队随机效应的预测如图所示。5垂直轴对应于术语b条^（t）代表每个球队的传球能力（例如通过巧妙的“离球”动作）。它越高，团队就越好。横轴包含术语b条^（o）捕捉每支球队阻止对手传球的能力（例如，通过攻击性压迫和近距离盯防）。同样，数字越高越好。与对角线虚线的距离可以被视为团队在这两方面能力的总结。剧情中有四个明显的局外人：阿森纳、切尔西、曼联和利物浦，他们在联赛中占据主导地位，尤其是在传球能力方面。阿森纳就是一个极端的例子，因为他们在传球方面做得最好，但在阻止传球方面做得一般。相比之下，利物浦在这两个方面几乎都做得一样好。

图5

团队随机效应预测

足球狂热爱好者可能会发现这些结果对协变量对通过成功概率的影响是直观合理的。我们认为，这表明该模型运行良好。

4.2通行便利

我们将拟合样本中每一次传球的容易程度与普通球员完成传球的概率近似， ${\hat{第页}}_{我}^{(e（电子）)}$ ⁠.图。6（a）显示了生成的直方图。

易传性：（a）所有位置（连续四分位的切分）；（b）球员从指定位置轻松传球的相对频率（左中场或右中场；左后卫或右后卫；中中场；中后卫；中攻击手）

图6

轻松传球：（a）所有位置(，连续四分位数的切割）；（b）球员从指定名义位置传球的相对容易程度(左中场或右中场；左后卫或右后卫；中前卫；中后卫；，中央攻击者）

越往右，越容易通过（越有可能完成）。有趣的是，分布高度偏向于轻松传球：一半的传球预期完成概率超过76%，四分之一的传球成功执行的概率为90%或更高。相比之下，只有大约四分之一的传球不太可能完成。

我们可以根据球员的名义位置来细分传球难度信息。这在图中完成。6（b） ●●●●。相对较高比例的轻松传球（最右边）是由中场球员尝试的。传球难度越大，这组球员执行的传球比例就越低，相反，进攻球员在中路（中前卫）和边路（左右中场）的尝试次数就越多。防守队员（中后卫和左右后卫）传球的比例实际上与传球的难易程度有关。

我们认为，原始传球完成率不能很好地衡量球员的传球能力的原因之一是，它受到了尝试传球难度的污染。换言之，这个简单的指标可能仅仅因为尝试传球类型的变化而波动，而不是执行球员固有的技术水平。如果是这样的话，那么对于在第二个赛季尝试更轻松传球的球员，我们可能会期望完成率从一个赛季增加到另一个赛季，反之亦然。这是图中分析的内容。7它将2007年至2008年的平均完成率与2006年至2007年的平均完工率进行了比较（图。7（a））和完整模型预测的平均值， ${\bar{\hat{第页}}}_{k个, 2007 / 2008}^{(（f）)}$ （图。7（b））。聚焦于图。7（a）首先，不同季节的经验值之间存在一定的相关性。然而，同样明显的是，许多偏差可以用传球的容易性来解释，因为表现有所提高（在突破的身份线之上）的球员在2007-2008赛季往往比上一个赛季面临更容易的任务， ${\bar{\hat{第页}}}_{k个, 2007 / 2008}^{(e（电子）)} 负极 {\bar{\hat{第页}}}_{k个, 2006 / 2007}^{(e（电子）)} > 0$ ⁠相反，在第二个赛季尝试更高难度传球的球员的完成率往往会下降。由于该模型可以控制通过难度，因此其预测值与2007-2008年经验值之间的关系更强（图。7（b）），模型的皮尔逊相关系数为0.92，朴素预测为0.72。除了说明传球难度的影响外，该分析还可以作为模型的一些验证。

2007-2008年的平均观察传球完成率o³k，2007/2008年，与天真的oák，2006/2007年和模型p³k（2007/2008（f））预测相比：2007-2008（e）−p³k2006/2007的数量是第k名球员在2006-2007至2007-2008赛季传球容易性代理值的变化（，正；，负）（，0.05； , 0.10; , 0.15; , 0.05; , 0.10; , 0.15; , 标识函数）

图7

2007年至2008年观察到的平均通过率 $\bar{o个}_{k个, 2007 / 2008}$ 对抗天真， $\bar{o个}_{k个, 2006 / 2007}$ ⁠和模型， $\bar{\hat{第页}}_{k个, 2007 / 2008}^{(（f）)}$ ⁠，预测：数量 $\bar{\hat{第页}}_{k个, 2007 / 2008}^{(e（电子）)} 负极 {\bar{\hat{第页}}}_{k个, 2006 / 2007}$ 是2006–2007赛季到2007–2008赛季，代表传球难易度的值的变化k个第个玩家(，阳性；，负）(, 0.05;, 0.10;, 0.15;, 0.05;, 0.10;, 0.15;，标识函数）

表三根据模型列出了每个位置的前五名球员，以及他们的预测和经验值。该名单仅限于在2007-2008赛季至少传球100次的球员，以便在模型预测和验证样本中的观察值之间进行可靠比较。表三揭示了一些具体的例子，说明该模型如何合并并解释在预测中如何克服困难。

表3

2006–2007赛季表现排名前五的传球者

职位†	名字	姓氏	2006–2007赛季成绩					2007-2008赛季成绩
职位†	名字	姓氏	团队	n个	平均观测完成率， $\bar{o个}$	平均通过率， ${\bar{\hat{第页}}}^{(e（电子）)}$	通过评级, ${\hat{第页}}^{(av（平均值）)}$	团队	n个	全部预测的平均值， ${\bar{\hat{第页}}}^{(（f）)}$	观察到的平均完成率， $\bar{o个}$	平均易通过性， ${\bar{\hat{第页}}}^{(e（电子）)}$	完成率偏差， $\bar{o个} 负极 {\bar{\hat{第页}}}^{(（f）)}$
光盘	约翰	特里	切尔西	1058	0.88	0.81	0.83	切尔西	613	0.84	0.84	0.79	0
光盘	威廉	加拉斯	阿森纳	730	0.86	0.81	0.81	阿森纳	884	0.89	0.92	0.87	0.03
光盘	萨米语	希比亚	利物浦	1088	0.75	0.72	0.79	利物浦	648	0.78	0.79	0.76	0.01
光盘	里卡多	卡瓦略	切尔西	1193	0.83	0.80	0.79	切尔西	621	0.82	0.86	0.81	0.03
光盘	克里斯	里戈特	米德尔斯堡	142	0.72	0.65	0.79	米德尔斯堡	220	0.67	0.72	0.65	0.05
LRD公司	帕斯卡	希姆邦达	维甘和托特纳姆	1351	0.75	0.72	0.80	托特纳姆热刺	1119	0.77	0.79	0.74	0.02
LRD公司	法维奥	奥雷利奥	利物浦	435	0.71	0.66	0.80	利物浦	592	0.72	0.70	0.69	−0.03
LRD公司	安得烈	泰勒	米德尔斯堡	1174	0.68	0.65	0.79	米德尔斯堡	453	0.67	0.68	0.64	0.01
LRD公司	史蒂夫	芬南	利物浦	1311	0.75	0.73	0.79	利物浦	631	0.76	0.74	0.74	−0.02
LRD公司	史蒂芬	卡尔	纽卡斯尔联队	858	0.73	0.70	0.79	纽卡斯尔联队	297	0.72	0.70	0.70	−0.02
厘米	保罗	斯科尔斯	曼联	1898	0.90	0.84	0.85	曼联	1341	0.89	0.89	0.84	−0.00
厘米	斯蒂利安	佩特罗夫	阿斯顿维拉	996	0.79	0.74	0.80	阿斯顿维拉	562	0.78	0.79	0.74	0.01
厘米	迈克尔	埃辛	切尔西	1637	0.84	0.81	0.80	切尔西	1220	0.82	0.80	0.79	−0.01
厘米	迈克尔	卡里克	曼联	1762	0.82	0.79	0.80	曼联	1280	0.82	0.82	0.79	0.01
厘米	迪迪埃	佐科拉	托特纳姆热刺	1105	0.82	0.79	0.80	托特纳姆热刺	1032	0.83	0.84	0.81	0.01
LRM公司	米克尔	阿特塔	埃弗顿	1292	0.73	0.68	0.81	埃弗顿	877	0.69	0.72	0.65	0.03
LRM公司	亚力山大	赫莱布	阿森纳	1455	0.80	0.78	0.79	阿森纳	1349	0.80	0.82	0.78	0.02
LRM公司	加雷思	巴里	阿斯顿维拉	1451	0.68	0.65	0.79	阿斯顿维拉	1203	0.71	0.72	0.69	0.01
LRM公司	凯文	基尔班	埃弗顿和维甘	831	0.62	0.59	0.79	维根队	725	0.64	0.57	0.62	−0.07
LRM公司	克里斯蒂亚诺	罗纳尔多	曼联	1200	0.78	0.76	0.78	曼联	1017	0.76	0.76	0.74	0
加利福尼亚州	约翰	小心	阿斯顿维拉	309	0.56	0.52	0.79	阿斯顿维拉	723	0.56	0.55	0.54	−0.01
加利福尼亚州	戴伦	弯曲	查尔顿竞技	679	0.65	0.63	0.78	托特纳姆热刺	160	0.59	0.58	0.57	−0.01
加利福尼亚州	卡洛斯	特维斯	西汉姆联	518	0.74	0.71	0.78	曼联	950	0.80	0.80	0.78	0
加利福尼亚州	尼古拉斯	阿内尔卡	博尔顿流浪者队	813	0.66	0.64	0.78	博尔顿和切尔西	620	0.68	0.66	0.66	−0.01
加利福尼亚州	恩万科	卡努语	朴茨茅斯	902	0.72	0.70	0.78	朴茨茅斯	436	0.76	0.75	0.75	−0.01

职位†	名字	姓氏	2006–2007赛季成绩					2007-2008赛季成绩
职位†	名字	姓氏	团队	n个	平均观测完成率， $\bar{o个}$	平均通过率， ${\bar{\hat{第页}}}^{(e（电子）)}$	通过评级, ${\hat{第页}}^{(av（平均值）)}$	团队	n个	全部预测的平均值， ${\bar{\hat{第页}}}^{(（f）)}$	平均观测完成率， $\bar{o个}$	平均通过率， ${\bar{\hat{第页}}}^{(e（电子）)}$	完成率偏差， $\bar{o个} 负极 {\bar{\hat{第页}}}^{(（f）)}$
光盘	约翰	特里	切尔西	1058	0.88	0.81	0.83	切尔西	613	0.84	0.84	0.79	0
光盘	威廉	加拉斯	阿森纳	730	0.86	0.81	0.81	阿森纳	884	0.89	0.92	0.87	0.03
光盘	萨米语	希比亚	利物浦	1088	0.75	0.72	0.79	利物浦	648	0.78	0.79	0.76	0.01
光盘	里卡多	卡瓦略	切尔西	1193	0.83	0.80	0.79	切尔西	621	0.82	0.86	0.81	0.03
光盘	克里斯	里戈特	米德尔斯堡	142	0.72	0.65	0.79	米德尔斯堡	220	0.67	0.72	0.65	0.05
LRD公司	帕斯卡	希姆邦达	维甘和托特纳姆	1351	0.75	0.72	0.80	托特纳姆热刺	1119	0.77	0.79	0.74	0.02
LRD公司	法维奥	奥雷利奥	利物浦	435	0.71	0.66	0.80	利物浦	592	0.72	0.70	0.69	−0.03
LRD公司	安得烈	泰勒	米德尔斯堡	1174	0.68	0.65	0.79	米德尔斯堡	453	0.67	0.68	0.64	0.01
LRD公司	史蒂夫	芬南	利物浦	1311	0.75	0.73	0.79	利物浦	631	0.76	0.74	0.74	−0.02
LRD公司	史蒂芬	卡尔	纽卡斯尔联队	858	0.73	0.70	0.79	纽卡斯尔联队	297	0.72	0.70	0.70	−0.02
厘米	保罗	斯科尔斯	曼联	1898	0.90	0.84	0.85	曼联	1341	0.89	0.89	0.84	−0.00
厘米	斯蒂利安	佩特罗夫	阿斯顿维拉	996	0.79	0.74	0.80	阿斯顿维拉	562	0.78	0.79	0.74	0.01
厘米	迈克尔	埃辛	切尔西	1637	0.84	0.81	0.80	切尔西	1220	0.82	0.80	0.79	−0.01
厘米	迈克尔	卡里克	曼联	1762	0.82	0.79	0.80	曼联	1280	0.82	0.82	0.79	0.01
厘米	迪迪埃	佐科拉	托特纳姆热刺	1105	0.82	0.79	0.80	托特纳姆热刺	1032	0.83	0.84	0.81	0.01
LRM公司	米克尔	阿特塔	埃弗顿	1292	0.73	0.68	0.81	埃弗顿	877	0.69	0.72	0.65	0.03
LRM公司	亚力山大	赫莱布	阿森纳	1455	0.80	0.78	0.79	阿森纳	1349	0.80	0.82	0.78	0.02
LRM公司	加雷思	巴里	阿斯顿维拉	1451	0.68	0.65	0.79	阿斯顿维拉	1203	0.71	0.72	0.69	0.01
LRM公司	凯文	基尔班	埃弗顿和维甘	831	0.62	0.59	0.79	维根队	725	0.64	0.57	0.62	−0.07
LRM公司	克里斯蒂亚诺	罗纳尔多	曼联	1200	0.78	0.76	0.78	曼联	1017	0.76	0.76	0.74	0
加利福尼亚州	约翰	小心	阿斯顿维拉	309	0.56	0.52	0.79	阿斯顿维拉	723	0.56	0.55	0.54	−0.01
加利福尼亚州	戴伦	弯曲	查尔顿竞技	679	0.65	0.63	0.78	托特纳姆热刺	160	0.59	0.58	0.57	−0.01
加利福尼亚州	卡洛斯	特维斯	西汉姆联	518	0.74	0.71	0.78	曼联	950	0.80	0.80	0.78	0
加利福尼亚州	尼古拉斯	阿内尔卡	博尔顿流浪者队	813	0.66	0.64	0.78	博尔顿和切尔西	620	0.68	0.66	0.66	−0.01
加利福尼亚州	恩万科	卡努语	朴茨茅斯	902	0.72	0.70	0.78	朴茨茅斯	436	0.76	0.75	0.75	−0.01

†

CD，中后卫；LRD，左后卫或右后卫；CM，中场；LRM，左中场或右中场；CA，中央攻击者。

表3

2006–2007赛季表现排名前五的传球者

职位†	名字	姓氏	2006–2007赛季成绩					2007-2008赛季成绩
职位†	名字	姓氏	团队	n个	平均观测完成率， $\bar{o个}$	平均通过率， ${\bar{\hat{第页}}}^{(e（电子）)}$	通过评级, ${\hat{第页}}^{(av（平均值）)}$	团队	n个	全部预测的平均值， ${\bar{\hat{第页}}}^{(（f）)}$	平均观测完成率， $\bar{o个}$	平均通过率， ${\bar{\hat{第页}}}^{(e（电子）)}$	完成率偏差， $\bar{o个} 负极 {\bar{\hat{第页}}}^{(（f）)}$
光盘	约翰	特里	切尔西	1058	0.88	0.81	0.83	切尔西	613	0.84	0.84	0.79	0
光盘	威廉	加拉斯	阿森纳	730	0.86	0.81	0.81	阿森纳	884	0.89	0.92	0.87	0.03
光盘	萨米语	希比亚	利物浦	1088	0.75	0.72	0.79	利物浦	648	0.78	0.79	0.76	0.01
光盘	里卡多	卡瓦略	切尔西	1193	0.83	0.80	0.79	切尔西	621	0.82	0.86	0.81	0.03
光盘	克里斯	里戈特	米德尔斯堡	142	0.72	0.65	0.79	米德尔斯堡	220	0.67	0.72	0.65	0.05
LRD公司	帕斯卡	希姆邦达	维甘和托特纳姆	1351	0.75	0.72	0.80	托特纳姆热刺	1119	0.77	0.79	0.74	0.02
LRD公司	法维奥	奥雷利奥	利物浦	435	0.71	0.66	0.80	利物浦	592	0.72	0.70	0.69	−0.03
LRD公司	安得烈	泰勒	米德尔斯堡	1174	0.68	0.65	0.79	米德尔斯堡	453	0.67	0.68	0.64	0.01
LRD公司	史蒂夫	芬南	利物浦	1311	0.75	0.73	0.79	利物浦	631	0.76	0.74	0.74	−0.02
LRD公司	史蒂芬	卡尔	纽卡斯尔联队	858	0.73	0.70	0.79	纽卡斯尔联队	297	0.72	0.70	0.70	−0.02
厘米	保罗	斯科尔斯	曼联	1898	0.90	0.84	0.85	曼联	1341	0.89	0.89	0.84	−0.00
厘米	斯蒂利安	佩特罗夫	阿斯顿维拉	996	0.79	0.74	0.80	阿斯顿维拉	562	0.78	0.79	0.74	0.01
厘米	迈克尔	埃辛	切尔西	1637	0.84	0.81	0.80	切尔西	1220	0.82	0.80	0.79	−0.01
厘米	迈克尔	卡里克	曼联	1762	0.82	0.79	0.80	曼联	1280	0.82	0.82	0.79	0.01
厘米	迪迪埃	佐科拉	托特纳姆热刺	1105	0.82	0.79	0.80	托特纳姆热刺	1032	0.83	0.84	0.81	0.01
LRM公司	米克尔	阿特塔	埃弗顿	1292	0.73	0.68	0.81	埃弗顿	877	0.69	0.72	0.65	0.03
LRM公司	亚力山大	赫莱布	阿森纳	1455	0.80	0.78	0.79	阿森纳	1349	0.80	0.82	0.78	0.02
LRM公司	加雷思	巴里	阿斯顿维拉	1451	0.68	0.65	0.79	阿斯顿维拉	1203	0.71	0.72	0.69	0.01
LRM公司	凯文	基尔班	埃弗顿和维甘	831	0.62	0.59	0.79	维根队	725	0.64	0.57	0.62	−0.07
LRM公司	克里斯蒂亚诺	罗纳尔多	曼联	1200	0.78	0.76	0.78	曼联	1017	0.76	0.76	0.74	0
加利福尼亚州	约翰	Carew公司	阿斯顿维拉	309	0.56	0.52	0.79	阿斯顿维拉	723	0.56	0.55	0.54	−0.01
加利福尼亚州	戴伦	弯曲	查尔顿竞技	679	0.65	0.63	0.78	托特纳姆热刺	160	0.59	0.58	0.57	−0.01
加利福尼亚州	卡洛斯	特维斯	西汉姆联	518	0.74	0.71	0.78	曼联	950	0.80	0.80	0.78	0
加利福尼亚州	尼古拉斯	阿内尔卡	博尔顿流浪者队	813	0.66	0.64	0.78	博尔顿和切尔西	620	0.68	0.66	0.66	−0.01
加利福尼亚州	恩万科	卡努语	朴茨茅斯	902	0.72	0.70	0.78	朴茨茅斯	436	0.76	0.75	0.75	−0.01

职位†	名字	姓氏	2006–2007赛季成绩					2007-2008赛季成绩
职位†	名字	姓氏	团队	n个	平均观测完成率， $\bar{o个}$	平均通过率， ${\bar{\hat{第页}}}^{(e（电子）)}$	通过评级, ${\hat{第页}}^{(av（平均值）)}$	团队	n个	全部预测的平均值， ${\bar{\hat{第页}}}^{(（f）)}$	平均观测完成率， $\bar{o个}$	平均通过率， ${\bar{\hat{第页}}}^{(e（电子）)}$	完成率偏差， $\bar{o个} 负极 {\bar{\hat{第页}}}^{(（f）)}$
光盘	约翰	特里	切尔西	1058	0.88	0.81	0.83	切尔西	613	0.84	0.84	0.79	0
光盘	威廉	加拉	阿森纳	730	0.86	0.81	0.81	阿森纳	884	0.89	0.92	0.87	0.03
光盘	萨米语	希比亚	利物浦	1088	0.75	0.72	0.79	利物浦	648	0.78	0.79	0.76	0.01
光盘	里卡多	卡瓦略	切尔西	1193	0.83	0.80	0.79	切尔西	621	0.82	0.86	0.81	0.03
光盘	克里斯	里戈特	米德尔斯堡	142	0.72	0.65	0.79	米德尔斯堡	220	0.67	0.72	0.65	0.05
LRD公司	帕斯卡	希姆邦达	维甘和托特纳姆	1351	0.75	0.72	0.80	托特纳姆热刺	1119	0.77	0.79	0.74	0.02
LRD公司	法维奥	奥雷利奥	利物浦	435	0.71	0.66	0.80	利物浦	592	0.72	0.70	0.69	−0.03
LRD公司	安得烈	泰勒	米德尔斯堡	1174	0.68	0.65	0.79	米德尔斯堡	453	0.67	0.68	0.64	0.01
LRD公司	史蒂夫	芬南	利物浦	1311	0.75	0.73	0.79	利物浦	631	0.76	0.74	0.74	−0.02
LRD公司	史蒂芬	卡尔	纽卡斯尔联队	858	0.73	0.70	0.79	纽卡斯尔联队	297	0.72	0.70	0.70	−0.02
厘米	保罗	斯科尔斯	曼联	1898	0.90	0.84	0.85	曼联	1341	0.89	0.89	0.84	−0.00
厘米	斯蒂利安	佩特罗夫	阿斯顿维拉	996	0.79	0.74	0.80	阿斯顿维拉	562	0.78	0.79	0.74	0.01
厘米	迈克尔	埃辛	切尔西	1637	0.84	0.81	0.80	切尔西	1220	0.82	0.80	0.79	−0.01
厘米	迈克尔	卡里克	曼联	1762	0.82	0.79	0.80	曼联	1280	0.82	0.82	0.79	0.01
厘米	迪迪埃	佐科拉	托特纳姆热刺	1105	0.82	0.79	0.80	托特纳姆热刺	1032	0.83	0.84	0.81	0.01
LRM公司	米克尔	阿特塔	埃弗顿	1292	0.73	0.68	0.81	埃弗顿	877	0.69	0.72	0.65	0.03
LRM公司	亚力山大	赫莱布	阿森纳	1455	0.80	0.78	0.79	阿森纳	1349	0.80	0.82	0.78	0.02
LRM公司	加雷思	巴里	阿斯顿维拉	1451	0.68	0.65	0.79	阿斯顿维拉	1203	0.71	0.72	0.69	0.01
LRM公司	凯文	基尔班	埃弗顿和维甘	831	0.62	0.59	0.79	维根队	725	0.64	0.57	0.62	−0.07
LRM公司	克里斯蒂亚诺	罗纳尔多	曼联	1200	0.78	0.76	0.78	曼联	1017	0.76	0.76	0.74	0
加利福尼亚州	约翰	小心	阿斯顿维拉	309	0.56	0.52	0.79	阿斯顿维拉	723	0.56	0.55	0.54	−0.01
加利福尼亚州	戴伦	弯曲	查尔顿竞技	679	0.65	0.63	0.78	托特纳姆热刺	160	0.59	0.58	0.57	−0.01
加利福尼亚州	卡洛斯	特维斯	西汉姆联	518	0.74	0.71	0.78	曼联	950	0.80	0.80	0.78	0
加利福尼亚州	尼古拉斯	阿内尔卡	博尔顿流浪者队	813	0.66	0.64	0.78	博尔顿和切尔西	620	0.68	0.66	0.66	−0.01
加利福尼亚州	恩万科	卡努语	朴茨茅斯	902	0.72	0.70	0.78	朴茨茅斯	436	0.76	0.75	0.75	−0.01

†

CD，中后卫；LRD，左后卫或右后卫；CM，中场；LRM，左中场或右中场；CA，中央攻击者。

例如，卡洛斯·特维斯的传球完成率 $\bar{o个}$ 从2006-2007年的第一个赛季到下一个赛季，增长了几个百分点（从0.74到0.80）。然而，该模型对此进行了很好的预测(⁠ ${\bar{\hat{第页}}}_{2007 / 2008}^{(（f）)} = 0.80$ ⁠)在很大程度上，这种进步可以用第二季传球的难度要高得多的事实来解释(⁠ ${\bar{\hat{第页}}}_{2007 / 2008}^{(e（电子）)} = 0.78$ 与…相比 ${\bar{\hat{第页}}}_{2006 / 2007}^{(e（电子）)} = 0.71$ ⁠). 就特维斯而言，这与他在2007-2008年从西汉姆联（2006年-2007年曾面临降级威胁的球队）转会至2007-2008赛季英超冠军曼联（Manchester United）后，与质量更好的球员一起踢球的事实有很大关系。

4.3评估球员

图。8绘制模型衍生球员的传球能力， ${\hat{第页}}^{(av（平均值）)}$ ⁠与观察到的通过率相比 $\bar{o个}$ 2006–2007赛季。虚线是身份函数。具体玩家示例可在表中查看三。

球员的估计传球能力p^k，2006/2007（av）与观察到的传球完成率o^k，2006-2007（e）（，0.8；，0.7；，0.6；，0.5；，0.4）和拟合样本中的传球次数（，500；，1000；，1500；，2000）：标记玩家对应的点是他们名字右下角的点，并用竖线额外标记，恒等函数，普通球员的传球能力

图8

运动员的估计传球能力 ${\hat{第页}}_{k个, 2006 / 2007}^{(av（平均值）)}$ 相对于观察到的通过率 $\bar{o个}_{k个, 2006 / 2007}$ ⁠，代表了通行的便利性， $\bar{\hat{第页}}_{k个, 2006 / 2007}^{(e（电子）)}$ (, 0.8;, 0.7;, 0.6;, 0.5;，0.4）和拟合样本中的通过次数(, 500;, 1000;, 1500;（2000）：与标记的玩家对应的点是他们名字右下角的点，并用竖线额外标记；、身份函数；普通球员的传球能力

自然，拟合样本中的经验完成率之间存在正相关关系， $\bar{o个}$ ⁠以及基于模型的传递能力 ${\hat{第页}}^{(av（平均值）)}$ 因为模型通常认为以较高速度传球的球员在这项技能上表现更好。然而，这一幼稚的规则有相当大的偏离。

首先，球员试图传球的情况不同。他们中的一些人在更容易的情况下通过了比赛，并且/或者选择了更容易的选项，这将他们的观察完成率提高到了仅仅根据他们的传球能力就可以预期的水平。相反，一些人面临着异常困难的任务，这使得他们的经验完成率在进行公平比较时看起来比应得的要差。这反映在平均通过容易程度（点的亮度）和观察到的成功率（横轴）之间的正相关性中。为了说明该模型如何在评估球员的技术时考虑传球难度，考虑两名中锋约翰·卡鲁和雅库布·艾耶格贝尼。前者在拟合样本中的经验通过率较低；然而，他的技术被模特评为更高，因为他尝试的传球通常更难（更暗的点）。同样，在表中三萨米·海皮亚的传球技巧(⁠ ${\hat{第页}}^{(av（平均值）)}$ ⁠)虽然观察到的完成率略高于里卡多·卡瓦略 $\bar{o个}$ 因为他尝试的传球平均难度大得多（较低 ${\bar{\hat{第页}}}^{(e（电子）)}$ ⁠).

其次，一些玩家的成功率是基于很少的观察结果，这使得他们的数据不那么可靠。该模型通过将个人表现回归到由完整水平线表示的总体平均值来认识到这一事实，传球次数越少，效果越强。举一个极端的例子，马修·厄普森（Matthew Upson）完成率为100%，但只通过了六次传球就实现了。该模型认识到，在如此小的样本中包含的信息非常少。相比之下，保罗·斯科尔斯在拟合样本中完成了更多的传球（一个更大的点），因此，尽管他的经验完成率较低，但他的得分要高得多。同样，在表中三克里斯·里戈特的传球技巧 ${\hat{第页}}^{(av（平均值）)}$ 被评为与里卡多·卡瓦略（Ricardo Carvalho）大致相同，尽管经验完成率之间存在差异 $\bar{o个}$ 以及传球的难度 ${\bar{\hat{第页}}}^{(e（电子）)}$ 对于前者来说要大得多。这是因为卡瓦略在多次传球中证明了他异常高的完成率。

总之，要在模型框架中获得经验传球成功的认可，球员必须在这种情况下以高于普通球员的速度传球，并为此提供足够的证据。

4.4比较预测效用

评级方法的最终测试是其预测效用。在我们的案例中，验证这一点很复杂，因为我们试图评估的内容，即足球运动员的传球技巧，是无法观察到的。例如，我们不能仅仅使用2007-2008赛季观察到的传球完成率作为预测的基准，因为我们的论点的本质是它是一个糟糕的传球技能指标。

团队成功是一个客观的衡量标准。如果通过一个指标评估的团队人才库比基于另一个指标的人才库能更好地预测团队未来的结果，那么应该首选前者。换言之，足球俱乐部应该根据能够提供未来球队成绩信息的方法来评估球员。一个“好”球员是帮助球队获胜的人。考虑到这一点，对于2007-2008赛季的每一场比赛，我们计算了两个统计数据，这两个数据应该能够反映出两支参赛球队的传球技能的总体水平：一个是基于2006-2007赛季的原始传球完成率， $\bar{\hat{o个}}$ ⁠和一个基于我们在那个季节的模型， ${\bar{\hat{第页}}}^{(私人电话)}$ ⁠。的主要功能 ${\hat{第页}}^{(私人电话)}$ -预测（在第节的预测类型列表末尾有更详细的定义3.2)他们使用的是执行传球的球员和参与比赛的球队的信息，但没有其他关于传球难度的信息。因此，在2007-2008赛季，每场比赛每个球员产生一个这样的价值（使用基于2006-2007赛季的估计值）。给定赛程中主队球员的这些平均值构成了该队基于模型的传球指数， ${\bar{\hat{第页}}}_{小时}^{(私人电话)}$ ⁠，在那个固定装置中。客场球队的相应指数为 ${\bar{\hat{第页}}}_{一}^{(私人电话)}$ ⁠。

我们检查这些指数值的差异对比赛结果的预测能力。

首先，对于每一场比赛，我们根据图中两支球队的指数差异，绘制出主客场球队目标的差异。9.基于合格完成指数的皮尔逊相关系数（图。9（a） 2007–2008赛季主队进球优势为0.309，90%置信区间为（0.22,0.392），而基于模型的预测值（图。9（b））为0.417，置信区间为（0.335,0.493）90%。当然，我们并不期望传球质量和比赛结果之间有“完美”的关系，因为还有其他因素决定比赛结果，比如射门质量。然而，基于模型的传球能力测量与比赛结果有较强的线性关系，这一事实令人放心。

主队在2007-2008赛季的比赛中进球最多，而主队和客队球员在比赛中的传球完成率的平均预测值不同：（a）基于原始传球完成率的预测因子（o^是x队球员在给定比赛中上赛季平均传球完成率的平均值）；（b）基于模型传球完成率预测的预测器（p^x（pto）是给定比赛中x队球员的传球完成率预测的平均值（有条件地仅取决于球员和球队信息）

图9

主队在2007-2008赛季的比赛中取得了领先的进球，而主队和客队球员在比赛中的传球完成率的平均预测值存在差异：（a）基于原始传球完成速率的预测值(⁠ $\bar{\hat{o个}}$ 是上个赛季球队球员平均传球完成率的平均值x个在给定夹具中）；（b）基于模型的预测器通过率预测(⁠ ${\hat{第页}}_{x个}^{(私人电话)}$ 是团队中球员的传球完成率预测的平均值（仅有条件地取决于球员和团队信息）x个在给定夹具中）

其次，我们拟合了比赛结果（主场胜利、平局或客场胜利）的两个有序logit回归模型，以主客场球队平均传球指数的差异作为唯一的协变量：一个基于原始传球完成率的指数模型， $\bar{\hat{o个}}$ ⁠一个用于基于模型的索引， ${\bar{\hat{第页}}}^{(私人电话)}$ ⁠后一个模型提供了更好的拟合，与基于通过率的模型的−303.25相比，log-likelihood为−291.28（两个模型的参数数量相同）。

我们检查了这些结果对计算平均传球技能指数所需的给定比赛中两支球队中具有传球技能等级的最小球员数量（即，在拟合样本中也观察到的球员）不敏感。

5讨论

本文提出了一种评估足球运动员控球难度的传球技术的方法。我们在统计模型中结合了影响传球成功概率的各种因素的代理，并在此背景下评估球员的内在技能。球员传球技巧的衡量标准在这个框架中有一个自然的解释，传球难度的衡量标准也是如此。最后，我们可以用相同的程序综合处理观察样本中的所有玩家，而无需任意丢弃已观察到的玩家太少了需要可靠评估的时间。基于少量观察结果的经验通过率的可靠性自然会在建议的框架内得到考虑。

我们基于传球难度等因素评估球员传球能力的方法存在一个复杂的问题，即技术娴熟的球员很可能能够为自己创造更容易的传球机会，因此传球难度可能是球员技能的外生因素。然而，即使有这个潜在的缺陷，结果似乎也很好，我们的方法可以识别出那些擅长传球的球员。

在比较拟议方法的效用和预测比赛结果的原始传球完成率时，我们使用了模型预测，条件是对球员以及参与每场比赛的球队的能力进行估计。这是因为在传球完成率统计中，团队能力与球员能力混淆了。在模型预测中忽略团队能力会给朴素的方法带来不公平的优势，因为大多数球员在拟合和预测样本中为同一个团队比赛。有人可能会说，我们采取的方法反过来又给我们的方法带来了优势，因为有些球员确实会在两个赛季之间更换球队。然而，我们认为，我们的方法可以将球员能力与团队能力和其他因素分离开来，并将它们以不同的配置组合在一起，这是我们方法的优势之一。

还请注意，预测期内的团队参数可能对应于不同的团队（在人员变动的情况下）。然而，这只会给基于模型预测的及格指数增加噪音，只会对其不利；因此，他们的表现相对较好更令人放心。

关于该模型产生的球员评估，需要说明的一点是，我们认为，在类似情况下，在执行类似类型传球的球员之间进行比较时，这些评估最有用。这可能是由于球员的比赛位置和球员的传球能力不独立造成的，因此中场球员的一些能力（例如）被“赋予”位置“中场”的系数估计值。因此，按位置细分结果是比较球员进行类似传球类型的一种方法，可以减轻传球能力与比赛位置相关的混淆影响。例如，如果认为一名中后卫在没有一段过渡期的情况下被调到边锋位置时会保持他的传球得分，那就太天真了。

说到位置，我们只根据球员在前几场比赛中在球上的动作位置，将球员分为几个类别。任何球迷都会知道，这是一种非常简单的方法，因为有更多可能的位置和其他因素决定球员属于哪一个。根据球员的行为将球员分类到不同的位置本身就是一个有趣的研究问题。在本文中，使用了一种简单的分类算法来突出我们结果中一些潜在的有趣方面（如图。6和表三)但不是我们模型的组成部分。因此，就这一分类而言，我们决定采用简单化的方法。

另一个警告这里给出的结果是，虽然我们确实考虑了团队的一般能力，以促进成功完成传球，但传球接受者的个人技能没有考虑在内。因此，对于一个倾向于向特定队友传球比例异常高的球员，后者可能仍然会感到困惑。例如，如果约翰·特里经常进行长距离传球，那么他的评分可能会被夸大，而这通常很难完成，但如果迪迪尔·德罗巴是目标球员，那么可能就不那么容易了（德罗巴以其远距离传球的能力而闻名）。在方程中包含传递接收器可能是一个潜在的模型扩展。然而，Opta目前不收集有关未成功传球的预期传球接受者的信息。

另一条可以帮助我们改进模型的信息是天气数据，但在我们的数据集中无法获得。强风、雨雪等条件都会影响球员的传球表现，控制这些条件可能会提高我们对球员传球技能的评估。

这方面的进一步工作还可能包括根据传球对球队的价值而不是难度来评估传球。可能是一些球员的传球比他们的传球难度更高，从而增加了价值，而其他球员则倾向于尝试不必要的困难传球，这在本文提出的框架中没有得到认可。此外，确定模型有效性的另一种方法是获得球员传球能力的专家判断，并将这些专家评估与模型预测和传球完成率进行比较。最后，如本文所述，我们的模型可能会奖励那些尝试艰难传球的球员，这些传球对球队没有积极影响，甚至可能产生消极影响。然而，尽管存在这种可能性，我们相信我们的结果表明该模型是有价值的，如果使用统计模型来衡量足球运动员的传球能力，这无疑是朝着正确的方向迈出的一步。

致谢

我们感谢赞助Łukasz Szczepanski博士研究的Smartods Ltd，Opta允许我们使用这些数据，以及三位审稿人和副主编在改进论文方面的有益评论。

工具书类

艾伯特

,

J。

(

1992

)

本垒打运动员泊松随机效应模型的贝叶斯分析

。

美国统计局

,

46

,

246

–

253

。

艾伯特

,

J型

. (

2006

)

投手统计、天赋和运气，以及有史以来最好的三振赛季

。

J.数量。分析。Sprts公司

,

2

，没有。

1

布雷斯洛

,

东北。

和

克莱顿

,

D.克。

(

1993

)

广义线性混合模型中的近似推理

。

《美国统计杂志》。助理。

,

88

,

9

–

25

。

迪什

,

J型

.,

韦兹曼

,

J.S公司

.和

阿玛拉尔

,

洛杉矶

. (

2010

)

量化队员在团队活动中的表现

。

PLOS ONE系列

,

5

，没有。

6

，条款e10937。

埃夫隆

,

B。

和

莫里斯

,

C、。

(

1975

)

使用Stein估计及其推广的数据分析

。

《美国统计杂志》。助理。

,

70

,

311

–

319

。

延森

,

S.T.公司。

,

雪莉

,

英国工程师。

和

怀纳牌手表

,

A.J.公司。

(

2009

)

Bayesball：一个用于评估美国职业棒球大联盟防守的贝叶斯层次模型

。

附录。统计师。

,

三

,

491

–

520

。