Each language version is independently generated for its own context, not a direct translation.
这篇论文提出了一种全新的方法来评估足球运动员的贡献,特别是那些助攻进球的“幕后英雄”。为了让你更容易理解,我们可以把足球比赛想象成制作一道复杂的米其林大餐,而不仅仅是看谁最后把菜端上桌(进球)。
以下是这篇论文的通俗解读:
1. 核心问题:以前的“评分表”太片面了
在传统的足球数据分析中,大家主要看两个指标:进球和助攻。
- 比喻:这就像评价一家餐厅,只给最后端菜的服务员(进球者)和递菜单的经理(助攻者)发奖金,而忽略了那些在厨房洗菜、切肉、调味的厨师。
- 现状:现在的“预期进球(xG)”模型虽然比单纯看进球好,但它只关注射门那一瞬间(比如射门角度、距离球门多远)。它完全忽略了这球是怎么传过来的,是谁参与了之前的传球配合。
- 痛点:如果一个前锋进球了,但那是队友经过 10 次精妙配合才创造的机会,传统模型可能只夸前锋,却忽略了那 9 个队友的功劳。
2. 新方案:给进攻过程“算总账”
作者提出了两个新工具来解决这个问题:
A. 预期进球行动 (xGA):给整个“进攻链条”打分
- 比喻:以前的 xG 只评价“最后那一口蛋糕好不好吃”。新的 xGA 则是评价“从买面粉、打鸡蛋、搅拌、烘烤到装饰的整个过程”。
- 做法:它不仅仅看射门,还看这次进攻涉及了多少人、传了多少次球、传球路线是否复杂、球员跑位是否聪明。如果一次进攻经过了很多人的精妙配合,即使最后没进,这个“行动”本身的质量(xGA 值)也很高。
B. 球员受限沙普利值 (PRS):公平分配“功劳”
这是论文最核心的数学创新。作者借用了经济学中的**沙普利值(Shapley Value)**概念,这原本是用来计算“合伙做生意,大家怎么分利润”的公平算法。
- 比喻:想象一支足球队是一个乐高积木团队。
- 传统算法:只给最后把塔尖放上去的人(射门者)算分。
- 新算法 (PRS):它会把整个进攻过程看作一个“联盟”。它计算的是:“如果把这个球员从团队里拿走,这次进攻的质量会下降多少?”
- 关键点(受限):足球不是随便谁都能和谁配合的。前锋不能和守门员直接传球(除非开大脚),后卫也不能随便插上进攻。所以,作者引入了“受限”的概念,只计算那些战术上合理、实际发生过的传球组合。这就像只计算那些真正一起搭过积木的伙伴,而不是假设所有 11 个人都能随意互换位置。
3. 他们做了什么实验?
作者收集了 2022/23 赛季意大利足球甲级联赛(Serie A)的 8,421 次射门数据。他们重点分析了两大豪门:AC 米兰和那不勒斯。
- 数据验证:他们发现,加入“传球过程”和“团队配合”因素后,预测进球的准确度比传统方法提高了。
- 发现:
- 那不勒斯的奥斯梅恩 (Osimhen):作为进球最多的前锋,他的 PRS 值最高。这说明他不仅自己进球能力强,而且他在进攻体系中的核心地位(作为终结点)极大地提升了整个进攻的质量。
- AC 米兰的莱昂 (Leão) 和吉鲁 (Giroud):他们的 PRS 值也很高,说明他们不仅是终结者,还是进攻发起的关键一环。
- 被低估的球员:有些球员虽然进球不多,但 PRS 值很高。这意味着他们是“隐形功臣”,负责把球从后场运到前场,创造了绝佳机会,只是最后没由他们射门。
4. 有趣的发现:两类不同的球星
作者画了一张图,把球员分成了四个象限,非常直观:
- 超级巨星(右上角):既擅长自己进球(效率高),又擅长团队配合(PRS 高)。比如 AC 米兰的莱昂。
- 纯射手(左上角):进球效率高,但团队配合少。比如某些只等球喂到嘴边的前锋。
- 团队发动机(右下角):团队配合贡献巨大(PRS 高),但自己进球效率一般。比如某些负责梳理中场的球员,或者像吉鲁这样虽然进球少但策动进攻能力极强的中锋。
- 边缘球员(左下角):既没怎么参与进攻配合,进球效率也低。
5. 这对足球世界意味着什么?
- 对教练:不再只看谁进球多。教练可以发现那些“虽然不进球,但能让全队进攻更流畅”的球员,从而制定更合理的战术。
- 对球探和老板:在买球员时,不再只盯着“射手榜”。如果一个球员的 PRS 值很高,说明他是团队粘合剂,即使他进球不多,他的市场价值也可能被低估了。这有助于俱乐部更经济、更聪明地花钱。
- 对球迷:以后看球时,你会明白为什么有些球员虽然没进球,但全场都在跑动、传球,他们其实对球队的贡献巨大。
总结
这篇论文就像给足球分析装上了一副3D 眼镜。以前我们只能看到进球的“结果”,现在通过 xGA 和 PRS,我们能看到进球背后的“过程”和“团队合作”。它告诉我们:足球是 11 个人的游戏,每一个参与传球、跑位的人,都值得被公平地计算在内。
Each language version is independently generated for its own context, not a direct translation.
这是一份关于论文《A Model-Based Restricted Shapley Value to Measure the Players'Contribution to Shot Actions in Football》(基于模型的限制性沙普利值以衡量足球射门动作中球员的贡献)的详细技术总结。
1. 研究背景与问题 (Problem)
- 现有指标的局限性:传统的足球表现指标(如进球、助攻)缺乏情境化。进阶指标如“预期进球”(Expected Goals, xG)虽然量化了射门质量,但主要关注射门瞬间的特征(位置、角度),忽略了射门前的构建过程(build-up play)、传球网络以及球员间的协作互动。
- 协作性质的缺失:足球是一项高度协作的运动,一次射门机会往往由多名球员通过传球和跑位共同创造。现有的指标难以准确衡量非射门球员在创造高概率得分机会中的边际贡献。
- 合作博弈论应用的挑战:虽然沙普利值(Shapley Value)在理论上适合分配合作博弈中的收益,但在足球实际应用中存在困难:
- 联盟(Coalition)的不可观测性:理论上所有球员组合都可能存在,但受限于战术安排、教练选择和场上位置,实际观察到的球员组合(联盟)只是所有可能组合的一个受限子集。
- 非随机性:球员参与行动并非随机排列,而是受战术约束的。
- 计算复杂性:直接计算所有可能组合的沙普利值在大规模数据下不切实际,且忽略了“未观察到的组合”通常不具备实际战术价值的事实。
2. 方法论 (Methodology)
本文提出了一套新的框架,结合了机器学习模型和受限合作博弈论。
A. 核心指标:预期射门动作 (Expected Goal Action, xGA)
- 定义:xGA 是对传统 xG 的扩展。它不仅考虑射门本身,还纳入了射门前的整个进攻序列特征。
- 特征工程:除了传统的射门坐标和角度外,xGA 模型还引入了构建阶段的特征,包括:
- 传球次数 (passNb)
- 参与球员数 (playersNb)
- 平均传球距离 (avg pass distance)
- 第一次传球的起始坐标 (first pass x, y)
- 参与球员的进攻表现指数均值 (plPerformanceIndex)
- 比赛情境 (situation, 如开放进攻、定位球等)
- 模型构建:使用二分类模型(Binary Regression with cloglog link 和 XGBoost)来预测给定进攻序列转化为进球的概率。研究对比发现,XGBoost 在敏感性(Sensitivity)和其他指标上表现更优,因此被选为计算联盟价值(worth function)的基础。
B. 统计量:球员受限沙普利值 (Player's Restricted Shapley, PRS)
- 理论创新:针对足球中“并非所有联盟都可行或可观测”的特点,作者引入了受限沙普利值(Restricted Shapley Value)。
- 受限联盟:仅考虑基于实际观察到的传球网络形成的球员子集(Coalitions),排除了战术上不可行或未发生的组合。
- 权重归一化:在受限的支持集(restricted support)上重新归一化沙普利权重,使其成为条件概率下的边际贡献。
- 价值函数 (ν):
- 对于观察到的联盟 S,其价值 ν(S) 定义为该联盟参与的所有历史射门动作的 xGA 预测值之和。
- 对于未观察但战术兼容的联盟,利用模型的泛化能力(Out-of-sample)进行估计。
- 推断与标准化 (PRS Statistic):
- 由于 xGA 是模型估计值且存在抽样误差,直接计算的限制性沙普利值 ϕ^iR 具有不确定性。
- 作者采用Bootstrap 重采样(B=1000 次)来估计标准误 SE(ϕ^iR)。
- 最终定义 PRS 统计量 为:PRSi=ϕ^iR/SE(ϕ^iR)。
- 意义:PRS 是一个无量纲的“信噪比”(Signal-to-Noise Ratio)。它衡量了球员的贡献相对于其估计不确定性的显著性。正值表示显著的正向贡献,负值表示负向贡献(即该球员参与的组合产生的射门质量低于平均水平)。
3. 关键贡献 (Key Contributions)
- 提出 xGA 指标:将射门质量评估从单一的“射门瞬间”扩展到“整个进攻序列”,量化了传球网络和构建过程对进球概率的影响。
- 改进沙普利值在体育中的应用:
- 解决了传统沙普利值在体育中假设“所有联盟随机且等概率”的不合理性。
- 通过引入“受限联盟”概念,使沙普利值更贴合足球战术现实(仅考虑实际发生的传球网络)。
- 引入统计推断框架:通过 Bootstrap 方法计算标准误,将沙普利值转化为具有统计显著性检验能力的 PRS 统计量,使得球员间的贡献比较更加科学和稳健。
- 多维度的球员评估:结合 PRS(协作贡献)和 G90−xG90(个人终结效率),能够区分不同类型的球员(如“组织者”与“终结者”)。
4. 实证结果 (Results)
- 数据集:意大利足球甲级联赛(Serie A)2022/23 赛季的 8,421 次射门动作数据。
- 模型性能:
- xGA 模型(基于 XGBoost)在多项指标上显著优于传统 xG 模型,特别是在 Matthews 相关系数(MCC, +10.5%)、精确率(Precision, +7.1%)和 F1 分数(+5.7%)上。这证明了引入构建阶段特征能有效提升对进球概率的预测能力。
- 案例研究 (AC Milan vs SSC Napoli):
- 异质性发现:PRS 统计量揭示了球队内部球员贡献的巨大差异。
- 顶级贡献者:
- Victor Osimhen (Napoli):拥有最高的 PRS 值(4.84),表明他是球队进攻体系的核心,不仅终结能力强,且其参与的进攻序列质量极高。
- Olivier Giroud & Rafael Leão (Milan):同样表现出极高的 PRS 值,确认了他们在进攻构建和终结中的双重核心作用。
- 后卫的贡献:部分后卫(如 Milan 的 Tomori, Hernandez)具有较高的正 PRS 值,表明他们在进攻发起和推进中起到了关键作用。
- 负向贡献:部分球员(如 Messias, Bennacer)的 PRS 值为负,意味着他们参与的进攻序列产生的射门质量低于平均水平。
- 散点图分析 (PRS vs. 终结效率):
- 右上象限(高 PRS,高终结效率):如 Leão,是完美的全能型球员。
- 右下象限(高 PRS,低终结效率):如 Giroud, De Ketelaere,是优秀的“创造者”或“组织者”,虽然个人进球效率未达预期,但对团队进攻构建贡献巨大。
- 左上象限(低 PRS,高终结效率):如 Messias,属于“终结型”球员,个人射术好但参与团队构建较少。
- 左下象限:两项指标均低,进攻影响力有限。
5. 意义与影响 (Significance)
- 决策支持:该框架为球探和教练提供了更精细的评估工具。它不仅能识别进球多的球员,还能识别那些在“幕后”通过传球和跑位创造高价值机会的关键球员(即使他们进球不多)。
- 经济可持续性:通过识别被传统统计低估的球员(即协作贡献高但个人数据一般的球员),俱乐部可以更经济高效地进行引援和资源配置。
- 战术分析:能够量化不同战术体系下球员的具体贡献,帮助教练理解球队进攻结构的强弱项(例如,某队是否过度依赖某位核心,或者防守球员是否有效参与了进攻构建)。
- 方法论推广:这种基于受限联盟和统计推断的合作博弈论框架,不仅适用于足球,也可推广至其他具有复杂协作网络和受限交互结构的团队运动或组织行为分析中。
总结:该论文通过结合机器学习(xGA)和修正的合作博弈论(PRS),成功构建了一个能够量化球员在协作进攻序列中边际贡献的统计框架,解决了传统指标忽视团队互动的痛点,为现代足球数据分析提供了新的视角和工具。