Regularization in Paired Comparison Models via Pseudo-Games and Phantom… — 通俗解释

想象一下，你正试图根据胜负情况对一群朋友进行排名，以确定谁才是这款视频游戏中的高手。你手里有一份关于“谁击败了谁”的名单。

在理想的世界里，每个人与其他人的对局次数应该是相等的。但在现实中，有些人玩了很多场，有些人玩得很少，而且有时，一个非常厉害的玩家在你看过的少量样本中，可能从未输给过某个特定的对手。

问题所在：“完美”分数的陷阱
如果玩家 A 连续五次击败玩家 B，标准的计算机计算方法（称为“极大似然估计”）会得出结论：玩家 A 比玩家 B 高明无数倍。它计算出玩家 A 永远有 100% 的胜率。

问题在于： 对于这五场比赛来说，这在数学上是“正确”的，但对于未来的预测，这是一个糟糕的判断。我们知道玩家 B 下次可能会赢。这种数学方法之所以失效，是因为它将微小的样本量视为绝对真理，导致产生了毫无意义的“无穷大”分数。

解决方案：添加“幽灵”比赛
作者马克·格里克曼（Mark Glickman）提出了一个聪明的技巧来解决这个问题，而不需要使用难以解释的复杂数学惩罚项。他并没有改变公式，而是建议添加虚假数据。他称之为“通过伪观测值进行正则化”。

你可以这样理解：在观察真实的比赛结果之前，你先告诉计算机，“让我们假装每个人都与一个‘幽灵’对手或以一种非常平衡的方式进行了几场额外的比赛。”

该论文提出了两种具体的实现方式：

1. “分数平局”法（伪比赛）

想象一下，在正式赛季开始前，每一对玩家都进行了一场微小的、隐形的比赛，结果是平局。

运作方式： 你在数据中的每一次对决中，都加入了一点“获胜”的信用和一点点“失败”的信用。
比喻： 这就像是在告诉计算机：“即便玩家 A 击败了玩家 B 五次，我们也假装他们也进行了一些平分秋平的比赛。”
结果： 这阻止了计算机说“玩家 A 强到无限大”。它将分数拉近，使预测更加符合现实。这就像是在数据中加入了一点“怀疑”，从而平滑了极端值。

2. “幽灵玩家”法（幻影玩家）

想象联赛中有一个神秘的、隐形的玩家（我们叫他“零先生”），他的水平恰好处于平均水平。他从不疲劳，也不靠运气，且其技能等级固定为零。

运作方式： 你假装每个真实玩家都与“零先生”打了很多场比赛。你告诉计算机，每个玩家在面对“零先生”时，胜场和败场各占一半。
比喻： 这就像是在锚定一艘船。如果船（玩家的分数）试图漂得太远（变得过高或过低），锚（零先生）就会把它拉回中间。
结果： 这让所有人的分数都保持在合理的范围内。即使一个玩家在面对弱对手时连赢了 10 场，由于他在面对平均水平的“幽灵玩家”时“输掉”了一半的比赛，他的分数也不会飙升至无穷大。

为什么这很酷

论文表明，这两个“虚假数据”的小技巧，实际上完成了与一种非常流行的复杂数学技术——“岭正则化”（通常涉及看起来很吓人的惩罚公式）完全相同的工作。

优势： 与其说“我们对数学应用了 0.5 的惩罚”，你不如说“我们添加了 40 场针对平均水平对手的虚假比赛”。
转化： 这使得数学变得更容易被普通人（如体育分析师或业务经理）理解。他们可以通过询问简单的逻辑来调整系统：“我们应该添加多少场虚假比赛？”或者“我们应该对平均水平的玩家给予多少信任？”

棒球案例

作者在 2025 年美国职业棒球大联盟（MLB）赛季中测试了这一点。

没有修复时： 由于赛程安排的不平衡，计算机估算出的最强球队和最弱球队的能力值显得过于乐观且被夸大了（差距看起来过大），尽管它们并非字面意义上的“无限”。
有了修复后： 计算机给了各队更合理的评分。它仍然知道强队很强，弱队很弱，但它没有夸大其中的差距。“幽灵玩家”法的表现非常好，它产生的结果与复杂的“岭”数学方法几乎完全一致，但后者要难解释得多。

总结

论文指出，在根据胜负进行排名时，你可以通过假装每个人都进行了一些额外的、平衡的比赛，来避免出现疯狂的、无穷大的分数。

方法 A： 假装每个人都与其他人进行了一场微小的平局。
方法 B： 假装每个人都与一个“平均水平”的幽灵打了很多场比赛。

这两种方法都能让数学保持简单、预测保持现实，并且让结果易于向任何只想知道谁才是真正高手的人进行解释。

技术摘要：通过伪博弈与幻影玩家进行配对比较模型的正则化

问题陈述
配对比较模型（如 Bradley-Terry 和 Thurstone-Mosteller 模型）是利用二元结果估计潜在能力或偏好的标准工具。然而，在这些模型中，普通的极大似然估计（MLE）在比较图不连通或接近分离时会面临显著的不稳定性。这种情况在体育赛事赛程不全、偏好研究数据稀疏或具有新入场者的在线排名系统中十分常见；此时，似然函数可能仅在边界处取得最大值，导致能力估计值趋于无穷大（例如 $+\infty$ 和 $-\infty$ ）。虽然岭正则化（ridge regularization）通过将参数向共同中心收缩来解决这一问题，但它模糊了使这些模型对从业者具有吸引力的直观似然解释。此外，岭惩罚项需要显式的线性约束来解决位置不可识别性（location nonidentifiability）问题。

方法论
本文提出了两种通过数据增强视角实现的正则化方法，这些方法在保持熟悉的似然形式的同时，能够产生有限且收缩的估计值。这两种方法均可通过标准的二项回归软件（如 R 中的 glm）进行实现。

伪博弈正则化（Pseudo-Game Regularization）：
该方法向观测数据中添加分数形式的“伪博弈”。对于每一对无序的竞争者 $(i, j)$ ，该方法向双方各添加 $\delta$ 个分数胜场和 $\delta$ 个分数负场。

机制： 增强后的对数似然函数包含一个与 $\sum \log\{p_{ij}(1-p_{ij})\}$ 成比例的惩罚项。当 $p_{ij} = 1/2$ （能力相等）时，该项达到最大值，从而将能力差异向零收缩。
特性： 它作用于成对的能力差异。它并不能解决位置不可识别性问题；仍需保留线性约束（例如 $\sum \theta_j = 0$ ）。
与岭正则化的联系： 在 Bradley-Terry Logit 链接函数下，在零点附近的泰勒展开表明，该惩罚项在局部表现得类似于系数为 $\lambda \approx \delta J / 4$ 的岭惩罚。

幻影玩家正则化（Phantom-Player Regularization）：
该方法引入了一个人工的“幻影”竞争者（索引为 0），其具有固定的已知强度 $\theta_0 = 0$ 。每个真实的竞争者都被分配一个相对于该幻影玩家的加权伪胜场和一个加权伪负场，权重为 $\rho$ 。

机制： 增强后的对数似然函数添加了一项 $\rho \sum [\log F(\theta_j) + \log\{1 - F(\theta_j)\}]$ 。该项在 $\theta_j = 0$ 时达到最大值，将个体能力向幻影玩家的固定强度收缩。
特性： 它直接作用于单个参数 $\theta_j$ ，而非仅仅是差异。至关重要的是，它无需显式的求和为零约束即可解决位置不可识别性，因为幻影玩家锚定了尺度。
与岭正则化的联系： 对于 Bradley-Terry 模型，这在局部上等价于岭正则化，其中 $\lambda \approx \rho / 4$ 。然而，与二次岭惩罚不同，幻影玩家惩罚在较大的 $|\theta_j|$ 处具有近似线性的尾部。

调优与推断
调优参数 $\delta$ 和 $\rho$ 可以通过专家启发式方法或交叉验证来选择。

启发式方法： $\delta$ 可以通过询问分析师在观察到单次获胜（无损失）的情况下，对未来获胜概率 $q$ 的分配来校准； $\delta = (1-q)/(2q-1)$ 。 $\rho$ 可解释为相对于参考对手的加权伪胜/伪负场的数量。
交叉验证： $K$ -折交叉验证旨在最大化留出集的对数似然。论文指出，最终拟合的标准误必须视作基于所选调优参数的条件分布；建议对整个过程进行自助法（bootstrapping）以进行适当的不确定性量化。
贝叶斯解释： 论文指出，幻影玩家正则化对应于在密度正比于 $[F(\theta_j)(1-F(\theta_j))]^\rho$ 的独立收缩先验下的最大后验（MAP）估计。

结果：2025 年美国职业棒球大联盟（MLB）应用
这些方法被应用于 2025 年 MLB 常规赛季（30 支球队，2,430 场比赛）。尽管数据图是连通的（允许普通 MLE），但赛程是不平衡的，产生了潜在的极端估计值。

比较： 作者比较了普通 Bradley-Terry、岭正则化、伪博弈和幻影玩家模型。
发现：
- 普通估计值的离散度最大（例如科罗拉多洛基队为 $-0.979$）。
- 正则化方法显著收缩了这些极端值（例如洛基队的能力估计值范围在 $-0.580 $到$ -0.643$ 之间）。
- 幻影玩家估计值与岭正则化估计值特别接近，其顶底间距的缩减幅度约为三分之一到五分之二。
- 幻影玩家方法成功地重现了岭正则化的强度估计，同时保留了直观的增强数据表示。

主要贡献与意义
本文的主要贡献在于证明了简单的增强数据构造（伪博弈和幻影玩家）可以为配对比较模型提供具有解释性的正则化惩罚。

可解释性： 与抽象的岭惩罚不同，这些方法允许从业者用“分数游戏”或“与参考对手的比较”来讨论正则化。
易实现性： 这些方法利用标准的广义线性模型（GLM）软件，使其对于应用型分析师而言无需编写自定义优化代码即可使用。
可识别性： 幻影玩家构造提供了一个明显的优势，即通过数据增强自然地解决了位置不可识别性，消除了对显式线性约束的需求。
桥梁作用： 这项工作架起了惩罚优化与基于似然的模型之间的桥梁，将正则化框架化为添加精心控制且具有解释性的信息，而非仅仅是一个数学惩罚。

论文总结道，尽管这些方法存在局限性（例如，在高度稀疏的数据中交叉验证可能存在不稳定性），但它们为标准的岭正则化提供了一种稳健且直观的替代方案，特别是当比较图的结构暗示存在特定类型的失稳时。

Regularization in Paired Comparison Models via Pseudo-Games and Phantom Players

1. “分数平局”法（伪比赛）

2. “幽灵玩家”法（幻影玩家）

为什么这很酷

棒球案例

总结

类似论文