Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

Each language version is independently generated for its own context, not a direct translation.

这篇论文其实是在讨论一个非常有趣的问题：当我们让 AI 去预测未来的数字（比如明天的股价、明天的气温）时，我们到底该用什么标准来评价它做得好不好？

作者发现，目前的 AI 评测标准有点“过时”了，他们提出了一套新的“考试规则”，让 AI 不仅能猜对数字，还能猜对“可能性”。

下面我用几个生活中的比喻来为你拆解这篇论文的核心内容：

1. 旧规则：只问“平均值” (Point Estimates)

现状：
以前的 AI 评测（比如 TabPFN 这种表格大模型）主要看它预测的平均值准不准。

比喻： 想象你在玩掷骰子游戏。
- 如果 AI 告诉你：“下一次掷骰子的结果平均是 3.5"。
- 从数学上讲，这是对的（1+2+3+4+5+6 除以 6 等于 3.5）。
- 但是！ 你掷骰子永远不可能掷出 3.5。这个答案虽然数学上完美，但在实际生活中毫无用处，因为你永远拿不到 3.5 分。

问题：
现在的排行榜（Benchmark）就像只盯着这个"3.5"看。如果 AI 能算出 3.5，它就赢了。但这忽略了现实世界的复杂性：有时候结果不是单一的，而是像“双峰”一样（比如明天要么是大晴天，要么是大暴雨，没有“小雨”这种中间状态）。只给一个平均值，就像试图用一把尺子去描述一团云，根本描述不清楚。

2. 新规则：看“概率分布” (Distributional Regression)

突破：
现在的先进模型（如 TabPFN, TabICL）已经进化了，它们不再只猜一个数字，而是猜一张“概率图”。

比喻： 它不再说“明天是 3.5 度”，而是说：“明天有 50% 的概率是晴天（25 度），50% 的概率是暴雨（15 度）”。
这就好比它给你看了一张天气预报图，而不是一个冷冰冰的数字。它告诉你所有可能发生的情况以及它们发生的几率。

3. 核心冲突：怎么给这张“概率图”打分？ (Proper Scoring Rules)

这是论文最精彩的部分。既然 AI 给出了概率图，我们该怎么评价它呢？是用什么“尺子”去量它？

作者指出，“尺子”的选择决定了 AI 会怎么“作弊”或“偏科”。

尺子 A（对数评分 Log Score）：
- 特点： 极度敏感。如果 AI 预测某个事件概率很低，但偏偏发生了，它会被罚得非常重（就像被雷劈了一样）。
- 后果： AI 为了不被雷劈，会拼命去拟合那些极端的、罕见的“尾巴”数据，反而忽略了中间大部分正常的情况。
- 比喻： 就像老师只盯着学生做错的最后一道难题，导致学生为了做对难题，把基础题都忘了。
尺子 B（CRPS，连续排序概率评分）：
- 特点： 更稳健。它看的是整体分布的形状，不管是在中间还是边缘，只要预测的分布和真实情况像，就给高分。
- 后果： AI 会努力画出最像真实世界的“概率图”，既照顾了中间，也照顾了边缘，整体更平衡。
- 比喻： 就像老师看学生的整体卷面，只要整体思路对，哪怕有个别小错误，也能得高分。

论文发现：
如果你用“尺子 A"去训练 AI，AI 就会变成“偏科生”；如果你用“尺子 B"去训练，AI 就会变成“全能生”。不同的评分规则，会诱导 AI 产生不同的“性格”（归纳偏置）。

4. 实验结果：新规则让 AI 更强了

作者把现有的最强模型（TabPFN）用新的“尺子”（CRPS 等）重新训练了一下（微调）：

结果： 在大多数数据集上，经过新规则训练的 AI，不仅预测更准了，而且对不确定性的把握也更好了。
对比： 新的模型（TabICLv2）在预测“概率分布”方面，比旧模型（TabPFN）表现得更像是一个真正的“预测专家”。

5. 给未来的建议：没有万能钥匙

论文最后提出了一个深刻的观点：

没有一种评分规则是完美的。
比喻： 就像医生看病，如果是治感冒，我们要关注体温；如果是治心脏病，我们要关注心率。
- 在金融领域，如果预测错了“亏损”比预测错了“盈利”后果更严重，我们就需要一种偏向惩罚亏损的尺子。
- 在天气预报里，如果漏报暴雨比误报暴雨后果更严重，我们就需要一种偏向惩罚漏报的尺子。

结论：
未来的 AI 基础模型（Foundation Models）不能只学会“猜平均值”，也不能只学会“猜一种概率”。它们应该变得可定制：

用户应该能告诉 AI：“在这个任务里，我最怕犯哪种错？”
然后 AI 能根据这个特定的“尺子”（评分规则）来调整自己的预测策略。

总结

这篇论文就像是在告诉 AI 社区：

“别再只盯着那个‘平均数’看了！现实世界充满了不确定性。我们要用更聪明的‘尺子’（Proper Scoring Rules）来评价 AI，而且这把尺子应该根据具体的任务（比如是管钱还是管天气）来定制。只有这样，AI 才能真正帮我们要做出更明智的决策。”

一句话概括： 别只让 AI 猜“明天是多少度”，要让它猜“明天各种温度的可能性”，并且用对“尺子”来衡量它猜得对不对。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结

1. 研究背景与问题 (Problem)

现状： Prior-Data Fitted Networks (PFNs)，如 TabPFN 和 TabICL，通过上下文学习（In-Context Learning）彻底改变了表格数据的学习范式，在分类和回归任务中表现出前所未有的性能（通常基于 MSE 或 $R^2$ 等指标）。
核心问题： 现有的回归基准测试（如 TabArena, TALENT）主要关注点估计（Point Estimates，即均值或中位数）的准确性。
- 局限性： 这种评估方式仅优化了均方误差（MSE）对应的贝叶斯估计量（均值），忽略了概率分布本身的质量。
- 风险： 在具有多模态分布（Multi-modal）或不确定性（Aleatoric Uncertainty）的数据中，点估计可能落在概率密度极低的区域（例如，预测骰子结果为 3.5），导致预测在实际决策中无效。此外，基于均值的预测区间往往覆盖大量无样本的“空白区域”。
缺失： 缺乏针对概率回归（Distributional Regression）的严格评估标准，未能利用严格评分规则（Proper Scoring Rules）来衡量预测分布与真实分布的匹配程度。

2. 方法论 (Methodology)

论文提出了一套完整的框架，用于评估和优化表格基础模型的概率预测能力：

严格评分规则 (Proper Scoring Rules) 的应用：
- 定义：严格评分规则 $S(F, Y)$ 保证当且仅当预测分布 $F$ 等于真实分布 $Q$ 时，期望得分最小。
- 核心指标： 重点引入 连续排序概率分数 (CRPS) 和 对数评分规则 (Log Score/Cross-Entropy)。
  - CRPS： 对所有分位数进行积分，对预测分布的累积分布函数（CDF）与真实值的偏差进行惩罚。它比交叉熵更能感知预测值与真实值之间的几何距离（例如，预测 100 比预测 11 在真实值为 10 时惩罚更重）。
  - Log Score (CE)： 对应交叉熵损失，对尾部极其敏感，可能导致优化过程过度关注离群点。
- 其他指标： 能量分数 (Energy Score, $S_\beta$ ) 用于多变量依赖，变差图分数 (Variogram Score) 用于捕捉相关性结构。
实验设置：
- 模型： 使用 realTabPFNv2.5 和 TabICLv2 作为基础模型。
- 微调策略： 在预训练模型基础上，使用不同的损失函数（CRPS, CRLS, Beta Energy Score 等）进行微调（Fine-tuning）。
- 数据集： 在 OpenML 的多个回归数据集上进行 5 折交叉验证，每个数据集随机采样 3000 个样本。
- 对比基线： 原始预训练模型 vs. 微调后的模型 vs. TabICLv2。
理论分析：
- 通过玩具模型（Toy Model）证明，不同的评分规则具有不同的归纳偏置 (Inductive Bias)。
- 在有限样本下，不同的评分规则会导致模型收敛速度和样本效率的差异。
- 证明了 $\beta$ -能量分数中 $\beta$ 的选择决定了模型优化目标： $\beta=1$ 倾向于中位数（MAE）， $\beta=2$ 倾向于均值（MSE）。

3. 关键贡献 (Key Contributions)

基准测试升级： 呼吁并实践将回归基准测试从单纯的点估计指标（MSE, $R^2$ ）扩展为包含概率回归指标（主要是 CRPS）的评估体系。
实证评估： 首次对 realTabPFNv2.5 和 TabICLv2 进行了基于严格评分规则（CRPS, CRLS, Beta Energy Score）的全面评估。
微调有效性验证： 证明了在有限样本设置下，使用与预训练不同的评分规则（如 CRPS 或 CRLS）对基础模型进行微调，可以显著提升其在概率预测指标上的表现。
理论洞察： 揭示了评分规则的选择会改变模型的归纳偏置。不同的评分规则对不同类型的错误（如尾部误差 vs. 中心误差）有不同的惩罚机制，因此“最优”预测模型取决于所使用的评分规则。
未来方向探讨： 提出了基础模型在预训练后如何适应特定业务场景（如金融中的不对称风险）的挑战，探讨了通过微调或提示工程（Prompting）来适配特定评分规则的可能性。

4. 实验结果 (Results)

微调效果：
- 使用 Beta(1.8)-Energy Score 微调 realTabPFNv2.5：在大多数数据集上，MAE、RMSE、 $R^2$ 和 CRPS 均有提升（中位数提升约 1-2%）。
- 使用 CRLS (Continuous Ranked Logarithmic Score) 微调：同样在多数指标上优于基线，特别是在 CRLS 指标上提升显著（中位数 +1.47%）。
模型对比 (TabICLv2 vs. realTabPFNv2.5)：
- TabICLv2 在概率预测指标（CRPS, CRLS, Interval Score）上普遍优于 realTabPFNv2.5。
- 在 CRPS 指标上，TabICLv2 在 59/105 个测试中获胜，且在某些数据集（如 Mercedes Benz, Pol）上优势巨大，但在部分数据集（如 Puma8NH）上表现较差，显示出数据依赖性。
玩具模型发现：
- 在双模态数据生成过程中，传统的均方误差（MSE）模型预测值往往落在两个模式之间的低概率“山谷”中，而基于 CRPS 训练的模型能更好地还原双模态分布。
- 交叉熵（Log Score）和 CRPS 在有限样本下的收敛行为显著不同，CRPS 对尾部离群点更鲁棒。

5. 意义与启示 (Significance)

范式转变： 推动表格机器学习从“点估计”向“全概率分布预测”转变，强调捕捉偶然不确定性 (Aleatoric Uncertainty) 的重要性。
决策导向： 指出没有一种“万能”的评分规则。不同的业务场景（如金融风控、能源预测）具有不同的风险结构（不对称成本），因此需要根据具体任务选择或定制评分规则（如加权 CRPS）。
模型开发指导： 基础模型的开发者和用户应意识到，预训练目标（通常是 MSE 或 CE）可能不是特定下游任务的最优解。通过微调 (Fine-tuning) 或设计可提示 (Promptable) 的评分规则适配机制，可以释放基础模型在特定领域的潜力。
评估标准革新： 呼吁社区在发布新模型时，必须报告 CRPS 等概率指标，而不仅仅是 $R^2$ ，以避免误导性的性能评估。

总结： 该论文不仅指出了当前表格基础模型评估体系的缺陷，还通过理论推导和大量实验，证明了引入严格评分规则（特别是 CRPS）对于提升模型概率预测质量、适应复杂业务场景的关键作用，并为未来的基础模型微调策略提供了理论依据。

Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

1. 旧规则：只问“平均值” (Point Estimates)

2. 新规则：看“概率分布” (Distributional Regression)

3. 核心冲突：怎么给这张“概率图”打分？ (Proper Scoring Rules)

4. 实验结果：新规则让 AI 更强了

5. 给未来的建议：没有万能钥匙

总结

论文技术总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

3. 关键贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与启示 (Significance)

类似论文

Exploring AI in Fashion: A Review of Aesthetics, Personalization, Virtual Try-On, and Forecasting

Rule Extraction in Machine Learning: Chat Incremental Pattern Constructor

Inverse classification with logistic and softmax classifiers: efficient optimization

BarcodeBERT: Transformers for Biodiversity Analysis

On Minimal Depth in Neural Networks