Learning Risk Preferences in Markov Decision Processes: an Application to the Fourth Down Decision in the National Football League

该论文利用逆优化方法,将美式橄榄球第四档决策建模为马尔可夫决策过程,通过分析 2014 至 2022 年的比赛数据,发现教练的决策行为符合保守的风险偏好(即优化低分位数),且其风险容忍度在对方半场更高并随时间推移呈上升趋势。

Nathan Sandholtz, Lucas Wu, Martin Puterman, Timothy C. Y. Chan

发布于 2026-03-06
📖 1 分钟阅读🧠 深度阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给 NFL(美国职业橄榄球大联盟)的教练们做一次“心理侧写”,试图解开一个困扰体育界多年的谜题:为什么教练们在关键时刻(第四档进攻)总是表现得比电脑算出来的“最优解”要保守得多?

想象一下,你正在看一场橄榄球比赛。比赛进行到第四节,你的球队面临“第四档进攻”(Fourth Down)。这意味着:

  • 要么:再推进一点点就能拿到新的“第一档”(First Down),继续进攻,争取得分。
  • 要么:选择保守,踢任意球(拿 3 分)或者弃踢(把球踢给对手,但把对手推远一点)。

传统的观点(电脑模型)说:
“别怂!根据数据,只要再推进 3 码,你就该‘硬刚’(Go for it)。如果你选择弃踢,从长远来看,你的球队输掉比赛的概率会变大。教练们太胆小了!”

但这篇论文的作者们(Nathan Sandholtz 等人)说:
“等等,也许教练们并不是‘算错了’,而是他们的**‘风险偏好’和我们不一样。他们可能不是在看‘平均能得多少分’,而是在看‘最坏的情况有多惨’。我们要做的,就是逆向工程**,通过观察教练们实际做了什么,反推出他们心里到底在怕什么。”


1. 核心方法:逆向侦探游戏(逆向优化)

这就好比你在玩一个游戏,你看到一个人总是选择“走小路”而不是“走大路”。

  • 正向思维:如果你知道他的目标(比如最快到达),你会算出他应该走大路。但他走了小路,说明他走错了。
  • 逆向思维(本文的方法):我们假设他没走错,他是最聪明的。那么,他心里的“目标函数”是什么?也许他不在乎快不快,他在乎的是“路上遇到狼的概率”?

作者们建立了一个马尔可夫决策过程(MDP)模型。你可以把它想象成一个巨大的“橄榄球命运树”

  • 每一个节点代表比赛的一个瞬间(比如:在对方 40 码线,还需要 4 码)。
  • 每一个分叉代表教练的选择(进攻、踢球、弃踢)。
  • 每一个分叉后面都连接着无数种可能的未来(得分、被抄截、对手反击……)。

传统的模型只关心**“平均期望值”(就像只关心平均气温)。但这篇论文问:教练们是不是在关心“最坏情况”**?

2. 关键发现:教练们在玩“底线防御”游戏

作者们用了一个叫**“分位数(Quantile)”**的数学工具。

  • 平均数(0.5 分位数):代表“通常情况”。
  • 低分位数(比如 0.2):代表“最糟糕的 20% 情况”。

研究发现:
教练们并不是在追求“平均得分最高”,而是在追求**“即使运气最差,我也能接受”**。

  • 比喻:如果你去坐过山车,平均派会说:“平均来说,这很刺激,值得坐!”但教练派会说:“如果这过山车有 20% 的概率会把我甩出去,那我绝对不坐,哪怕它平时很刺激。”
  • 结论:教练们的行为符合**“保守风险偏好”**。他们更害怕“最坏的结果”(比如进攻失败,球权直接送给对手),而不是追求“最好的结果”。

3. 有趣的细节:主场与客场的“双标”

论文还发现了一个非常有趣的现象,教练们的胆量是**“看场地下菜碟”**的:

  • 在自家半场(Own Half):教练们极度保守。哪怕数据说该进攻,他们也倾向于弃踢。就像在自家后院,谁也不想把门打开让坏人进来。
  • 在对方半场(Opponent Half):教练们大胆了很多。当球已经推进到对方地盘,他们更愿意冒险去“硬刚”。就像在敌人的地盘,如果不拼一把,可能连退路都没有了。

比喻

  • 在自家半场,教练像**“守财奴”**,生怕丢了一分钱(球权)。
  • 在对方半场,教练像**“赌徒”**,觉得反正离终点那么近,搏一把赢了就是大赚,输了也就是少赚点。

4. 随时间的变化:教练们变“浪”了

作者们分析了 2014 年到 2022 年的数据,发现了一个趋势:
现在的教练比以前的教练更敢冒险了。
虽然他们还是比电脑模型建议的要保守,但这种“保守”的程度在逐年下降。就像现在的年轻人比老一辈更愿意尝试新事物一样,NFL 的战术风格也在慢慢进化。

5. 这对我们意味着什么?

  • 对教练:这篇论文不是要指责教练“错了”,而是帮他们理解自己**“为什么”**这么选。也许他们潜意识里就在规避某种极端的失败风险。理解了这一点,他们可能会更自信地做出符合数据的决定。
  • 对球迷:下次看到教练选择弃踢时,不要只骂他“太怂”了。你可以想:“哦,他可能是在玩‘底线防御’游戏,他在极力避免那个最糟糕的 20% 的情况发生。”
  • 对数据分析:这篇论文展示了一种新方法——不要只假设人是理性的(追求平均收益),要假设人是“风险敏感”的。这种方法不仅适用于橄榄球,也可以用来分析股票投资者、甚至是我们日常生活中的决策。

总结

这就好比作者们给 NFL 教练们发了一张**“心理体检报告”
报告说:“教练们,你们不是不会算数,你们只是
太怕输**了。你们在做决策时,脑子里想的不是‘怎么赢最大’,而是‘怎么输得最少’。而且,你们在自家门口比在敌人家里更怕输。好消息是,你们正在慢慢变得勇敢一点!”

这篇论文用数学语言告诉我们:理解人类行为,不能只看“平均值”,更要看他们心里对“最坏情况”的恐惧。