Generative Models in Decision Making: A Survey

本文提出了一种基于“控制即推理”概率框架的生成式决策新范式,通过变分分解将生成模型划分为控制器、建模器、优化器和评估器四大功能角色,系统梳理了其在具身智能、自动驾驶及科学 AI 等高风险领域的应用现状、潜在风险及迈向通用物理智能的未来挑战。

Xinyu Shao, Jianping Zhang, Haozhi Wang, Leo Maxime Brunswic, Kaiwen Zhou, Jiqian Dong, Kaiyang Guo, Zhitang Chen, Jun Wang, Jianye Hao, Xiu Li, Yinchuan Li

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一份**“决策智能的进化说明书”**。它告诉我们,人工智能(AI)做决定(比如机器人走路、自动驾驶汽车转弯)的方式,正在发生一场翻天覆地的变化。

以前,AI 做决定像是一个**“只会做数学题的优等生”;现在,它正在变成一个“拥有丰富想象力的艺术家”**。

下面我用几个简单的比喻来拆解这篇论文的核心内容:

1. 核心转变:从“找唯一答案”到“画一幅画”

  • 过去的做法(传统强化学习):
    想象你在教一个机器人走迷宫。传统的 AI 就像一个死板的导航仪。它只关心“哪条路最短”,然后死死地记住这一条路。如果迷宫稍微变一点点(比如前面有个新障碍物),它可能就懵了,因为它只背过那一条路。它追求的是**“唯一的最佳解”**。

    • 缺点: 太死板,遇到新情况容易“死机”。
  • 现在的做法(生成式决策):
    现在的 AI 像是一个经验丰富的老画家。它不看“哪条路最短”,而是看“人类通常怎么走”。它见过成千上万种走法:有人走左边,有人走右边,有人甚至跳着走。它学会了**“模仿这种多样性”**。

    • 优点: 它不再只画一条线,而是画出一整幅**“可能的行动画卷”。如果左边堵了,它立刻就能从画卷里拿出“走右边”的方案。它追求的是“匹配高保真的行为分布”**。

2. 四大角色:一个高效的“决策工厂”

论文把这种新的 AI 决策过程比作一个工厂,里面有四个关键角色(功能),它们分工合作,而不是像以前那样混在一起。

  1. 控制器 (Controller) —— “动作执行者”

    • 比喻: 就像乐队的指挥家
    • 作用: 它直接告诉机器人“现在该做什么动作”。以前的指挥家只会打拍子(单模态),现在的指挥家能指挥出爵士乐、交响乐等各种风格(多模态),适应不同的场景。
    • 技术代表: 扩散策略(Diffusion Policy)。
  2. 建模者 (Modeler) —— “造梦师”

    • 比喻: 就像VR 游戏设计师
    • 作用: 它在脑子里构建一个虚拟世界。机器人不需要真的去撞墙,而是在这个“梦境”里预演:“如果我往左拐,会发生什么?”它学会了物理规律,能预测未来。
    • 技术代表: 世界模型(World Models)。
  3. 优化器 (Optimizer) —— “精修师”

    • 比喻: 就像照片修图师
    • 作用: 它不直接生成最终结果,而是先画个草图,然后反复修改(去噪、迭代),直到画出完美的路线。它能在测试时不断思考:“这个方案好像不够好,再微调一下。”
    • 技术代表: 扩散规划(Diffuser)。
  4. 评估者 (Evaluator) —— “质检员”

    • 比喻: 就像安全审查官
    • 作用: 它负责给方案打分:“这个动作安全吗?符合规则吗?”如果机器人想跳悬崖,质检员会立刻喊停。它不仅能打分,还能指出哪里错了,引导机器人改进。
    • 技术代表: 能量模型(EBMs)。

3. 为什么要这么做?(解决什么痛点)

  • 打破“单模态”的诅咒: 以前 AI 学东西,容易“学傻了”,只学会一种死板的方法。现在的生成式 AI 能学会“一题多解”,像人类一样灵活。
  • 从“试错”到“想象”: 以前机器人要真的去撞几百次墙才能学会不撞墙(样本效率低)。现在它可以在“梦境”(生成模型)里撞几千次,学会了再出来,大大节省了时间和成本。
  • 处理复杂数据: 人类的行为很复杂(比如走路时有人喜欢摆臂,有人喜欢背手),以前的 AI 很难模仿这种复杂性,现在的模型可以完美复刻。

4. 未来的挑战:虽然很酷,但也有风险

论文也提醒我们,这种强大的能力带来了新的风险,就像给汽车装上了自动驾驶,但也可能出事故:

  • 幻觉(Hallucination): 就像那个“造梦师”有时候会做梦梦到“飞起来”,但现实中机器人是飞不起来的。如果 AI 在虚拟世界里觉得能飞,真让它飞,它就会摔得粉碎。这叫**“物理幻觉”**。
  • 安全漏洞: 如果 AI 太聪明,它可能会找到规则的漏洞(比如为了得分而作弊),而不是真正解决问题。
  • 信任问题: 我们怎么知道 AI 生成的方案是安全的?论文提出需要建立**“分层防护网”**:AI 负责出主意(生成),但必须有一个严格的“安检门”(安全过滤器)来把关,确保只有安全的方案被执行。

总结

这篇论文的核心思想是:未来的智能体(AI)不再是一个只会做题的计算器,而是一个拥有“想象力”和“创造力”的通用物理智能体。

它通过**“控制即推理”(Control as Inference)的新视角,把决策过程拆解为造梦、执行、精修、质检四个环节。虽然这让我们离真正的“通用机器人”更近了,但也提醒我们要小心处理“想象力过剩”**带来的安全隐患,确保 AI 在现实世界中既聪明又安全。