Visual Planning: Let's Think Only with Images

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种非常有趣的新想法，我们可以把它想象成**“让 AI 学会用‘画画’来思考，而不是用‘说话’来思考”**。

为了让你轻松理解，我们把这篇论文的核心内容拆解成几个生动的比喻：

1. 核心问题：为什么让 AI“说话”思考会卡壳？

想象一下，你正在玩一个迷宫游戏，或者要在一张复杂的地图上规划路线。

传统的 AI 做法（语言思考）： 就像让一个只会说话但没带地图的导游来指路。他必须先把你眼前的迷宫图片，费力地描述成文字（“前面有个红墙，左边有个洞……"），然后在脑子里把这些文字拼凑起来，最后再告诉你怎么走。
- 缺点： 这个过程很容易出错。就像你试图用文字描述一个复杂的乐高积木结构，描述得再详细，听的人也很难在脑海里还原出 exact 的样子。对于涉及空间、几何、物理规则的任务，这种“先看图，再翻译成文字，再思考”的方式，就像用算盘去解微积分，既慢又容易算错。
这篇论文的新想法（视觉规划）： 既然我们要解决的是视觉问题，为什么不直接用“画图”来思考呢？
- 这就好比一个经验丰富的画家。他不需要把眼前的路描述成文字，而是直接在脑海里（或者在纸上）画出下一步的样子：“如果我现在往左走，画面会变成这样；如果再往右，画面会变成那样。”
- 核心观点： 对于某些任务（如迷宫、导航），“看图生图”比“看图说话”更自然、更准确。

2. 解决方案：Visual Planning（视觉规划）

作者提出了一个名为**“视觉规划” (Visual Planning)** 的新模式。

以前的模式： 输入图片 -> AI 输出文字（“向左走，再向上”）-> 执行。
现在的模式： 输入图片 -> AI 输出一连串的图片（就像翻书一样，每一页都是下一步的状态）-> 执行。

比喻：
想象你在玩一个“大家来找茬”或者“接龙”游戏。

传统 AI 是告诉你：“下一步，那个小人会出现在左边。”
新 AI (Visual Planning) 是直接给你看一张新图，图里小人已经站在左边了。它不需要说话，它直接展示“未来”。这一连串的图片，就是它的思考过程。

3. 如何训练？：给 AI 装上“强化学习”的翅膀

光有想法不行，还得教 AI 学会这种“看图生图”的规划能力。作者发明了一种叫 VPRL 的训练方法。

第一阶段（热身）： 让 AI 在迷宫里乱跑（随机生成图片序列），先学会怎么画出连贯的画面，别画得乱七八糟。这就像让新手画家先学会怎么拿笔、怎么画线条。
第二阶段（强化学习/打怪升级）： 这是最关键的一步。
- 我们给 AI 一个奖励机制：如果它画出的下一张图，让小人离目标更近了，就给它发糖（奖励）；如果它画错了（比如穿墙了、掉坑里了），就狠狠批评（惩罚）。
- 通过这种不断的“试错 - 奖励”，AI 慢慢就学会了：“哦，原来画成这样（下一步状态）是对的，画那样是错的。” 它不再需要语言中介，直接通过图片的演变来规划最优路径。

4. 实验结果：谁更厉害？

作者在三个经典任务上做了测试：冰冻湖（避开冰洞）、迷宫、以及搬运打印机。

传统 AI（靠嘴说）： 即使是世界上最聪明的模型（如 Gemini），在复杂迷宫里也常常“嘴瓢”，把路描述错了，导致走不通。
新 AI（靠画画）： 我们的“视觉规划”模型表现惊人。
- 准确率更高： 在冰冻湖任务中，准确率比传统方法高出了 27%。
- 更聪明： 当迷宫变大、变复杂时，传统 AI 会迅速“变傻”，而我们的视觉规划模型依然能稳稳地画出正确的路线图。
- 更少犯错： 传统 AI 经常画出“穿墙”这种违反物理规则的路线，而新 AI 很少犯这种低级错误。

5. 总结与意义

一句话总结：
这篇论文证明了，对于需要空间想象和逻辑推理的任务，让 AI 直接“看图生图”来规划，比让它“看图说话”要高效得多、聪明得多。

这对我们意味着什么？

更直观的 AI： 未来的 AI 助手在处理导航、机器人控制、甚至设计布局时，可能不再需要长篇大论的文字解释，而是直接给你展示“如果这样做，世界会变成什么样”的连续画面。
打破语言局限： 这就像给 AI 打开了另一扇大脑窗户，让它不仅能用语言思考，还能用图像思考，这更接近人类“心领神会”的直觉。

最后的彩蛋：
虽然生成图片比生成文字稍微慢一点点（因为要画嘛），但比起那些为了走对路而写了几千字废话却最终走错路的“话痨”AI，这种“少说话、多画图”的方式，其实既聪明又高效！

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的论文，题为 《Visual Planning: Let's Think Only with Images》（视觉规划：让我们仅用图像思考）。该论文提出了一种全新的推理范式，挑战了当前多模态大模型（MLLMs）主要依赖文本进行推理的惯例，主张在涉及空间和几何信息的任务中，直接使用图像序列进行规划可能更为自然和高效。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

现有局限：尽管大型语言模型（LLMs）和多模态大模型（MLLMs）在推理任务上取得了显著进展，但它们通常将视觉信息转化为文本（如描述、坐标或 ASCII 码），然后在纯文本空间中进行推理（Chain-of-Thought）。
模态鸿沟 (Modality Gap)：对于高度依赖视觉、空间和几何动态的任务（如迷宫导航、路径规划），将视觉状态强行映射为文本描述会引入“模态鸿沟”。这种转换可能导致信息丢失、描述不准确，甚至产生幻觉，从而阻碍模型捕捉视觉特征和状态转换。
核心假设：人类认知包含语言和非语言（视觉）双重通道。对于“视觉优先”的任务，模型是否可以直接在视觉模态中进行规划，而无需语言中介？

2. 方法论 (Methodology)

作者提出了 视觉规划 (Visual Planning) 范式，并设计了名为 VPRL (Visual Planning via Reinforcement Learning) 的两阶段强化学习框架。

2.1 视觉规划范式

定义：规划过程被定义为一个图像序列的生成过程 $\hat{T} = (\hat{v}_1, ..., \hat{v}_n)$ 。
机制：模型 $\pi_\theta$ 是一个纯视觉生成模型（Large Vision Model, LVM），它根据初始状态 $v_0$ 和之前的状态，自回归地生成下一个视觉状态 $\hat{v}_i$ 。
特点：动作不是显式预测的文本，而是隐含在视觉状态之间的转换中。这模拟了人类通过草图或可视化来规划未来的过程。

2.2 VPRL 框架 (两阶段训练)

为了训练模型进行有效的视觉规划，作者提出了基于 GRPO (Group Relative Policy Optimization) 的强化学习框架：

阶段 1：策略初始化 (Policy Initialization)
- 目标：让模型学会生成视觉上连贯的状态序列，并具备探索能力。
- 方法：使用监督微调 (SFT)，训练数据来自环境中的随机游走轨迹（Random Walks）。模型学习预测下一个视觉状态，但此时主要关注格式正确性和视觉连贯性，而非最优解。
- 作用：作为“热身”，防止模型在后续 RL 阶段陷入局部最优或产生无效输出。
阶段 2：强化学习 (Reinforcement Learning)
- 目标：优化策略以生成通往目标的有效规划路径。
- 算法：使用 GRPO。模型生成一组候选响应（图像序列），通过奖励函数计算相对优势。
- 奖励设计 (Reward Design)：
  - 动力学解释器 (Dynamics Interpreter)：解析当前状态到生成状态的转换，判断动作是否有效（如是否撞墙、是否违反物理约束）。
  - 进度估计器 (Progress Estimator)：计算当前状态距离目标的剩余步数。
  - 奖励函数：
    - 最优动作 ( $A_{opt}$ )：减少距离目标的步数 $\rightarrow$ 奖励 +1。
    - 非最优但有效动作 ( $A_{nopt}$ )：未减少距离但合法 $\rightarrow$ 奖励 0。
    - 无效动作 ( $E_{inv}$ )：违反约束（如穿墙、消失） $\rightarrow$ 惩罚 -5。
- 优势：相比传统的文本 RL，VPRL 直接在视觉状态空间进行探索，避免了文本 grounding 带来的误差。

3. 实验设置 (Experiments)

任务：选择了三个代表性的基于网格的视觉导航任务：
1. FROZENLAKE：在冰面上避开冰洞到达目标。
2. MAZE：在迷宫中从起点走到终点。
3. MINIBEHAVIOR：包含“拾取”和“放置”动作的复杂任务（拿打印机放到桌子上）。
基线模型：
- 闭源模型：Gemini 2.0 Flash, Gemini 2.5 Pro (Think)。
- 开源模型：Qwen 2.5-VL-Instruct (SFT, CoT, RL 变体)。
- 视觉基线：LVM-7B (仅在图像/视频上预训练，无文本数据)，对比了 VPFT (纯 SFT) 和 VPRL。
评估指标：
- Exact Match (EM)：生成的轨迹是否与最优轨迹完全一致。
- Progress Rate (PR)：生成的轨迹中连续正确步骤的比例。

4. 关键结果 (Results)

性能超越：
- VPRL 在所有三个任务上均取得了最佳性能。在 FROZENLAKE 上，VPRL 的 EM 达到 91.6%，而最强的文本基线（Qwen SFT）仅为 68.6%，Gemini 2.5 Pro 为 72.0%。
- 平均而言，VPRL 比文本基线高出 27% 的 Exact Match 率。
泛化能力：
- 随着任务难度增加（网格变大，如从 3x3 到 6x6），文本基线（包括 Gemini 2.5 Pro）的性能急剧下降（例如从 98% 跌至 38.8%）。
- VPRL 表现出极强的鲁棒性，性能曲线平缓，在 6x6 网格上仍保持 82.4% 的准确率。
减少无效动作：
- VPRL 显著降低了“无效动作失败率”（Invalid-Failure Ratio）。VPFT 的失败率高达 60-78%，而 VPRL 将其降低了至少 24%，表明 RL 有效引导模型在合法的动作空间内探索。
文本规划的瓶颈：
- 实验发现，即使在文本规划中引入 RL 或更复杂的描述（如坐标、ASCII），性能提升依然有限。错误分析显示，文本模型在将视觉信息“落地”为文本描述时经常出错（如坐标错误、布局描述错误），导致后续推理基于错误的前提。

5. 主要贡献 (Key Contributions)

提出新范式：首次提出并验证了 Visual Planning 范式，证明了模型可以在完全不使用文本的情况下，仅通过图像序列进行有效的多步规划。
创新框架 VPRL：设计了一个两阶段强化学习框架，结合 GRPO 和基于进度的奖励机制，成功训练了纯视觉模型进行复杂的空间规划。
实证优势：在多个视觉导航基准测试中，证明了视觉规划在性能、泛化能力和鲁棒性上均优于传统的文本推理方法。
揭示模态鸿沟：通过对比实验，有力地证明了在空间推理任务中，强制将视觉信息转化为文本会引入不必要的噪声和错误，而直接视觉推理是更优解。

6. 意义与影响 (Significance)

理论意义：挑战了“语言是推理通用载体”的假设，支持了双重编码理论（Dual Coding Theory），即非语言通道在处理空间任务时具有独特优势。
应用前景：为机器人导航、自动驾驶、物理仿真等需要实时空间决策的领域提供了新的思路。这些领域往往对延迟和准确性要求极高，纯视觉规划可能比“看图->转文->思考->转回动作”的链路更高效、更准确。
未来方向：开启了“多模态思维”（Multimodal Thinking）的新方向，未来的系统可能结合文本和图像轨迹，根据任务特性动态选择最合适的推理模态。

总结：这篇论文通过引入“仅用图像思考”的视觉规划范式，利用强化学习解决了纯视觉模型在复杂空间任务中的规划难题，证明了在特定领域，脱离语言中介的纯视觉推理不仅可行，而且性能更优、泛化性更强。