RECODE: Reasoning Through Code Generation for Visual Question Answering

该论文提出了名为 RECODE 的代理框架,通过将结构化视觉逆向工程为可执行代码并进行迭代验证与优化,显著提升了多模态大语言模型在图表和几何等视觉推理任务中的精确性与可验证性。

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza Fathi

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下,你正在看一张复杂的统计图表或者几何图形,然后有人问你:“这张图里哪个数据最高?”或者“这两个角度加起来是多少度?”

现在的很多人工智能(AI)在看图时,就像是一个只靠眼睛看的“盲人摸象”高手。它能看到图上的颜色、线条和形状,但它看不懂这些线条背后的“数学逻辑”。如果让它算数,它很容易猜错,因为它没法像人类一样拿尺子去量,或者拿计算器去算。它只能凭感觉“猜”答案,而且没法自我检查猜得对不对。

这篇论文提出的 RECODE 方法,就是给这位 AI 装上了一套**“反向工程”的超能力**。

核心比喻:从“画画”到“写代码”

我们可以把 RECODE 的工作流程想象成一位**“侦探画家”**:

  1. 第一步:逆向还原(Derendering)
    普通的 AI 是看着图直接猜答案。而 RECODE 会想:“如果我要画出这张图,我需要写什么指令?”
    它不再只是“看”图,而是尝试把图片“翻译”成一段可执行的计算机代码(比如 Python 绘图代码)。这就好比它不是在看一幅画,而是在试图找出这幅画的**“施工图纸”**。

  2. 第二步:多方案试错(Agentic Framework)
    这位“侦探画家”不会只画一次。它会先头脑风暴,写出好几套不同的“施工图纸”(生成多个候选程序),试着用代码把原图重新画出来。

    • 就像: 你想复原一个复杂的乐高城堡,你会先试着拼几种不同的方案。
  3. 第三步:严厉质检(Critic & Refinement)
    画好后,它会请一位**“挑剔的质检员”**(Critic)来检查:

    • “你画的这个柱状图,高度跟原图一样吗?”
    • “你算的这个角度,跟原图吻合吗?”
      如果质检员说“不对”,AI 就会修改代码,重新画,直到画出来的图和原图一模一样
  4. 第四步:精准推理
    一旦代码能完美还原原图,AI 就拥有了**“上帝视角”**。因为它手里拿着的是“施工图纸”(代码),它可以直接运行代码里的数学公式,或者让计算机去精确计算,而不是靠猜。

    • 就像: 既然你已经有了精确的施工图纸,你想知道城堡有多高,直接量图纸上的数据就行了,根本不需要去猜。

为什么这很厉害?

以前的 AI 像是在**“蒙眼猜谜”,而 RECODE 像是“拿着图纸解题”**。

  • 可验证性:以前的 AI 说“答案是 50",你不知道它怎么算的。现在 RECODE 说“答案是 50",因为它刚刚运行了一段代码,这段代码把图完美画出来了,所以答案绝对靠谱。
  • 擅长领域:这种方法在处理图表、数学题、几何图形这些需要精确逻辑的东西时,效果突飞猛进。

总结

简单来说,RECODE 就是让 AI 学会**“用代码去理解图片”**。它不再只是盯着图片看,而是把图片“拆解”成可执行的指令,通过反复修改代码直到完美还原图片,从而获得最精准的推理能力。

这就好比,以前 AI 是看照片猜天气,现在它学会了写气象代码来模拟天气,所以它不仅能猜对,还能算得准!