TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics

本文提出了 TIGeR 框架,通过让视觉语言模型调用外部工具执行精确几何计算而非依赖内部感知,结合自研数据集与两阶段训练策略,成功实现了机器人任务中所需的厘米级几何推理精度。

Yi Han, Enshen Zhou, Shanyu Rong, Jingkun An, Pengwei Wang, Zhongyuan Wang, Cheng Chi, Lu Sheng, Shanghang Zhang

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下,你正在教一个非常有才华的“大脑”(也就是现在的 AI 大模型)如何像机器人一样在现实世界里干活。

这篇论文介绍了一个名为 TIGeR 的新系统,它的核心思想可以概括为:“别光靠猜,要会算”

为了让你更容易理解,我们可以把现有的 AI 机器人比作一个**“凭感觉的艺术家”,而 TIGeR 则是一个“带着计算器的工程师”**。

1. 痛点:以前的 AI 是个“大概派”

现在的视觉语言模型(VLMs)很聪明,能看懂图片。如果你问它:“那个苹果在杯子的左边吗?”它能回答“是的”。
但是,如果你让机器人去抓那个苹果,并说:“请把苹果移到杯子左边 5 厘米 的地方”,以前的 AI 就懵了。

  • 为什么? 因为它们像艺术家,只能凭感觉说“大概在那边”,却算不出精确的坐标。它们没有“尺子”,也没有“计算器”。
  • 后果: 机器人抓东西时,要么抓空,要么抓偏,甚至把杯子碰倒。在需要毫米级精度的现实世界里,这种“大概”是行不通的。

2. 解决方案:TIGeR 的“外挂”策略

TIGeR 不想让 AI 的大脑(神经网络)去硬记复杂的几何公式(那太难了,而且容易算错)。相反,它给 AI 装了一个**“工具箱”**。

  • 以前的做法: 让 AI 自己在大脑里硬算 $3 \times 3$ 的矩阵变换,结果往往是幻觉(瞎编)。
  • TIGeR 的做法:
    1. 识别需求: AI 看到任务说“需要精确计算 5 厘米的距离”。
    2. 调用工具: AI 不自己算,而是写一段代码,调用外部的“专业计算器”(比如深度传感器数据、相机参数库、几何计算库)。
    3. 执行计算: 外部工具像计算器一样,给出精确到毫米的答案。
    4. 执行动作: AI 拿着这个精确答案,指挥机器人手臂去抓。

打个比方:
这就好比你要做一道复杂的菜。

  • 旧 AI 是凭记忆和感觉炒菜,经常盐放多了或者少放了。
  • TIGeR 是那个会看菜谱、知道该用多少克盐,并且会拿起电子秤和量杯,精确称量后再下锅的专业厨师

3. 核心装备:TIGeR-300K 数据集

为了训练这个“带工具箱”的 AI,作者们造了一个巨大的训练场,叫 TIGeR-300K

  • 这不仅仅是 30 万张图片,而是 30 万个**“解题步骤”**。
  • 每一个样本不仅告诉 AI“答案是什么”,还详细记录了**“怎么调用工具”“中间计算过程是什么”**。
  • 就像教学生做题,不仅给答案,还要求把“设未知数、列方程、代入计算”的每一步都写清楚。

4. 训练方法:先学规矩,再练内功

作者用了两阶段训练法,就像培养一个实习生:

  • 第一阶段(SFT - supervised Fine-Tuning): 老师手把手教。给 AI 看大量的“标准解题步骤”,让它学会什么时候该拿尺子,什么时候该拿计算器。
  • 第二阶段(RFT - Reinforcement Fine-Tuning): 放它去实战,并给**“分层奖励”**。
    • 如果它格式写对了,给个小红花(格式奖励)。
    • 如果它选对了工具,给个小红花(工具奖励)。
    • 如果它算出来的数字准,给个大红花(答案奖励)。
    • 如果它中间步骤写错了,哪怕答案蒙对了,也不给分。
    • 目的: 强迫 AI 不仅要结果对,过程也要严谨、可解释。

5. 成果:从“大概”到“精准”

在实验中,TIGeR 展现了惊人的能力:

  • 空间定位: 它能准确算出“植物上方 5 厘米”的具体坐标,而不是模糊地指一下。
  • 跨视角推理: 即使换了个角度看物体,它也能算出物体在空间中的真实距离。
  • 复杂任务: 比如“把黑色袋子放到桌子上的空位,不能碰到其他东西”。TIGeR 能写出代码,在虚拟空间里模拟无数种摆放位置,算出哪个位置既空又不碰撞,然后指挥机器人精准放置。

总结来说:
TIGeR 并没有试图把 AI 变成全知全能的“神”,而是承认 AI 不擅长做精确数学题,于是它给 AI 配了个“计算器”和“尺子”。通过让 AI 学会**“何时调用工具”以及“如何编写计算代码”**,它成功地把机器人从“凭感觉瞎摸”变成了“精准操作的工匠”,让机器人真正能在现实世界中干精细活。