TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics

Das Paper stellt TIGeR vor, ein Framework, das Vision-Language-Modelle durch die Generierung und Ausführung präziser geometrischer Berechnungen mit externen Tools von reinen Schätzern zu rechnerischen Systemen weiterentwickelt und so durch ein neues Datenset sowie ein zweistufiges Trainingsverfahren Zentimeter-Genauigkeit für robotische Manipulationsaufgaben erreicht.

Yi Han, Enshen Zhou, Shanyu Rong, Jingkun An, Pengwei Wang, Zhongyuan Wang, Cheng Chi, Lu Sheng, Shanghang Zhang

Veröffentlicht 2026-03-05
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, ein Roboter ist wie ein sehr kluger, aber etwas chaotischer Maler. Wenn Sie ihm sagen: „Mal mir einen Baum links neben dem Haus", versteht er das sofort. Er kann „links" und „neben" erkennen. Aber wenn Sie ihm sagen: „Stelle die Vase exakt 5 Zentimeter hinter den Baum, damit sie nicht umfällt", wird er ratlos. Er kann schätzen, aber er kann nicht rechnen. Er weiß nicht, wie groß ein Zentimeter in der echten Welt ist, und er hat keine Ahnung, wie man die Entfernung präzise misst.

Das ist genau das Problem, das die Forscher mit ihrer neuen Erfindung, TIGeR, lösen wollen.

Hier ist die Erklärung, wie TIGeR funktioniert, ohne komplizierte Fachbegriffe:

1. Das Problem: Der „Gefühlte" vs. der „Rechner"

Bisherige Roboter-Gehirne (die sogenannten Vision-Language-Modelle) sind wie Menschen, die nur mit dem Gefühl arbeiten. Sie sehen ein Bild und sagen: „Das ist nah", „Das ist weit weg". Das reicht für ein Gespräch, aber nicht für einen Roboterarm, der etwas greifen muss. Wenn ein Roboterarm auch nur einen Millimeter danebenlegt, kann er etwas zerbrechen oder den Auftrag verfehlen.

Die alten Modelle versuchen, diese genauen Zahlen direkt aus dem Gehirn (dem neuronalen Netz) zu „erraten". Das ist wie wenn Sie versuchen, die genaue Entfernung zu einem Berg zu schätzen, ohne ein Maßband zu haben. Das Ergebnis ist oft ungenau.

2. Die Lösung: TIGeR – Der Roboter mit dem Taschenrechner

TIGeR (Tool-Integrated Geometric Reasoning) ändert die Spielregeln. Anstatt dass der Roboter versucht, die Mathematik selbst im Kopf zu behalten, gibt er sich die Erlaubnis, Werkzeuge zu benutzen.

Stellen Sie sich TIGeR wie einen Architekten vor, der nicht selbst den Stein bricht, sondern einen Baumeister (den Code) ruft:

  • Der Roboter sieht: „Ich muss etwas 5 cm über die Pflanze halten."
  • Der Roboter denkt: „Ich kann das nicht einfach raten. Ich muss rechnen."
  • Der Roboter ruft: „Hey, Taschenrechner! Hier sind die Koordinaten der Pflanze und die Kameraeinstellungen. Rechne mir bitte den genauen Punkt aus."
  • Das Werkzeug rechnet: Es nutzt echte Daten (wie Tiefensensoren und Kameramessungen), um eine exakte Zahl zu liefern.
  • Der Roboter führt aus: Er bewegt den Arm genau dorthin.

TIGeR ist also nicht mehr nur ein „Seher", sondern wird zu einem Rechner, der Code schreibt und ausführt, um die Welt millimetergenau zu verstehen.

3. Der Trainingsplan: Wie lernt der Roboter das?

Damit der Roboter weiß, wann er welche Werkzeuge benutzen muss, haben die Forscher ihn in zwei Phasen trainiert:

  • Phase 1: Der Schulunterricht (SFT):
    Man zeigt dem Roboter 300.000 Beispiele (eine riesige Datenbank namens TIGeR-300K). In diesen Beispielen sieht er genau, wie man von einer Frage („Wo ist der Stuhl?") zu einer Lösung geht, indem man Werkzeuge benutzt. Er lernt: „Wenn ich eine Distanz brauche, muss ich diesen speziellen Rechner-Code aufrufen."
  • Phase 2: Der Belohnungsspiel-Modus (RFT):
    Jetzt wird es spannend. Der Roboter darf selbst versuchen, Aufgaben zu lösen. Wenn er die richtige Antwort findet, bekommt er Punkte. Aber TIGeR ist besonders: Es gibt nicht nur Punkte für das Endergebnis, sondern auch für den Weg.
    • Hat er das richtige Werkzeug gewählt? (Punkte!)
    • Hat er die richtigen Zahlen in den Code eingegeben? (Punkte!)
    • Hat der Code funktioniert? (Punkte!)
    • Ist das Endergebnis korrekt? (Große Punkte!)

Durch dieses Belohnungssystem lernt der Roboter nicht nur das „Was", sondern auch das „Wie" – und zwar sehr präzise.

4. Was kann TIGeR nun wirklich?

In Tests hat TIGeR gezeigt, dass es Aufgaben meistern kann, bei denen andere Roboter scheitern:

  • Präzision: Es kann Objekte platzieren, die genau 10 Zentimeter voneinander entfernt sein müssen.
  • Versteckte Dinge: Wenn ein Objekt teilweise verdeckt ist (z. B. ein Becher hinter einer Tasse), kann TIGeR durch Rechnen herausfinden, wo der verdeckte Teil wahrscheinlich ist, und den Arm trotzdem sicher bewegen.
  • Komplexe Szenarien: Es kann einen Roboterarm anweisen, einen schwarzen Beutel auf einen Tisch zu legen, ohne mit anderen Dingen zu kollidieren, indem es im Voraus alle möglichen Positionen durchrechnet.

Zusammenfassung

TIGeR ist wie ein Roboter, der aufgehört hat, zu raten, und angefangen hat, zu rechnen. Anstatt zu versuchen, alles auswendig zu lernen, nutzt er externe Werkzeuge (wie einen Taschenrechner oder einen GPS-Empfänger), um die Welt mit Zentimeter-Genauigkeit zu verstehen.

Das Ergebnis? Roboter, die nicht nur „sehen", sondern wirklich verstehen, wo Dinge sind und wie sie sich bewegen müssen, um Aufgaben in unserer echten, dreidimensionalen Welt sicher und präzise zu erledigen. Es ist der Unterschied zwischen jemandem, der schätzt, wie weit der nächste Bus kommt, und jemandem, der die genaue Fahrzeit auf dem Handy nachschlägt.