TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics
Ce papier présente TIGeR, un cadre novateur qui améliore la précision géométrique des modèles vision-langage pour la robotique en leur permettant de générer et d'exécuter du code via des outils externes, surpassant ainsi les limitations des approches purement qualitatives pour atteindre une précision centimétrique dans les tâches de manipulation réelle.