TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics

O artigo apresenta o TIGeR, um novo framework que aprimora os Modelos Visão-Linguagem para robótica ao integrá-los com ferramentas computacionais externas para realizar cálculos geométricos precisos, superando as limitações de estimativa qualitativa e alcançando precisão em nível de centímetros em tarefas de manipulação real.

Yi Han, Enshen Zhou, Shanyu Rong, Jingkun An, Pengwei Wang, Zhongyuan Wang, Cheng Chi, Lu Sheng, Shanghang Zhang

Publicado 2026-03-05
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um robô muito inteligente, capaz de conversar e entender o que você diz. No entanto, quando você pede a ele para pegar uma xícara e colocá-la exatamente 5 centímetros à direita de um prato, ele fica confuso. Ele pode dizer "ok, vou colocar ali", mas na prática, ele pode colocar a xícara 10 centímetros longe ou até derrubar o prato. Por quê? Porque a maioria desses robôs "vê" o mundo como uma pintura: eles entendem que algo está "à direita" ou "perto", mas não têm uma régua matemática precisa para medir distâncias exatas.

O artigo que você enviou apresenta uma solução brilhante chamada TIGeR (Raciocínio Geométrico Integrado a Ferramentas).

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: O Robô que "Adivinha"

Pense nos robôs atuais como um artista impressionista. Eles veem a cena e fazem uma estimativa artística: "Acho que a cadeira está ali". Para desenhar, isso é ótimo. Mas para um robô que precisa montar um móvel ou pegar um copo de vidro sem quebrá-lo, essa "adivinhação" não serve. Eles precisam de um engenheiro de precisão que use réguas, níveis e cálculos exatos.

O problema é que os robôs atuais tentam "aprender" a fazer esses cálculos complexos dentro de sua própria "cabeça" (o cérebro de rede neural), o que é como tentar fazer cálculos de engenharia complexos de cabeça, sem papel e caneta. O resultado são erros de centímetros, o que é fatal na robótica.

2. A Solução: O Robô com uma "Caixa de Ferramentas"

O TIGeR muda a regra do jogo. Em vez de tentar forçar o robô a calcular tudo sozinho, o TIGeR ensina o robô a saber quando precisa de ajuda e a chamar ferramentas especializadas.

Imagine que o robô é um arquiteto.

  • Antes: O arquiteto tentava desenhar a planta baixa e calcular o peso das vigas de memória, o que levava a erros.
  • Com o TIGeR: O arquiteto (o robô) olha para o problema, diz: "Preciso calcular a distância exata entre dois pontos", e então pega uma calculadora científica (uma ferramenta externa) e um fita métrica digital (sensores de profundidade) para fazer o trabalho sujo.

O robô não faz o cálculo; ele escreve o código para que a calculadora faça o cálculo e devolve o resultado exato.

3. Como Funciona na Prática? (O Processo)

O TIGeR funciona em três etapas principais, como se fosse uma equipe de trabalho:

  1. O Olho (Percepção): O robô usa câmeras e sensores para ver o mundo. Mas, em vez de apenas "ver" uma imagem, ele usa ferramentas para transformar pixels da tela em coordenadas 3D reais (como transformar uma foto 2D em um mapa 3D).
  2. O Cérebro (Raciocínio): Quando o humano diz "Coloque a bolsa no espaço vazio da mesa", o robô pensa: "Ok, preciso saber onde estão os objetos, qual é a gravidade e onde há espaço". Ele decide: "Vou chamar a ferramenta de 'caixa 3D' para medir a mesa e a ferramenta de 'código' para calcular onde a bolsa cabe sem bater em nada".
  3. As Mãos (Execução): O robô gera um pequeno programa de computador (código) que faz a matemática difícil. O código roda, dá o resultado exato (ex: "Mova 15,2 cm para a direita"), e o robô executa o movimento com precisão de milímetros.

4. O "Livro de Exercícios" (TIGeR-300K)

Para ensinar o robô a usar essas ferramentas, os criadores do TIGeR não apenas deram um livro de instruções; eles criaram um gigantesco livro de exercícios chamado TIGeR-300K.

  • São 300.000 exemplos de situações reais.
  • Cada exemplo mostra não só a pergunta e a resposta, mas todo o passo a passo: qual ferramenta foi usada, qual código foi escrito e qual foi o cálculo intermediário.
  • É como se você estivesse ensinando uma criança a cozinhar, mostrando não só o prato final, mas cada passo: "Pegue a faca (ferramenta 1), corte a cebola (cálculo 1), adicione ao molho (cálculo 2)".

5. O Treinamento: Do "Estágio" ao "Mestre"

O robô foi treinado em duas fases:

  • Fase 1 (Aprendizado Supervisionado): O robô leu o livro de exercícios e aprendeu a imitar os passos corretos.
  • Fase 2 (Recompensa Hierárquica): Aqui está o segredo. O robô não é apenas premiado por acertar a resposta final. Ele recebe pontos extras por:
    • Escolher a ferramenta certa.
    • Escrever o código corretamente.
    • Fazer os cálculos intermediários sem erro.
    • Se ele errar o código, perde pontos, mesmo que a resposta final pareça certa. Isso força o robô a ser preciso em cada etapa, não apenas adivinhar o final.

Resumo da Ópera

O TIGeR é como transformar um robô que "adivinha" onde as coisas estão em um engenheiro de precisão que usa réguas, calculadoras e mapas 3D.

  • Sem TIGeR: "Acho que é ali, perto da cadeira." (Erro de 10 cm).
  • Com TIGeR: "Calculei que o espaço livre começa exatamente em 15,4 cm da borda da mesa. Vou mover o braço para lá." (Precisão de 1 cm).

Isso permite que robôs realizem tarefas complexas no mundo real, como montar móveis, organizar cozinhas ou pegar objetos frágeis, com uma segurança e precisão que antes eram impossíveis para a inteligência artificial.