Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought

Este artigo apresenta o NV-CoT, um novo framework que permite que modelos de linguagem multimodal realizem raciocínio visual por meio da geração direta de coordenadas numéricas contínuas, superando as limitações de métodos baseados em texto ou patches fixos e demonstrando melhorias significativas em precisão de localização, acurácia e velocidade de convergência.

Kesen Zhao, Beier Zhu, Junbao Zhou, Xingyu Zhu, Zhongqi Yue, Hanwang Zhang

Publicado 2026-03-02
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um amigo muito inteligente, um "robô de perguntas e respostas" que consegue ver fotos e conversar sobre elas. Esse é o que chamamos de Modelo de Linguagem Multimodal (MLLM).

O problema é que, até agora, quando esse robô precisava olhar para uma parte específica de uma foto para responder a uma pergunta (como "o que o homem está segurando?"), ele tinha que fazer isso de um jeito meio "travado" e impreciso.

Aqui está a explicação simples do que o NV-CoT (o novo método do artigo) faz, usando analogias do dia a dia:

1. O Problema: "Falar em Palavras" vs. "Apontar com o Dedo"

Como era antes (O jeito antigo):
Imagine que você está tentando descrever a localização de um objeto em uma foto para um amigo, mas você só pode usar palavras e números inteiros.

  • Você diz: "Olhe no quadrado 4, linha 2, até o quadrado 6, linha 5".
  • O problema: O mundo real é contínuo. Um objeto pode estar entre o quadrado 4 e o 5. Se você forçar o robô a escolher apenas "4" ou "5", ele pode errar o alvo. É como tentar medir a altura de uma pessoa usando apenas "baixo" ou "alto", sem números decimais. Além disso, o robô tinha que "quebrar" os números em pedaços de texto (como "3", ".", "1", "1"), o que confundia a lógica dele.

O jeito novo (NV-CoT):
O NV-CoT permite que o robô aponte diretamente para o lugar exato na foto, como se ele tivesse um dedo digital.

  • Em vez de dizer "quadrado 4", ele diz: "Olhe exatamente no ponto 42,2 na horizontal e 21,4 na vertical".
  • A analogia: É a diferença entre tentar desenhar um círculo usando apenas quadrados de um mosaico (o jeito antigo, com pedaços fixos) e desenhar um círculo perfeito com uma caneta (o jeito novo, com coordenadas contínuas).

2. A Grande Inovação: "Pensar com Números Reais"

O artigo chama isso de Cadeia de Pensamento Visual Numérica.

  • Antes: O robô pensava: "Vou escrever a palavra 'quatro', depois o ponto, depois o 'dois'...". Isso era lento e propenso a erros de cálculo (ele podia achar que 3,9 é menor que 3,11 porque os números eram tratados como letras).
  • Agora: O robô pensa em números reais (como 42,2). Ele gera coordenadas de uma caixa (um retângulo) que envolve o objeto diretamente.
    • Analogia: Imagine que o robô aprendeu a usar uma régua milimetrada em vez de apenas contar "passos" de tamanho fixo.

3. Como eles ensinaram o robô? (Treinamento)

O artigo mostra duas formas de ensinar esse novo jeito de pensar:

  • Aprendizado Supervisionado (SFT): É como dar ao robô um livro de respostas com as coordenadas exatas. Se ele errar, o professor diz: "Não é 4, é 4,2". O robô aprende a ajustar seu "dedo" para o lugar certo.
  • Aprendizado por Reforço (RL): Aqui, não temos as coordenadas exatas. O robô tenta apontar para um lugar, corta a imagem e responde. Se a resposta estiver certa, ele ganha um "ponto". Se errar, perde.
    • O Truque Mágico: Para o robô aprender a explorar novos lugares sem ficar preso, eles criaram uma "fórmula de sorteio" (chamada de distribuição Gaussiana ou Laplace). É como se o robô dissesse: "Acho que o objeto está aqui (42,2), mas vou tentar um pouquinho à esquerda e um pouquinho à direita para ver se acerto melhor". Isso permite que ele explore e aprenda sozinho.

4. Por que isso é incrível? (Os Resultados)

Os testes mostraram que o NV-CoT é muito melhor em duas coisas:

  1. Precisão Cirúrgica: O robô consegue isolar o objeto exato na foto, sem cortar partes do fundo ou deixar partes do objeto de fora. É como usar um laser para recortar um papel em vez de usar uma tesoura grossa.
  2. Respostas Mais Certas: Como ele vê o objeto com mais clareza, ele responde às perguntas com muito mais acerto. Em testes, um modelo pequeno (7B) com essa técnica bateu modelos gigantes (32B) que usavam o jeito antigo.

Resumo Final

Pense no NV-CoT como dar ao robô óculos de precisão e uma caneta de coordenadas.
Em vez de tentar descrever onde olhar usando palavras confusas e blocos rígidos, ele agora pode apontar diretamente para o pixel exato na tela. Isso torna o raciocínio visual mais rápido, mais preciso e muito mais inteligente, permitindo que ele entenda o mundo visual da mesma forma que nós humanos fazemos: de forma fluida e contínua, não em "pedaços" quebrados.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →