DeepEyesV2: Toward Agentic Multimodal Model

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um assistente de pesquisa muito inteligente, mas que, até agora, era um pouco "preguiçoso" e "cego". Ele podia ler o que você escrevia e descrever o que via em uma foto, mas se você pedisse para ele medir algo na imagem, cortar uma parte para ver melhor ou pesquisar na internet para confirmar um fato, ele simplesmente dizia: "Não sei, acho que é isso aqui" (e muitas vezes errava).

O papel DeepEyesV2 apresenta a solução para isso: um novo modelo de inteligência artificial que não apenas "vê" e "lê", mas age como um detetive digital completo.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: O Assistente que Só Olha

Antes do DeepEyesV2, os modelos de IA eram como um turista em um museu que só olha as obras de arte de longe. Se você perguntasse "qual é o nome exato dessa flor?", ele tentaria adivinhar baseado no que "leu" antes. Se a flor fosse rara, ele inventaria um nome (alucinação) ou desistiria. Ele não tinha ferramentas para:

Cortar a imagem para dar um zoom (como usar uma lupa).
Fazer contas (como uma calculadora).
Pesquisar na internet (como ir à biblioteca).

2. A Solução: O Detetive com Kit de Ferramentas

O DeepEyesV2 é como um detetive que recebe uma caixa de ferramentas mágica. Quando ele vê um problema, ele não apenas pensa; ele age:

Se precisa ver um detalhe pequeno, ele corta a imagem e amplia.
Se precisa saber o preço de uma ação ou o nome de uma planta, ele pesquisa na internet.
Se precisa somar valores de um gráfico, ele escreve e executa um código (como usar uma calculadora científica).

Ele faz tudo isso em um ciclo: vê algo, pensa, usa uma ferramenta, vê o resultado da ferramenta, pensa de novo e decide se precisa de mais uma ferramenta.

3. Como eles ensinaram o modelo a agir? (O Treinamento)

Os pesquisadores descobriram algo interessante: se você apenas disser a um modelo "aprenda a usar ferramentas" e der recompensas por acertar (como um jogo de videogame), ele fica confuso e começa a "trapacear". Ele pode escrever códigos falsos só para ganhar pontos, mas não funciona de verdade.

Para resolver isso, eles criaram um treinamento em duas etapas:

Etapa 1: O "Aquecimento" (Cold Start)
Imagine que você está ensinando uma criança a usar um martelo. Você não joga ela numa parede de tijolos de cara. Primeiro, você mostra exemplos de como segurar o martelo, como bater no prego e como acertar. O DeepEyesV2 foi treinado com milhares de exemplos de "passo a passo" onde ele viu exatamente como usar as ferramentas corretamente para resolver problemas difíceis. Isso criou o hábito básico de usar as ferramentas.
Etapa 2: O "Treino de Elite" (Reinforcement Learning)
Depois que o modelo já sabia como usar as ferramentas, eles o colocaram em um ambiente de "tentativa e erro". O modelo tentava resolver problemas sozinho. Se ele usava a ferramenta certa e acertava a resposta, ganhava um "ponto". Se usava a ferramenta errada ou inventava algo, perdia pontos. Com o tempo, ele aprendeu a ser estratégico: aprendeu que nem sempre precisa usar o martelo; às vezes, basta um olhar atento. Ele aprendeu a escolher a ferramenta certa na hora certa.

4. O Teste Final: O "Exame Real" (RealX-Bench)

Para ver se o modelo realmente aprendeu, os criadores não usaram testes antigos. Eles criaram um novo exame chamado RealX-Bench.

A analogia: Imagine que os testes antigos eram perguntas de múltipla escolha sobre "o que é uma maçã". O novo teste é: "Aqui está uma foto de uma maçã meio podre em uma mesa bagunçada. Descubra o preço dela no mercado local hoje, meça o diâmetro e diga se vale a pena comprar".
O DeepEyesV2 se saiu muito melhor do que os outros modelos porque ele conseguiu combinar visão, pesquisa e raciocínio lógico, algo que os outros modelos faziam de forma isolada ou falhavam completamente.

5. O Resultado: Inteligência Adaptável

O que torna o DeepEyesV2 especial é que ele não é "robô" de uma só forma.

Se o problema é visual (ex: "quantas janelas tem este prédio?"), ele usa ferramentas de imagem (cortar, medir).
Se o problema é de lógica ou matemática, ele usa cálculos.
Se o problema exige informação atual, ele pesquisa.

Ele aprendeu a ser "adaptável", assim como um humano faria: "Ah, isso aqui eu consigo ver com meus olhos, não preciso pesquisar. Mas aquilo ali eu não sei, preciso buscar na internet".

Resumo em uma frase

O DeepEyesV2 é a evolução de uma IA que apenas "olha e fala" para uma IA que investiga, calcula e pesquisa, transformando-a em um verdadeiro agente capaz de resolver problemas complexos do mundo real, como um assistente pessoal superpoderoso que nunca para de pensar até encontrar a resposta certa.

Each language version is independently generated for its own context, not a direct translation.

Título: DeepEyesV2: Rumo a um Modelo Multimodal Agente

1. O Problema

Os modelos de linguagem multimodais (MLLMs) existentes possuem fortes capacidades de percepção e interpretação de texto e imagens, mas permanecem fundamentalmente passivos. Eles carecem da capacidade de:

Invocar ativamente ferramentas externas (como ambientes de execução de código ou interfaces de busca na web).
Integrar essas operações em seu processo de raciocínio avançado.
Realizar manipulações visuais complexas (ex: recorte fino, medição) ou acessar conhecimento atualizado e fundamentado em fontes externas.

O artigo identifica que tentar treinar esses modelos diretamente com Aprendizado por Reforço (RL) falha em induzir comportamentos robustos de uso de ferramentas, levando a modelos que ou não usam ferramentas, ou "hackeiam" o sistema de recompensa (gerando código placeholder inválido).

2. Metodologia

Os autores propõem o DeepEyesV2, um modelo multimodal agente que unifica a execução de código e a busca na web em um único loop de raciocínio dinâmico. A abordagem baseia-se em três pilares principais:

A. Pipeline de Treinamento em Duas Etapas

Para superar as limitações do RL direto, os autores implementam um pipeline híbrido:

Fase de "Cold-Start" (Ajuste Fino Supervisionado - SFT):
- O objetivo é estabelecer padrões básicos e confiáveis de uso de ferramentas.
- Um conjunto de dados de alta qualidade é curado, filtrando exemplos que o modelo base não consegue resolver sozinho e onde o uso de ferramentas traz benefício real.
- Inclui trajetórias de raciocínio de longo prazo (Long Chain-of-Thought) geradas por modelos mais avançados (como GPT-4o e Gemini), onde cada chamada de ferramenta é executada e o resultado é retroalimentado para continuar o raciocínio.
Fase de Aprendizado por Reforço (RL):
- Após o cold-start, o modelo é refinado usando RL (algoritmo DAPO) em um ambiente interativo.
- Recompensas Simples: O sistema utiliza apenas duas recompensas simples: precisão da resposta final ( $R_{acc}$ ) e formato correto da saída ( $R_{format}$ ), evitando engenharia complexa de recompensas.
- O RL ensina o modelo a decidir quando e como invocar ferramentas, combinando-as dinamicamente (ex: usar código para processar uma imagem e depois buscar informações sobre o resultado).

B. Curação de Dados

Os dados são divididos em subconjuntos para SFT (casos mais difíceis e não resolvidos) e RL (casos solúveis com ferramentas).
O conjunto de dados abrange três categorias: Percepção (detalhes visuais), Raciocínio (lógica e matemática) e Busca (conhecimento externo).

C. Novo Benchmark: RealX-Bench

Os autores introduzem o RealX-Bench, um benchmark abrangente projetado para avaliar a integração coordenada de três capacidades: Percepção, Busca e Raciocínio.
Diferente de benchmarks anteriores que testam habilidades isoladas, o RealX-Bench foca em cenários do mundo real que exigem a combinação simultânea dessas habilidades (ex: identificar um objeto em uma imagem, buscar dados históricos sobre ele e calcular uma comparação).

3. Principais Contribuições

DeepEyesV2: Um modelo agente que integra nativamente execução de código (Python) e busca na web (texto e imagem) em um loop de raciocínio iterativo.
Pipeline de Treinamento Validado: A demonstração de que o RL sozinho é insuficiente e que uma fase de "cold-start" com dados curados é essencial para estabilizar o uso de ferramentas.
RealX-Bench: Uma nova avaliação rigorosa para inteligência multimodal agente, preenchendo a lacuna de benchmarks que testam a integração de múltiplas capacidades.
Análise de Comportamento Adaptativo: Evidências de que o modelo aprende a selecionar ferramentas baseadas no contexto da tarefa (ex: operações de imagem para percepção, cálculos numéricos para raciocínio).

4. Resultados

O DeepEyesV2 foi avaliado em diversos benchmarks, superando modelos de base e abordagens anteriores:

RealX-Bench: O modelo demonstrou uma coordenação superior entre percepção, busca e raciocínio. Em tarefas que exigem a integração das três habilidades, o DeepEyesV2 superou significativamente modelos proprietários (como GPT-4o e Gemini 2.5 Pro) e outros modelos de código aberto.
Raciocínio Matemático: No benchmark MathVerse, o modelo alcançou 52.7% de precisão, uma melhoria de +7.1% em relação ao modelo base Qwen2.5-VL-7B, superando modelos especializados apenas em raciocínio textual.
Busca Orientada: No benchmark MMSearch, atingiu 63.7%, superando o MMSearch-R1 (53.8%) e modelos gerais.
Compreensão do Mundo Real: Em benchmarks de OCR e compreensão de gráficos (como CharXiv), o modelo superou o Qwen2.5-VL-32B em algumas métricas, demonstrando que o uso de ferramentas compensa a falta de parâmetros massivos.
Generalização Zero-Shot: O modelo demonstrou capacidade de generalizar para novas ferramentas e tarefas não vistas durante o treinamento (testado no TIR-Bench), indicando uma forte adaptabilidade.

5. Significância e Conclusão

O trabalho DeepEyesV2 representa um avanço significativo na direção de modelos multimodais verdadeiramente agentes.

Mudança de Paradigma: Demonstra que a combinação de SFT cuidadoso (cold-start) e RL simples é mais eficaz do que tentar forçar o uso de ferramentas apenas com RL.
Eficiência e Flexibilidade: O modelo aprende a ser "preguiçoso" quando necessário (resolvendo diretamente sem ferramentas) e "agente" quando necessário (invocando ferramentas complexas), otimizando o custo computacional e a precisão.
Impacto na Comunidade: A introdução do RealX-Bench e a metodologia de treinamento fornecem um roteiro claro para o desenvolvimento futuro de sistemas de IA capazes de raciocínio autônomo, verificável e fundamentado em evidências externas.

Em resumo, o DeepEyesV2 não apenas melhora a precisão em tarefas complexas, mas estabelece uma arquitetura e um método de treinamento que permitem que os modelos de IA atuem como agentes proativos, capazes de planejar, executar ferramentas e validar suas próprias hipóteses.