Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

O artigo apresenta o Wiki-R1, um framework de aprendizado por reforço com currículo baseado em geração de dados que otimiza o raciocínio multimodal para Resposta a Perguntas Visuais Baseadas em Conhecimento (KB-VQA) ao alinhar distribuições de treinamento com a evolução da capacidade do modelo, alcançando resultados state-of-the-art nos benchmarks Encyclopedic VQA e InfoSeek.

Shan Ning, Longtian Qiu, Xuming He

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gênio da lâmpada (um modelo de Inteligência Artificial) que é muito inteligente, mas só conhece o mundo pelo que viu em filmes e livros de ficção. Agora, você quer que ele responda perguntas sobre uma foto específica, como "Qual é a espécie exata dessa ave rara que vive no topo de uma montanha no Peru?".

O problema é que o gênio nunca viu essa ave. Se você perguntar diretamente, ele vai inventar uma resposta (alucinar) ou chutar. Para ajudar, você tem uma biblioteca gigante (a internet/Wikipedia) e um bibliotecário (o sistema de busca) que tenta encontrar o livro certo para o gênio ler antes de responder.

O artigo Wiki-R1 é sobre como ensinar esse gênio a usar a biblioteca de forma inteligente, mesmo quando o bibliotecário às vezes entrega o livro errado ou com páginas rasgadas.

Aqui está a explicação passo a passo, usando analogias simples:

1. O Problema: O "Choque de Realidade"

Antes do Wiki-R1, os pesquisadores tentavam treinar o gênio usando Reforço (dando pontos quando ele acertava). Mas havia um grande problema:

  • O Bibliotecário é barulhento: Muitas vezes, ele traz livros irrelevantes ou com informações confusas.
  • O Gênio fica perdido: Como o livro trazido não é perfeito, o gênio não consegue responder. Ele erra.
  • Sem pontos, sem aprendizado: Como ele erra quase sempre, ele nunca ganha "pontos" (recompensa) no treinamento. Sem pontos, ele não sabe o que fazer para melhorar. É como tentar ensinar alguém a andar de bicicleta em uma tempestade: ele cai o tempo todo e desiste.

2. A Solução: O "Currículo de Treinamento" (Wiki-R1)

A ideia do Wiki-R1 é não jogar o gênio direto na tempestade. Em vez disso, eles criaram um plano de ensino progressivo, como um jogo de videogame que começa fácil e fica difícil aos poucos.

A. Criando os Níveis de Dificuldade (Geração de Dados)

Em vez de usar apenas os livros que o bibliotecário entrega naturalmente (que são bagunçados), o Wiki-R1 controla o bibliotecário para criar níveis de treino:

  • Nível 1 (Fácil): O sistema entrega exatamente o livro perfeito, sem erros. O gênio lê e acerta. Ele ganha confiança e pontos.
  • Nível 2 (Médio): O sistema entrega o livro perfeito, mas mistura com 2 ou 3 livros inúteis. O gênio precisa aprender a ignorar o lixo e focar no que importa.
  • Nível 3 (Difícil): O sistema entrega apenas livros ruins ou incompletos. O gênio precisa usar todo o seu raciocínio para deduzir a resposta ou admitir que não sabe.

O segredo é: o sistema só sobe de nível quando o gênio já dominou o anterior. É como um professor que só passa para o capítulo 2 quando o aluno entendeu o capítulo 1.

B. Escolhendo os Alunos Certos (Amostragem Curricular)

Às vezes, mesmo no nível difícil, o gênio acerta por sorte ou erra por azar. O Wiki-R1 usa uma técnica inteligente para escolher quais perguntas fazer a ele.

  • Eles querem perguntas que sejam desafiadoras, mas possíveis de resolver (nem muito fáceis, nem impossíveis).
  • Como o gênio não responde a todas as perguntas de uma vez, o sistema usa um "mapa de conexões". Se o gênio acertou uma pergunta sobre "Águias", o sistema assume que ele provavelmente também consegue responder sobre "Falcões" (porque são pássaros parecidos) e usa isso para estimar a dificuldade de perguntas que ainda não viu. É como um professor que, vendo que você acertou uma equação de álgebra, assume que você consegue resolver uma de geometria parecida, mesmo que ainda não tenha tentado.

3. O Resultado: Um Mestre da Biblioteca

Depois de passar por esse treinamento curado:

  • O gênio aprendeu a filtrar informações ruins.
  • Ele aprendeu a raciocinar com base em dados imperfeitos.
  • Ele se tornou o melhor do mundo em responder perguntas sobre imagens usando conhecimento externo.

Em resumo:
O Wiki-R1 não é apenas "jogar mais dados" no modelo. É como ter um treinador pessoal de elite que:

  1. Começa com exercícios fáceis para ganhar confiança.
  2. Aumenta a dificuldade gradualmente, controlando o "ruído" do ambiente.
  3. Escolhe os exercícios certos para que o aluno nunca fique entediado (muito fácil) nem desespere (muito difícil).

Graças a isso, o modelo conseguiu quebrar recordes em testes de perguntas difíceis sobre imagens, provando que, com o método certo de ensino, a Inteligência Artificial pode aprender a pensar de verdade, mesmo quando as informações não são perfeitas.