QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

O artigo apresenta o QA-Dragon, um sistema dinâmico de RAG consciente da consulta que integra agentes de busca de texto e imagem para aprimorar o raciocínio em perguntas visuais complexas, demonstrando ganhos significativos de precisão no desafio Meta CRAG-MM da KDD Cup 2025.

Zhuohang Jiang, Pangjing Wu, Xu Yuan, Wenqi Fan, Qing Li

Publicado 2026-03-17
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um amigo muito inteligente, chamado "MLLM" (um modelo de linguagem multimodal), que consegue ver fotos e responder perguntas sobre elas. Ele é ótimo em coisas óbvias, como dizer "isso é um cachorro" ou "o céu está azul". Mas, se você perguntar: "Qual é o motor exato deste carro azul e quanto ele custava quando foi lançado?", ele começa a alucinar. Ele inventa fatos porque não sabe a resposta de verdade e acha que sabe.

Para resolver isso, os pesquisadores criaram o QA-Dragon. Pense nele não como um simples amigo, mas como uma equipe de detetives de elite que trabalha para esse amigo inteligente.

Aqui está como a equipe funciona, usando analogias do dia a dia:

1. O Recepcionista Especialista (Domain Router)

Quando você chega com uma pergunta e uma foto, o primeiro a te atender é o Recepcionista.

  • O que ele faz: Ele olha rapidamente para a foto e a pergunta e diz: "Ah, isso é sobre carros!" ou "Isso é sobre comida!".
  • Por que é importante: Em vez de tratar todas as perguntas da mesma forma, ele chama o especialista certo. Se for sobre carros, ele chama o "Detetive de Carros". Se for sobre livros, chama o "Detetive de Livros". Isso garante que a equipe use o conhecimento específico daquele assunto.

2. O Gerente de Pesquisa (Search Router)

Depois que o especialista faz uma primeira tentativa de resposta, o Gerente entra em cena. Ele é o cérebro que decide se a equipe precisa sair para investigar ou se pode responder na hora.

  • Cenário A (Resposta Direta): Se a resposta está claramente escrita na foto (ex: "O que está escrito nesta placa?"), o Gerente diz: "Não precisamos sair, a resposta já está aqui!". Isso economiza tempo.
  • Cenário B (Verificação): Se a equipe acha que sabe a resposta, mas não tem certeza (ex: "Acho que é um modelo 2024, mas preciso confirmar"), o Gerente diz: "Vamos checar os registros para ter certeza".
  • Cenário C (RAG - A Grande Investigação): Se a pergunta exige conhecimento que não está na foto (ex: "Quem fundou esta marca?"), o Gerente grita: "Precisamos de ajuda externa! Vamos à biblioteca e à internet!".

3. Os Detetives de Campo (Image & Text Search Agents)

Aqui é onde a mágica da "pesquisa dinâmica" acontece. Dependendo do que o Gerente pediu, diferentes agentes são enviados:

  • O Detetive Visual (Image Search): Ele pega a foto, recorta a parte importante (como o carro específico) e vai a um banco de dados de imagens para encontrar fotos parecidas e ver se consegue descobrir o modelo exato. É como usar o "Google Imagens" de forma super inteligente.
  • O Detetive de Texto (Text Search): Se o Detetive Visual descobriu que é um "BMW M4", o Detetive de Texto pega esse nome e vai pesquisar na internet: "Qual o preço de um BMW M4?". Ele transforma perguntas vagas em buscas precisas.

4. O Editor Chefe (Reranker)

Muitas vezes, os detetives trazem muito material: 50 páginas da internet e 20 fotos. Nem tudo é útil.

  • O que ele faz: O Editor Chehe pega todo esse material e faz uma triagem rápida (Coarse) e depois uma leitura detalhada (Fine). Ele joga fora o lixo e seleciona apenas as 3 ou 4 informações mais relevantes e confiáveis para a resposta final. É como um editor de jornal que decide quais notícias vão para a capa.

5. O Auditor de Qualidade (Post-Answer Verifier)

Antes de entregar a resposta final para você, a equipe passa por um auditor.

  • O que ele faz: Ele olha para a resposta e pergunta: "Isso faz sentido? A resposta está de acordo com o que encontramos nas pesquisas? Estamos inventando coisas?". Se a resposta for duvidosa, ele diz: "Não, não podemos responder isso com segurança" e pede para a equipe tentar de novo ou admitir que não sabe. Isso evita que o sistema minta.

O Resultado Final

O QA-Dragon foi testado em uma competição difícil (o KDD Cup 2025) onde as perguntas eram complexas, exigiam várias etapas de raciocínio e misturavam fotos com fatos da internet.

Por que isso é incrível?
Enquanto outros sistemas tentavam adivinhar ou pesquisar de forma desorganizada, o QA-Dragon funcionou como uma orquestra bem afinada:

  1. Identificou o tipo de problema.
  2. Decidiu se precisava de ajuda externa.
  3. Escolheu a ferramenta certa (imagem ou texto).
  4. Filtrou o melhor conteúdo.
  5. Verificou se a resposta era verdadeira.

Isso resultou em respostas muito mais precisas e menos "alucinações" (mentiras criadas pelo computador), superando os concorrentes em cerca de 5% a 6% em tarefas difíceis. Em resumo, o QA-Dragon ensinou a IA a saber quando sabe a resposta, quando precisa pesquisar e como pesquisar da maneira certa.