QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

El paper presenta QA-Dragon, un sistema de Recuperación Aumentada por Generación (RAG) dinámico y consciente de la consulta que orquesta agentes de búsqueda de texto e imágenes para mejorar el razonamiento multimulti-hop y la precisión en preguntas visuales complejas, logrando mejoras significativas sobre los modelos base en el desafío Meta CRAG-MM de KDD Cup 2025.

Zhuohang Jiang, Pangjing Wu, Xu Yuan, Wenqi Fan, Qing Li

Publicado 2026-03-17
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un amigo muy inteligente, pero a veces se le olvida lo que estudió en la escuela o inventa cosas cuando no está seguro. A este amigo le llamamos "Inteligencia Artificial Multimodal" (un cerebro que ve imágenes y lee texto).

El problema es que cuando le haces una pregunta difícil sobre una foto (por ejemplo, "¿Qué modelo de coche es este y cuánto cuesta?"), a veces alucina y te da una respuesta falsa porque no tiene esa información en su memoria.

Para solucionar esto, los autores crearon QA-Dragon. Aquí te explico cómo funciona usando una analogía sencilla:

🐉 El Dragón Investigador (QA-Dragon)

Imagina que QA-Dragon no es un simple robot, sino un detective privado muy organizado que tiene un equipo de especialistas a su disposición. Cuando le das una foto y una pregunta, no intenta adivinar la respuesta de inmediato. Sigue un proceso de 4 pasos mágicos:

1. El Recepcionista Experto (El "Domain Router")

Primero, el detective mira la foto y la pregunta.

  • La analogía: Imagina que entras a un hospital. El recepcionista no te manda al quirófano si solo tienes un resfriado. Él te pregunta: "¿Es un problema de ojos, de estómago o de huesos?".
  • Qué hace el sistema: Identifica de qué trata la pregunta (¿es sobre comida? ¿vehículos? ¿animales?). Si es sobre un coche, llama al especialista en coches. Si es sobre un libro, llama al bibliotecario. Esto asegura que el detective use el "cerebro" correcto para el tema.

2. El Jefe de Estrategia (El "Search Router")

Una vez que el especialista da una respuesta preliminar, el Jefe de Estrategia la revisa.

  • La analogía: Es como un jefe que pregunta: "¿Estás 100% seguro de esta respuesta? ¿O necesitas llamar a un experto externo para confirmar?".
  • Qué hace el sistema:
    • Si la respuesta es obvia (ej. "¿Qué color es el paraguas?"), dice: "¡Listo! Dilo tal cual" (Direct Output).
    • Si la respuesta es dudosa, dice: "Busquemos pruebas" (Search Verify).
    • Si la pregunta es muy difícil y requiere datos que no están en la foto (ej. "¿Quién fundó esta marca?"), dice: "¡Necesitamos investigar a fondo!" (RAG).

3. Los Agentes de Búsqueda (Los "Search Agents")

Aquí es donde el detective se pone manos a la obra. Tiene dos herramientas principales:

  • El Agente de Imágenes: Si la pregunta es sobre "¿Qué objeto es este?", el agente recorta la parte de la foto que importa y busca en una base de datos de millones de fotos similares para encontrar el nombre exacto del objeto.
  • El Agente de Texto: Si ya saben qué es el objeto pero necesitan saber su precio o historia, el agente va a "Google" (una base de datos de internet) y busca artículos, noticias y datos reales.

El truco: A veces, el detective divide una pregunta difícil en varias pequeñas. Si preguntas "¿Quién fundó la marca de este coche?", el sistema primero busca "¿Qué marca es este coche?" y luego busca "¿Quién fundó esa marca?". ¡Es como desarmar un rompecabezas pieza por pieza!

4. El Editor de Verdad (El "Reranker" y "Verifier")

El detective puede tener mucha información, pero mucha puede ser basura o irrelevante.

  • La analogía: Imagina que tienes 50 noticias sobre un coche. El Editor es como un editor de periódico que lee todo, tira las noticias falsas, deja solo las 3 más importantes y las ordena para que tengan sentido.
  • Qué hace el sistema: Revisa toda la información encontrada, la ordena de la más útil a la menos útil y, finalmente, un "juez" (otro modelo de IA) revisa si la respuesta final tiene sentido y si coincide con las pruebas. Si no está seguro, el sistema prefiere decir "No lo sé" en lugar de inventar una mentira.

¿Por qué es tan bueno?

En la competencia donde probaron este sistema (el KDD Cup 2025), QA-Dragon ganó porque:

  1. No alucina: No inventa datos. Si no sabe, busca o admite que no sabe.
  2. Es rápido y preciso: No pierde tiempo buscando en el lugar equivocado.
  3. Es flexible: Puede responder preguntas simples mirando solo la foto, o preguntas complejas buscando en internet y combinando ambas cosas.

En resumen:
QA-Dragon es como tener un asistente personal súper inteligente que sabe cuándo mirar sus notas, cuándo llamar a un experto, cuándo buscar en Google y, lo más importante, cuándo verificar que todo lo que dice es verdad antes de hablarte. ¡Y todo esto ocurre en segundos!