QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

Il paper presenta QA-Dragon, un sistema RAG dinamico e consapevole della query che integra agenti di ricerca testuale e visiva per migliorare il ragionamento multimodale e multi-hop nelle domande visive basate su conoscenze, ottenendo risultati significativi nella sfida Meta CRAG-MM del KDD Cup 2025.

Zhuohang Jiang, Pangjing Wu, Xu Yuan, Wenqi Fan, Qing Li

Pubblicato 2026-03-17
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un assistente personale super-intelligente (chiamiamolo "Il Drago") che deve rispondere a domande su una foto che gli mostri. Il problema è che a volte il Drago è molto bravo a "inventare" risposte (allucinazioni) perché non sa tutto, o perché la foto da sola non basta a spiegare tutto.

QA-Dragon è un sistema che insegna a questo Drago a non inventare, ma a cercare la verità prima di parlare. Ecco come funziona, passo dopo passo, usando delle metafore quotidiane:

1. Il Problema: Il Drago che "Sogna"

Prima, se chiedevi a un'IA: "Che marca è questa auto nella foto?", lei guardava l'immagine e tirava a indovinare basandosi su ciò che aveva imparato in passato. Se non era sicura, spesso inventava una marca che sembrava plausibile ma che era sbagliata. Era come un turista che risponde a una domanda in una città straniera basandosi solo su ciò che ha letto su Wikipedia anni prima, senza guardare i cartelli stradali o chiedere ai locali.

2. La Soluzione: Il Drago con la "Bussola" e la "Mappa"

QA-Dragon dà al Drago due strumenti magici: una Bussola (per capire di cosa si parla) e una Mappa (per cercare informazioni aggiornate).

Passo 1: La Bussola (Il "Domain Router")

Prima di rispondere, il Drago chiede a se stesso: "Di cosa stiamo parlando? È cibo? È un'auto? È un libro?".

  • Metafora: È come entrare in un grande magazzino. Se chiedi "Dov'è il latte?", non vai nel reparto dei vestiti. Il Drago usa questa bussola per capire in quale "reparto" della conoscenza deve cercare. Se la domanda è su un'auto, attiva il suo "cervello da meccanico"; se è su un piatto di pasta, attiva il "cervello da chef".

Passo 2: La Scelta della Strada (Il "Search Router")

Una volta capito l'argomento, il Drago si chiede: "Devo cercare informazioni fuori o posso rispondere subito?".

  • Risposta Diretta: Se la risposta è scritta chiaramente sulla foto (es. "Cosa c'è scritto su questo cartello?"), il Drago risponde subito. Non perde tempo.
  • Verifica: Se la risposta è incerta (es. "Quanto costa questa auto?"), il Drago decide di andare a controllare.
  • Ricerca Completa: Se la domanda è complessa (es. "Chi ha fondato il marchio di questa auto?"), il Drago sa che la foto non basta e deve fare una vera ricerca.

Passo 3: Gli Esploratori (Gli Agenti di Ricerca)

Qui il sistema diventa geniale. Non usa un solo modo per cercare, ma ne usa due in base alla necessità:

  • L'Esploratore Visivo (Image Search): Se il Drago vede un oggetto ma non ne conosce il nome, manda l'Esploratore Visivo a cercare foto simili nel database per capire: "Ah, questa è una BMW M4!".
  • L'Esploratore Testuale (Text Search): Una volta capito che è una BMW M4, l'Esploratore Testuale va su internet (o su un database di notizie) per trovare i dettagli che la foto non mostra: "Quanto costa? Quando è uscita? Chi l'ha inventata?".

Passo 4: Il Filtro d'Oro (Il "Reranker")

Immagina di aver fatto una ricerca su Google e di aver trovato 50 risultati. Molti sono spazzatura o pubblicità.
Il Drago ha un Filtro d'Oro che legge tutte queste 50 risposte e ne sceglie solo le 3 migliori e più pertinenti. Non si fida di tutto ciò che trova, ma seleziona solo le prove solide per costruire la sua risposta finale.

Passo 5: Il Controllo di Qualità (Il "Verifier")

Prima di consegnare la risposta al cliente, il Drago si fa un ultimo controllo: "Sono sicuro al 100%? Ho le prove?".
Se la risposta sembra un po' "tirata" o non supportata dalle prove trovate, il Drago ha il coraggio di dire: "Non lo so con certezza" invece di inventare una bugia.

Perché è così speciale?

La vera magia di QA-Dragon è che non è rigido.

  • Se la domanda è semplice, risponde subito (veloce).
  • Se la domanda è difficile, attiva tutti gli esploratori (preciso).
  • Se la domanda richiede di collegare più pezzi di informazioni (es. "Confronta il prezzo di questa auto con quella del 2020"), sa fare questo ragionamento a più livelli.

In sintesi

QA-Dragon è come un investigatore privato che non si accontenta di guardare la scena del crimine (la foto).

  1. Capisce di che tipo di caso si tratta (Bussola).
  2. Decide se basta guardare o se serve indagare (Scelta della strada).
  3. Chiede aiuto a esperti visivi e testuali (Esploratori).
  4. Filtra le testimonianze per trovare la verità (Filtro).
  5. Verifica che la storia abbia senso prima di parlarne (Controllo).

Grazie a questo sistema, il Drago commette molte meno "bugie" (allucinazioni) e fornisce risposte molto più accurate, specialmente quando si tratta di domande complesse che richiedono conoscenze aggiornate o dettagli specifici che non sono visibili a occhio nudo.