QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber manchmal etwas eingebildeten Freund, der alles über die Welt zu wissen glaubt. Das ist eine Multimodale KI (ein großes Sprachmodell, das Bilder und Text versteht). Wenn du ihn fragst: „Was ist das für ein Auto auf dem Foto?", antwortet er oft schnell und selbstbewusst. Aber wenn das Auto ein seltenes Modell ist oder du nach dem genauen Preis von vor fünf Jahren fragst, erfindet er sich die Antwort einfach aus – er „halluziniert".

Das ist das Problem, das die Forscher mit QA-Dragon lösen wollen. Sie haben eine Art „Super-Assistenten" gebaut, der nicht nur antwortet, sondern erst nachschaut, ob die Antwort stimmt.

Hier ist die Erklärung, wie QA-Dragon funktioniert, mit ein paar einfachen Vergleichen:

1. Der große Plan: Ein dynamisches Detektiv-Team

Stell dir QA-Dragon nicht als einen einzelnen Roboter vor, sondern als ein gut organisiertes Detektiv-Team, das für jeden Fall die richtigen Spezialisten heranzieht.

Wenn du eine Frage hast (z. B. „Wie viel kostet dieses blaue Auto?"), passiert Folgendes:

Schritt A: Der „Klassifizierer" (Domain Router)

Zuerst schaut sich ein Spezialist die Frage an und sagt: „Aha, das ist eine Frage über Autos."

Die Analogie: Stell dir vor, du kommst in ein riesiges Krankenhaus. Ein Pförtner (der Klassifizierer) entscheidet sofort, ob du zum Augenarzt, zum Herzspezialisten oder zum Orthopäden musst. Er weiß, dass man für Autofragen andere Bücher braucht als für Fragen über Essen.

Schritt B: Der „Überlegungs-Modus" (Pre-Answer & D-CoT)

Bevor das Team überhaupt etwas sucht, denkt der Chef-Detektiv kurz nach: „Kann ich das schon allein beantworten?"

Er schaut auf das Bild. Steht der Preis direkt auf dem Bild? Ja? Super, dann antworten wir sofort.
Nein? Dann muss er wissen: „Ich weiß es nicht sicher, ich muss nachforschen."
Die Analogie: Es ist wie bei dir, wenn du eine Frage im Kopf hast. Manchmal weißt du die Antwort sofort (z. B. „Wie viele Beine hat ein Hund?"). Manchmal musst du aber erst googeln („Wie hoch ist der Mount Everest genau?"). QA-Dragon merkt genau, wann es selbst weiß und wann es Hilfe braucht.

Schritt C: Der „Taktiker" (Search & Tool Router)

Jetzt kommt der spannende Teil. Das Team muss entscheiden: Wo suchen wir?

Sollten wir im Bild suchen? (Vielleicht ist das Auto ein spezielles Modell, das wir visuell erkennen müssen).
Sollten wir im Internet suchen? (Vielleicht brauchen wir technische Daten, die nicht auf dem Bild stehen).
Oder beides?
Die Analogie: Stell dir vor, du hast einen verirrten Brief. Der Taktiker entscheidet: „Soll ich den Brief beim Postamt (Text-Suche) nachschauen oder beim Fotografen (Bild-Suche), der das Bild gemacht hat?" Er wählt das richtige Werkzeug, damit man nicht Zeit verschwendet.

Schritt D: Die „Suche" (Image & Text Agents)

Jetzt gehen die Spezialisten los.

Der Bild-Sucher schaut sich ähnliche Autos an und findet heraus: „Das ist ein BMW M4!"
Der Text-Sucher geht ins Internet und findet heraus: „Ein BMW M4 kostet in diesem Jahr 80.000 Euro."
Die Analogie: Es ist wie ein Team von Bibliothekaren. Einer geht in die Bildergalerie, der andere in die Bücherabteilung. Sie holen genau die Informationen, die der Chef-Detektiv braucht.

Schritt E: Der „Qualitäts-Prüfer" (Reranker & Verifier)

Das ist vielleicht der wichtigste Teil. Oft finden die Sucher 50 Ergebnisse, aber nur 2 sind wirklich gut.

Der Qualitäts-Prüfer sortiert die Müll-Informationen aus und behält nur die besten Fakten.
Dann prüft ein Zweiter (der Verifier): „Stimmt das wirklich? Passt das zum Bild?" Wenn die KI unsicher ist, sagt sie lieber: „Ich weiß es nicht", als eine falsche Antwort zu erfinden.
Die Analogie: Stell dir vor, du hast 100 Zutaten für einen Kuchen gesammelt. Der Qualitäts-Prüfer ist der Koch, der sagt: „Nein, diese Tomate gehört nicht in den Schokoladenkuchen. Wir nehmen nur die Eier und das Mehl." Und am Ende schmeckt der Kuchen (die Antwort) perfekt.

Warum ist das so cool?

Frühere Systeme waren wie ein einäugiger Riese: Sie konnten entweder nur Bilder sehen ODER nur Texte lesen, aber nicht beides gut zusammenbringen. Wenn die Frage kompliziert war (z. B. „Vergleiche das Auto auf dem Foto mit dem Preis, der in diesem Artikel steht"), haben sie oft versagt.

QA-Dragon ist wie ein Schweizer Taschenmesser:

Es weiß, wann es nachschauen muss.
Es weiß, wo es nachschauen muss (Bild oder Text).
Es prüft, ob die Antwort sinnvoll ist.

Das Ergebnis

In einem großen Wettbewerb (dem KDD Cup 2025) hat QA-Dragon gezeigt, dass es viel weniger Fehler macht als andere KI-Systeme. Es antwortet nicht nur schneller, sondern vor allem richtiger, weil es nicht einfach ratet, sondern intelligent recherchiert.

Kurz gesagt: QA-Dragon ist der Freund, der nicht einfach nur „Ich denke mal, es ist rot" sagt, sondern erst kurz googelt, das Bild genau anschaut und dann sagt: „Nein, es ist ein 2025er Buick, und hier ist der Beweis."

QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

1. Der große Plan: Ein dynamisches Detektiv-Team

Schritt A: Der „Klassifizierer" (Domain Router)

Schritt B: Der „Überlegungs-Modus" (Pre-Answer & D-CoT)

Schritt C: Der „Taktiker" (Search & Tool Router)

Schritt D: Die „Suche" (Image & Text Agents)

Schritt E: Der „Qualitäts-Prüfer" (Reranker & Verifier)

Warum ist das so cool?

Das Ergebnis

1. Problemstellung

2. Methodik: Das QA-Dragon-Framework

A. Pre-Answer Module (Vorantwort-Modul)

B. Dynamisches Routing

C. Such-Agenten und Retrieval

D. Coarse-to-Fine Multimodal Reranker

E. Post-Answer Module

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

1. Der große Plan: Ein dynamisches Detektiv-Team

Schritt A: Der „Klassifizierer" (Domain Router)

Schritt B: Der „Überlegungs-Modus" (Pre-Answer & D-CoT)

Schritt C: Der „Taktiker" (Search & Tool Router)

Schritt D: Die „Suche" (Image & Text Agents)

Schritt E: Der „Qualitäts-Prüfer" (Reranker & Verifier)

Warum ist das so cool?

Das Ergebnis

1. Problemstellung

2. Methodik: Das QA-Dragon-Framework

A. Pre-Answer Module (Vorantwort-Modul)

B. Dynamisches Routing

C. Such-Agenten und Retrieval

D. Coarse-to-Fine Multimodal Reranker

E. Post-Answer Module

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

OraPO: Oracle-educated Reinforcement Learning for Data-efficient and Factual Radiology Report Generation

Stop Before You Fail: Operational Capability Boundaries for Mitigating Unproductive Reasoning in Large Reasoning Models

Seeing Straight: Document Orientation Detection for Efficient OCR

On the Existence and Behavior of Secondary Attention Sinks

GHaLIB: A Multilingual Framework for Hope Speech Detection in Low-Resource Languages