Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber etwas verstockten Schüler. Er hat in der Schule (dem Vor-Training) alles über die Welt gelernt: Bilder gesehen, Texte gelesen, Fakten gelernt. Aber jetzt kommt die große Prüfung: KB-VQA (Wissensbasierte Bildbeantwortung).

Die Aufgabe ist schwierig: Der Schüler sieht ein Bild (z. B. eine seltene Blume) und bekommt eine Frage dazu. Um die Antwort zu finden, muss er nicht nur das Bild verstehen, sondern auch schnell in einer riesigen Bibliothek (Wikipedia) nachschlagen.

Das Problem? Die Bibliothek ist chaotisch.

Der Bibliothekar (der Suchalgorithmus) bringt oft die falschen Bücher mit.
Die Bücher sind voller Fachbegriffe und Strukturen, die der Schüler in der Schule nie gesehen hat.
Wenn der Schüler versucht, aus dem Chaos die richtige Antwort zu finden, scheitert er oft. Er bekommt keine Punkte (keine Belohnung), weil er die Antwort nicht findet. Ohne Punkte lernt er nicht.

Hier kommt Wiki-R1 ins Spiel. Die Autoren dieses Papers haben eine geniale Methode entwickelt, um diesen Schüler nicht einfach ins kalte Wasser zu werfen, sondern ihn Schritt für Schritt zu einem Meister zu machen.

Die Idee: Ein personalisierter Lernplan (Curriculum)

Stell dir vor, du würdest jemandem das Skifahren beibringen. Würdest du ihn sofort auf den steilsten, schneebedeckten Gipfel werfen? Nein! Das wäre frustrierend.

Zuerst gibst du ihm eine flache Wiese.
Dann eine kleine Piste.
Dann eine mittlere Piste.
Und erst am Ende den steilen Gipfel.

Genau das macht Wiki-R1. Es ist ein Lernplan, der sich automatisch an die Fähigkeiten des Schülers anpasst.

Wie funktioniert das genau? (Die zwei Zaubertricks)

Wiki-R1 nutzt zwei Hauptwerkzeuge, um diesen Lernplan zu erstellen:

1. Der "Zauberschleuder"-Suchalgorithmus (Kontrollierte Datengenerierung)

Normalerweise sucht der Computer einfach los und bekommt zufällige, oft schlechte Ergebnisse. Wiki-R1 ist schlauer. Es sagt dem Suchalgorithmus: "Hey, bring mir heute nur die perfekten Bücher!"

Am Anfang (Leicht): Der Algorithmus wird angewiesen, nur das eine richtige Buch zu holen, das die Antwort enthält. Der Schüler kann die Antwort leicht finden und bekommt sofort Punkte. Er fühlt sich erfolgreich!
Mitte (Mittel): Der Algorithmus bringt das richtige Buch, aber auch noch 5 falsche Bücher dazu. Der Schüler muss jetzt schon ein bisschen suchen und filtern.
Am Ende (Schwer): Der Algorithmus bringt nur noch falsche Bücher und vielleicht eines, das fast richtig ist. Der richtige Buchtitel ist gar nicht dabei. Jetzt muss der Schüler wirklich nachdenken und die richtigen Informationen aus dem Chaos filtern.

Das System passt diesen Schwierigkeitsgrad automatisch an. Wenn der Schüler die "flache Wiese" gemeistert hat, wird die Piste steiler. So wird die Lücke zwischen dem, was er in der Schule gelernt hat, und der harten Realität der Prüfung überbrückt.

2. Der "Spürhund" für schwierige Fragen (Curriculum Sampling & Beobachtungs-Propagation)

Selbst mit dem perfekten Lernplan gibt es ein Problem: Manchmal ist der Schüler bei einer Frage so verwirrt, dass er gar keine Antwort gibt, oder er rät einfach. Dann weiß das System nicht, ob die Frage zu schwer oder zu leicht war.

Wiki-R1 nutzt hier einen cleveren Trick, den sie "Beobachtungs-Propagation" nennen. Stell dir vor, du hast eine Klasse von Schülern.

Du siehst, dass Schüler A eine Frage über "Tiger" richtig beantwortet hat.
Du weißt, dass "Tiger" und "Löwen" ähnliche Bücher in der Bibliothek haben.
Also schließt du: "Wenn Schüler A Tiger verstanden hat, wird er wahrscheinlich auch Löwen verstehen, auch wenn wir ihn noch nie Löwen haben antworten lassen."

Das System "verbreitet" also die Informationen über das, was der Schüler schon kann, auf Fragen, die er noch nicht gesehen hat. So weiß es immer genau, welche Fragen gerade perfekt für den Lernfortschritt sind – nicht zu leicht, nicht zu schwer, sondern genau richtig, um den Schüler voranzubringen.

Das Ergebnis

Am Ende dieses Trainings ist der Schüler nicht nur in der Lage, die schwierigen Fragen zu beantworten, sondern er versteht auch, wie man mit chaotischen Informationen umgeht.

In den Tests (auf den Datensätzen Encyclopedic VQA und InfoSeek) hat Wiki-R1 alle bisherigen Rekorde gebrochen.

Vorher: Die besten Modelle lagen bei etwa 35-40 % richtigen Antworten.
Mit Wiki-R1: Sie springen auf über 44 % (und bei besonders schwierigen Fragen sogar auf fast 48 %).

Zusammenfassung in einem Satz

Wiki-R1 ist wie ein genialer Lehrer, der einem KI-Modell nicht einfach eine riesige, unübersichtliche Bibliothek vor die Nase setzt, sondern ihm erst die leichtesten Bücher gibt, dann langsam mehr Rauschen hinzufügt und dabei genau beobachtet, welche Fragen den Schüler gerade am meisten fördern – und so aus einem verwirrten Anfänger einen wissenden Experten macht.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Knowledge-Based Visual Question Answering (KB-VQA) ist eine komplexe multimodale Aufgabe, bei der ein Modell Fragen zu einem Bild beantworten muss, indem es externes Wissen (z. B. aus Wikipedia) integriert. Der aktuelle Ansatz nutzt oft Retrieval-Augmented Generation (RAG), bei dem ein Retriever relevante Textpassagen sucht und ein Generator die Antwort formuliert.

Die Herausforderungen für vortrainierte Multimodale Large Language Models (MLLMs) sind:

Rauschen im Retrieval: Die zurückgegebenen Informationen sind oft unvollständig oder irrelevant.
Strukturierter, enzyklopädischer Charakter: Das Wissen liegt in einer strukturierten Form vor, die sich stark vom Trainingsverteilungsgebiet der Modelle unterscheidet.
Verstärkendes Lernen (RL) und Belohnungssparsamkeit: Bei der Anwendung von RL-Methoden (wie DAPO) zur Nachschulung (Post-Training) zeigt sich ein massives Problem: Über 80 % der Trainingsbeispiele liefern eine Null-Advantage (kein Lernsignal), und die Trainingsgenauigkeit bleibt extrem niedrig (ca. 10 %). Dies liegt an der großen Verteilungslücke zwischen den Vortrainingsdaten und der Zielaufgabe KB-VQA, was zu einem instabilen Lernprozess führt.

2. Methodik: Wiki-R1

Die Autoren stellen Wiki-R1 vor, ein Curriculum-Reinforcement-Learning-Framework, das auf Daten-Generierung und Sampling-Strategien basiert, um die Reasoning-Fähigkeiten von MLLMs systematisch zu verbessern. Das Framework besteht aus zwei eng gekoppelten Komponenten:

A. Kontrollierte Curriculum-Datengenerierung (Controllable Curriculum Data Generation)

Anstatt statische Daten zu verwenden, manipuliert Wiki-R1 den Retriever, um Trainingsdaten mit kontrollierbarem Schwierigkeitsgrad zu generieren. Dies schließt die Lücke zwischen Vortraining und Zielverteilung schrittweise:

Schwierigkeitslevel ( $g$ ): Es wird ein diskretes Level $g \in \{0, \dots, G\}$ $g \in {0, \dots, G}$ definiert.
- Leicht ( $g=0$ ): Der Retriever liefert nur das exakte Ground-Truth-Artikel-Snippet (kein Rauschen).
- Mittel: Es werden Ground-Truth-Snippets mit zunehmend mehr irrelevanten Kandidaten gemischt.
- Schwer ( $g=G$ ): Der Retriever liefert keine Garantie mehr für das Ground-Truth-Snippet (vollständige Übereinstimmung mit der Inferenz-Verteilung).
Adaptive Anpassung: Der Schwierigkeitsgrad wird basierend auf der aktuellen Trainingsgenauigkeit des Modells erhöht. Sobald die Genauigkeit über einem Schwellenwert ( $\tau$ ) liegt, wird das Level erhöht, um das Modell schrittweise an komplexere Szenarien heranzuführen.

B. Curriculum-Sampling mit Beobachtungspropagation (Curriculum Sampling with Observation Propagation)

Da generierte Daten nicht immer dem gewünschten Schwierigkeitsgrad entsprechen und RL-Belohnungen oft spärlich sind, wird eine intelligente Sampling-Strategie eingeführt:

Ziel: Auswahl von Beispielen, die wahrscheinlich eine nicht-null Advantage liefern (d. h. Beispiele, die das Modell gerade lernen kann, aber noch nicht perfekt beherrscht).
Beobachtungspropagation: Um die Schwierigkeit von unbeobachteten Beispielen zu schätzen, wird ein Label-Propagation-Graph über die VQA-Beispiele konstruiert. Die Kantengewichte basieren auf der Ähnlichkeit der zugehörigen Wissensdatenbank-Artikel.
Mechanismus: Beobachtete Belohnungen (Rewards) werden über diesen Graphen auf unbeobachtete Beispiele propagiert. Dies ermöglicht eine zuverlässige Schätzung der Schwierigkeit auch bei sehr wenigen direkten Beobachtungen und verhindert, dass das Modell nur auf eine kleine Teilmenge von Beispielen trainiert wird.

3. Wichtige Beiträge

Wiki-R1 Framework: Ein neuartiges, datengenerierungsbasiertes Curriculum-RL-Framework, das Reasoning in MLLMs für KB-VQA durch eine Kombination aus Daten- und Sampling-Curriculum fördert.
Kontrollierte Verteilungsanpassung: Die Fähigkeit, den Retrieval-Prozess so zu steuern, dass eine sequenzielle Abfolge von Trainingsverteilungen entsteht, die sich dynamisch an die wachsenden Fähigkeiten des Modells anpassen.
Beobachtungspropagation: Eine innovative Methode zur Schätzung der Probenschwierigkeit durch Propagierung von Reward-Signalen in einem Wissensgraphen, was das Problem der spärlichen Belohnungen in RL effektiv löst.
State-of-the-Art Ergebnisse: Demonstration, dass das System in stark verrauschten Retrieval-Szenarien überlegene Reasoning-Fähigkeiten entwickelt.

4. Ergebnisse

Das Framework wurde auf zwei etablierten Benchmarks evaluiert: Encyclopedic VQA (EVQA) und InfoSeek.

Leistung: Wiki-R1 erzielt neue State-of-the-Art-Ergebnisse:
- Encyclopedic VQA: Steigerung der Genauigkeit von 35,5 % auf 37,1 %.
- InfoSeek: Steigerung der Genauigkeit von 40,1 % auf 44,1 %.
- Unseen-Question (InfoSeek): Besonders beeindruckende Generalisierung mit 47,8 % Genauigkeit auf bisher unbekannten Fragen.
Vergleich: Die Methode übertrifft sowohl Zero-Shot-MLLMs als auch bestehende RAG-Ansätze (wie Wiki-LLaVA, ReflectiVA, EchoSight).
Effizienz: Wiki-R1 erreicht diese Ergebnisse mit nur 40.000 Trainingsbeispielen (20k EVQA + 20k InfoSeek), während vergleichbare Methoden oft Hunderttausende oder Millionen von Datenpunkten benötigen.
Stabilität: Im Gegensatz zu Baselines (z. B. DAPO ohne Curriculum), die bei fortschreitendem Training auf schwierigen Datensätzen (EVQA) an Leistung verlieren (Overfitting auf einfachere Daten), zeigt Wiki-R1 stabile Verbesserungen bis zum höchsten Schwierigkeitslevel.

5. Bedeutung und Fazit

Wiki-R1 adressiert ein fundamentales Problem beim Training von MLLMs für wissensbasierte Aufgaben: die Verteilungslücke und die daraus resultierende Sparsamkeit von RL-Belohnungen.

Paradigmenwechsel: Statt nur bessere Retriever zu trainieren oder statische Daten zu nutzen, nutzt Wiki-R1 die Kontrolle über die Datengenerierung, um den Lernprozess zu steuern.
Robustheit: Das System ist robust gegenüber Rauschen im Retrieval und generalisiert hervorragend auf neue Fragen und Domänen.
Ressourceneffizienz: Durch die curriculäre Steuerung und das intelligente Sampling wird die Trainingszeit und der Datenbedarf drastisch reduziert, was die Methode für ressourcenbeschränkte Umgebungen attraktiv macht.

Zusammenfassend bietet Wiki-R1 einen prinzipiellen Ansatz, um Retrieval und Reinforcement Learning in multimodalen Szenarien mit Verteilungslücken zu integrieren, und setzt neue Maßstäbe für die Fähigkeit von KI-Modellen, unter unsicheren Bedingungen logisch zu schlussfolgern.