MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber etwas naiven Assistenten (das ist unser KI-Modell). Dieser Assistent kann Bilder sehen und Texte lesen. Seine Aufgabe ist es, eine Beziehung zwischen einem Objekt auf einem Bild (z. B. ein Basketballspieler) und einem Namen im Text (z. B. "Heat", eine andere Mannschaft) zu finden.

Das Problem: Der Assistent ist oft zu schnell und macht Fehler. Er rät einfach, weil er die feinen Details nicht versteht. Die Forscher von MORE-R1 haben ihm jetzt einen neuen Trainingsplan gegeben, damit er zum echten Meister wird.

Hier ist die Geschichte, wie sie das gemacht haben, ganz einfach erklärt:

1. Das Problem: Der "Rat-und-Versteck"-Spieler

Bisherige Methoden waren wie jemand, der ein Rätsel löst, indem er einfach blind auf eine Tür zeigt und hofft, dass dahinter die richtige Antwort ist.

Der alte Weg: Der Assistent sah das Bild und den Text und sagte sofort: "Ich denke, es ist 'Freunde'!" (ohne zu wissen, warum).
Das Ergebnis: Bei einfachen Aufgaben ging das. Aber bei kniffligen Fällen (z. B. zwei Teams, die gegeneinander spielen, aber der Text sagt nur "Heat und Celtics") rutschte er oft daneben. Er konnte nicht denken, er konnte nur raten.

2. Die Lösung: MORE-R1 (Der "Schritt-für-Schritt"-Meister)

Die Forscher haben dem Assistenten beigebracht, nicht nur das Ergebnis zu nennen, sondern laut zu denken, bevor er antwortet. Sie nennen das "Stepwise Reasoning" (schrittweises Nachdenken).

Stell dir vor, du lernst Schach. Früher hast du einfach den Zug gemacht. Jetzt musst du erst laut sagen: "Ich sehe, dass der Gegner bedroht ist. Ich sehe, dass mein König in Sicherheit ist. Also ziehe ich hierher."

MORE-R1 macht genau das. Es zwingt das Modell, einen 6-Schritte-Plan zu durchlaufen, bevor es die Antwort gibt:

Was sehe ich? (Beschreibe das Bild.)
Was sagt der Text? (Verstehe den Kontext.)
Wie hängen sie zusammen? (Verbinde Bild und Text.)
Wer ist wer? (Ist das eine Person? Eine Firma? Ein Ort?)
Was ist möglich? (Welche Antworten kommen überhaupt infrage?)
Die finale Entscheidung. (Was ist die korrekte Antwort?)

3. Der Trainingsplan: Zwei Phasen

Um diesen Assistenten so schlau zu machen, gab es zwei Trainingsphasen:

Phase 1: Der "Kaltstart" (Das Lernen am Beispiel)

Zuerst haben die Forscher dem Assistenten eine Handvoll sehr guter Beispiele gegeben, bei denen ein Experte (eine noch stärkere KI, GPT-4o) den kompletten Denkprozess vorgeführt hat.

Die Analogie: Stell dir vor, ein Schachgroßmeister zeigt einem Anfänger, wie man ein Spiel gewinnt, und erklärt dabei jeden einzelnen Zug laut. Der Anfänger (unser Modell) lernt daraus: "Aha, so muss man denken!"
Das Ergebnis: Der Assistent kann jetzt langsam und strukturiert denken, aber er ist noch nicht perfekt.

Phase 2: Der "Reinforcement Learning" (Das Training durch Belohnung)

Jetzt wird es spannend. Der Assistent spielt gegen sich selbst.

Die Analogie: Stell dir einen Trainer vor, der dem Assistenten Aufgaben gibt.
- Wenn der Assistent die Antwort falsch rät, gibt es eine rote Karte (keine Belohnung).
- Wenn er richtig denkt, aber die Antwort falsch ist, gibt es eine gelbe Karte.
- Wenn er richtig denkt UND die Antwort richtig ist, gibt es einen goldenen Stern.
Der Clou (Progressive Sample-Mixing): Am Anfang bekommt der Assistent nur leichte Aufgaben (wie "Was ist das für ein Tier?"). Wenn er das gut kann, mischt der Trainer langsam schwierigere Aufgaben unter (wie "Warum spielen diese zwei Teams gegeneinander?").
- Würde man sofort nur die schweren Aufgaben geben, würde der Assistent frustriert aufgeben.
- Würde man nur leichte geben, würde er nie lernen, schwierige Fälle zu lösen.
- MORE-R1 mischt sie clever: Erst leicht, dann immer schwieriger. So wird der Assistent zum Champion.

4. Das Ergebnis: Ein neuer Weltrekord

Am Ende des Trainings war der Assistent (MORE-R1) so gut, dass er alle bisherigen Methoden in einem großen Test (dem MORE-Benchmark) geschlagen hat.

Warum? Weil er nicht mehr nur rät. Er versteht die Zusammenhänge. Er weiß, dass ein Spieler in einem Trikot mit "Celtics" auf dem Bild und der Erwähnung von "Heat" im Text bedeutet, dass diese beiden Teams Gegner sind, nicht Freunde.

Zusammenfassung in einem Satz

MORE-R1 ist wie ein Schüler, der nicht mehr nur die Antwort auswendig lernt, sondern erst lernt, wie man logisch denkt (Phase 1) und dann durch gezieltes Training an immer schwierigeren Aufgaben (Phase 2) zum Experten wird, der komplexe Rätsel aus Bildern und Texten mühelos löst.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning" auf Deutsch:

1. Problemstellung

Die Multimodale Objekt-Entitäts-Relationsextraktion (MORE) ist eine komplexe Aufgabe im Bereich der Informationsextraktion. Das Ziel besteht darin, die semantische Beziehung zwischen einem visuellen Objekt (definiert durch einen Bounding Box in einem Bild) und einem textuellen Entität (aus einem Begleittext) zu identifizieren.

Herausforderungen: Die Aufgabe erfordert tiefes multimodales Verständnis und cross-modales Reasoning (z. B. muss das Modell erkennen, dass ein Spieler im Bild zur Mannschaft „Celtics" gehört und die im Text genannte „Heat" eine gegnerische Mannschaft ist, um die Relation „opposed_to" abzuleiten).
Limitationen bestehender Methoden:
- Klassifikationsbasierte Ansätze: Nutzen oft kleine VLMs und einen Klassifikator. Sie leiden unter mangelnder Skalierbarkeit (neue Relationstypen erfordern Neu-Training) und können komplexe Szenarien oder leicht verwechselbare Relationen schlecht unterscheiden.
- Generative Ansätze ohne Reasoning: Direktes Generieren von Labels durch Large Vision-Language Models (LVLMs) führt oft zu schlechten Ergebnissen, da diese Modelle während des Pre-Trainings wenig auf Relationsextraktion spezialisiert sind und keine Transparenz im Entscheidungsprozess bieten.

2. Methodik: MORE-R1

Das vorgeschlagene Modell MORE-R1 ist ein generativer Ansatz, der ein LVLM (basierend auf Qwen2.5-VL) als Backbone nutzt und explizites, schrittweises Reasoning (Chain-of-Thought) durch ein zweistufiges Trainingsverfahren integriert.

Stufe 1: Cold-Start Training (Supervised Fine-Tuning - SFT)

Ziel ist es, dem LVLM ein grundlegendes Reasoning-Paradigma für die MORE-Aufgabe beizubringen.

Automatischer Datenaufbau: Da manuelle Annotation von Reasoning-Schritten aufwendig ist, wird ein Expert-Modell (GPT-4o) eingesetzt, um hochwertige Trainingsdaten zu generieren.
Struktur des Reasonings: Die Daten folgen einem sechsstufigen Prozess:
1. Bild- und Objektanalyse.
2. Bewertung der cross-modalen Relevanz.
3. Ausrichtung (Alignment) von visuellen Objekten und textuellen Entitäten.
4. Identifikation der Entitätstypen (Person, Organisation, Ort, Sonstiges).
5. Vorfilterung möglicher Relationstypen basierend auf den Entitätstypen.
6. Finale Bestimmung der Relation.
Training: Das LVLM wird auf diesen generierten Daten mit SFT trainiert, um dieses schrittweise Denkmuster zu erlernen.

Stufe 2: Reinforcement Learning (RL)

Ziel ist die Optimierung der Reasoning-Fähigkeiten, insbesondere bei schwierigen Fällen.

Algorithmus: Es wird Group Relative Policy Optimization (GRPO) verwendet. Dies ist ein On-Policy-Algorithmus, der keine separate Value-Model benötigt und stattdessen relative Vorteile innerhalb einer Gruppe von K generierten Antworten berechnet.
Reward-Funktion: Besteht aus drei Komponenten:
1. Format-Reward: Einhaltung des Reasoning-Templates.
2. Längen-Reward: Förderung eines gründlichen Denkprozesses (CoT).
3. Antwort-Reward: Korrektheit des finalen Relationstags.
Progressive Sample-Mixing Strategy: Ein zentrales novum des Papers. Anstatt alle verbleibenden Daten (die zu 79 % als „einfach" identifiziert wurden) sofort zu nutzen, wird das Verhältnis von einfachen zu schwierigen Beispielen im Training schrittweise angepasst.
- Zu Beginn wird ein Mix aus einfachen und schwierigen Beispielen verwendet (z. B. 1:1).
- Mit fortschreitendem Training (Epochen) wird der Anteil der schwierigen Beispiele erhöht (decay factor $\alpha$ ).
- Dies verhindert, dass das Modell in einfachen Mustern überfittet, und ermöglicht es ihm, schrittweise komplexe Reasoning-Pfade zu erkunden, ohne durch zu viele schwierige Beispiele am Anfang destabilisiert zu werden.

3. Wichtige Beiträge

MORE-R1 Framework: Der erste effektive Ansatz, der ein LVLM mit explizitem Reasoning und RL für die MORE-Aufgabe adaptiert.
Zweistufiges Training: Kombination aus SFT (für das Reasoning-Paradigma) und GRPO-basiertem RL (für die Optimierung).
Automatisierte Reasoning-Datengenerierung: Eine effiziente Strategie zur Erstellung von hochwertigen, schrittweisen Reasoning-Daten mittels GPT-4o, was manuellen Aufwand minimiert.
Progressive Sample-Mixing Strategy: Eine neue Methode im RL-Training, die die Lernkurve stabilisiert und die Leistung bei komplexen, schwierigen Beispielen signifikant verbessert, indem sie das Modell schrittweise an die Schwierigkeit heranführt.
State-of-the-Art (SOTA) Ergebnisse: Erzielung neuer Bestwerte auf dem MORE-Benchmark.

4. Ergebnisse

Die Evaluation erfolgte auf dem standardisierten MORE-Benchmark (20.264 Samples, 21 Relationstypen).

Performance: MORE-R1 übertrifft alle bestehenden State-of-the-Art-Methoden (sowohl klassifikationsbasierte wie REMOTE als auch generative Baselines).
- Gegenüber dem besten Klassifikationsmodell (REMOTE) konnte MORE-R1 die Genauigkeit (Accuracy) um 1,5 %, Precision um 4,2 %, Recall um 8,0 % und F1-Score um 6,1 % steigern.
- Gegenüber einer direkten SFT-Feinabstimmung ohne Reasoning (Qwen2.5-VL-SFT) wurde der F1-Score um 13,8 % verbessert.
Ablationsstudien:
- Das reine SFT (Stufe 1) erreicht bereits nahe an SOTA-Werte, zeigt aber, dass RL für die Feinjustierung bei komplexen Fällen notwendig ist.
- Die Progressive Sample-Mixing Strategy ( $\alpha=0.5$ ) erwies sich als überlegen gegenüber reinem Training auf harten Beispielen ( $\alpha \to 0$ ) oder zufälligem Mischen aller Daten (raw). Reines Training auf harten Beispielen führte zu einem Abfall bei der Genauigkeit, da das Modell Schwierigkeiten hatte, „keine Relation" (none) von echten Relationen zu unterscheiden.

5. Bedeutung und Fazit

MORE-R1 adressiert kritische Lücken in der multimodalen Relationsextraktion:

Transparenz: Durch das schrittweise Reasoning wird der Entscheidungsprozess des Modells nachvollziehbar (Interpretierbarkeit).
Skalierbarkeit: Als generatives Modell kann es neue Relationstypen lernen, ohne die Architektur neu zu definieren.
Komplexitätsbewältigung: Die Kombination aus schrittweisem Reasoning und dem progressiven RL-Ansatz ermöglicht es dem Modell, implizite semantische Zusammenhänge (wie Konkurrenz zwischen Teams) zu erfassen, die reinen Klassifikatoren oder direkten Generatoren entgehen.

Das Paper demonstriert, dass die Integration von Reinforcement Learning und strukturiertem Reasoning in LVLMs ein vielversprechender Weg ist, um komplexe multimodale Aufgaben zu lösen, die über einfache Mustererkennung hinausgehen.