MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een detective bent die een raadsel moet oplossen, maar dit raadsel bestaat uit twee verschillende soorten bewijs: een foto en een krantenartikel. Je taak is om te ontdekken wat de relatie is tussen een persoon op de foto en een woord in de tekst.

Deze taak heet MORE (Multimodal Object-Entity Relation Extraction). Het klinkt simpel, maar voor computers is het enorm lastig.

Hier is hoe de onderzoekers van dit paper, MORE-R1, een slimme oplossing hebben bedacht, vertaald naar alledaags taal:

1. Het Probleem: De "Blinde" Computer

Vroeger probeerden computers dit op twee manieren:

De "Gokker": De computer keek naar de foto en tekst en giste direct een antwoord (zoals "vrienden" of "rivalen"). Dit werkte vaak niet goed bij moeilijke situaties.
De "Lijstjes-Lezer": De computer had een vaste lijst met mogelijke antwoorden. Als er een nieuw soort relatie was die niet op die lijst stond, kon de computer het niet zien.

Het probleem was dat deze computers niet dachten. Ze gisten alleen. Ze zagen niet waarom iets zo was.

2. De Oplossing: MORE-R1 (De Slimme Detective)

De auteurs hebben MORE-R1 bedacht. Dit is een computermodel dat niet direct antwoordt, maar eerst stap-voor-stap redeneert, net als een menselijke detective. Ze noemen dit "Stepwise Reasoning".

Om dit te leren, gebruiken ze een twee-trapsraket:

Trap 1: De "Koude Start" (Leren van een Meester)

Stel je voor dat je een jonge detective bent die nog nooit een zaak heeft opgelost. Je kunt niet zomaar beginnen met de moeilijkste moordzaken. Je hebt een mentor nodig.

In dit stadium gebruiken de onderzoekers een heel slim AI-model (een "expert", zoals GPT-4o) om voorbeelden te maken.
Deze mentor schrijft voor elke foto en tekst een oplossingsplan op:
1. Kijk naar de foto: "Dat is een basketballer in een groen shirt."
2. Kijk naar de tekst: "Daar staat 'Heat' en 'Celtics'."
3. Koppel ze: "De speler hoort bij de Celtics."
4. Conclusie: "Celtics en Heat zijn rivaalteams."
De jonge detective (MORE-R1) leert dit patroon na te bootsen. Hij leert niet wat het antwoord is, maar hoe hij er moet komen.

Trap 2: Reinforcement Learning (Oefenen met een Trainer)

Nu dat de detective het patroon kent, moet hij nog scherper worden. Hiervoor gebruiken ze een trainingsmethode genaamd Reinforcement Learning (versterkend leren).

De computer krijgt een vraag en mag 8 keer een antwoord bedenken.
Een "trainer" (een regelsysteem) kijkt of het antwoord goed is.
- Beloning 1: Heb je de stappen gevolgd? (Format)
- Beloning 2: Heb je goed nagedacht en niet te snel geantwoord? (Lengte)
- Beloning 3: Is het eindantwoord correct? (Juistheid)
Als de computer goed doet, krijgt hij een "hup" (beloning). Als hij fouten maakt, krijgt hij geen punten. Zo leert hij zichzelf steeds beter te worden.

3. De Slimme Truc: De "Progressieve Mengmethode"

Dit is het meest creatieve deel van het verhaal.

Stel je voor dat je een sporter traint. Als je hem direct de zwaarste berg opstuurt, valt hij uit. Als je alleen maar op het veldje loopt, wordt hij niet sterker. Je moet geleidelijk opbouwen.

Het probleem: De meeste oefenvragen zijn makkelijk. Als je de computer alleen maar makkelijke vragen geeft, wordt hij lui en denkt hij niet na.
De oplossing: De onderzoekers hebben een strategie bedacht waarbij ze beginnen met een mix van makkelijke en moeilijke vragen.
- Aan het begin: 50% makkelijk, 50% moeilijk.
- Naarmate de training vordert: Ze voegen steeds meer moeilijke vragen toe en minder makkelijke.
Dit zorgt ervoor dat de computer eerst zijn basisvaardigheden veilig stelt, en zich dan langzaam op de "harde knopen" richt. Het is alsof je een leerling eerst laat rennen op een vlakke weg, en hem daarna langzaam de heuvels in stuurt.

Waarom is dit belangrijk?

Met deze methode (MORE-R1) slaat de computer alle andere methoden.

Hij is slimmer: Hij begrijpt complexe situaties (zoals twee teams die tegen elkaar spelen) beter.
Hij is transparanter: Je kunt zien hoe hij tot zijn conclusie komt (de stappen die hij zet), in plaats van dat hij zomaar een antwoord giet.
Hij is flexibel: Hij kan nieuwe soorten relaties leren zonder dat je de hele computer opnieuw hoeft te bouwen.

Kortom: MORE-R1 is een computer die niet meer raadt, maar eerst goed nadenkt, een plan maakt, en zich door slimme training steeds beter leert aanpassen aan de moeilijkste raadsels.

Each language version is independently generated for its own context, not a direct translation.

tags en antwoord in` tags) volgen.
* Length Reward: Het model wordt beloond voor grondige redenering (tekstlengte > 1024 tokens) om haastige conclusies te voorkomen.
* Answer Reward: Het model krijgt een beloning als de uiteindelijke relatiecorrect is.

Progressive Sample-Mixing Strategy: Dit is een cruciale innovatie. In plaats van alle resterende data gelijkmatig te gebruiken, worden de data verdeeld in "makkelijke" en "moeilijke" samples (gebaseerd op prestaties na Stap 1).
- Tijdens het RL-training verandert de verhouding van makkelijke naar moeilijke samples in elke mini-batch geleidelijk.
- Aan het begin is de verhouding 1:1. Naarmate de training vordert, neemt het aandeel moeilijke samples toe (decay factor $\alpha$ ).
- Dit voorkomt dat het model overfit op makkelijke patronen en helpt het om effectieve redeneerpaden voor complexe gevallen te ontdekken zonder instabiel te worden.

Belangrijkste Bijdragen

MORE-R1 Architectuur: Het eerste model dat LVLM's succesvol toepast op de MORE-taak via een generatie-gebaseerde aanpak met expliciete redenering, in plaats van classificatie.
Efficiënte Data Constructie: Een strategie om automatisch hoogwaardige, stapsgewijze redeneringsdata te genereren met behulp van een expert-model voor SFT.
Progressive Sample-Mixing Strategy: Een nieuwe RL-strategie die de training stabiliseert en de prestaties op uitdagende gevallen verbetert door de moeilijkheidsgraad van de trainingsdata dynamisch aan te passen.
State-of-the-Art Prestaties: Het model bereikt nieuwe records op de MORE-benchmark, wat bewijst dat LVLM's met de juiste training en redeneringsstrategieën superieur zijn aan bestaande classificatiemethoden.

Resultaten

De experimenten zijn uitgevoerd op de standaard MORE-benchmark (20.264 samples).

Prestatie: MORE-R1 behaalt een F1-score van 67,80, wat een significante verbetering is ten opzichte van de huidige SOTA-classificatiemethode (REMOTE, F1 63,91) en generatiemethoden zonder redenering (Qwen2.5-VL-SFT, F1 59,56).
Verbetering: Ten opzichte van REMOTE is er een verbetering van +6,1% op de F1-score en +8,0% op Recall.
Ablatie Studies:
- Alleen Stap 1 (SFT) levert al een sterke prestatie op (F1 62,69), wat aantoont dat het redeneringsparadigma effectief is.
- De toevoeging van Stap 2 (RL) met de Progressive Sample-Mixing Strategy ( $\alpha=0.5$ ) levert de beste resultaten op. Varianten waarbij alleen moeilijke samples werden gebruikt ( $\alpha \to 0$ ) of alle samples gemengd bleven ( $\alpha=1$ ), presteerden slechter, wat de noodzaak van de dynamische strategie bevestigt.
Case Studies: Visuele voorbeelden tonen aan dat MORE-R1 in staat is om subtiele, impliciete tegenstrijdigheden (bijv. "opposed to" tussen teams) te begrijpen, terwijl basismodellen hierin falen of foute entiteitstypes toekennen.

Significantie

Dit paper markeert een belangrijke verschuiving in het veld van multimodale informatie-extractie. Het demonstreert dat:

Redenering essentieel is: Voor complexe multimodale taken is directe labelgeneratie ontoereikend; expliciete stapsgewijze redenering is nodig om nauwkeurigheid te verhogen.
RL effectief is voor LVLM's: Door Reinforcement Learning (specifiek GRPO) te combineren met een zorgvuldig ontworpen beloningssysteem en data-strategie, kunnen LVLM's hun redeneervermogen voor specifieke domeinen aanzienlijk verbeteren.
Schaalbaarheid: Generatie-gebaseerde methoden bieden een schaalbaarder alternatief voor classificatie, omdat ze niet afhankelijk zijn van een starre set van vooraf gedefinieerde klassen en nieuwe relaties beter kunnen generaliseren.

Samenvattend biedt MORE-R1 een robuust framework voor het oplossen van complexe cross-modale redeneertaken, met directe toepassingen in kennisgrafiek-construktie, cross-modale zoekopdrachten en geavanceerde informatie-extractie.

MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

1. Het Probleem: De "Blinde" Computer

2. De Oplossing: MORE-R1 (De Slimme Detective)

Trap 1: De "Koude Start" (Leren van een Meester)

Trap 2: Reinforcement Learning (Oefenen met een Trainer)

3. De Slimme Truc: De "Progressieve Mengmethode"

Waarom is dit belangrijk?

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

Network Slicing in 5G Mobile Communication Architecture, Profit Modeling, and Challenges

Pwned: How Often Are Americans' Online Accounts Breached?

Excess demand in public transportation systems: The case of Pittsburgh's Port Authority

Implicit Biases in Refereeing: Lessons from NBA Referees

BOPIM: Bayesian Optimization for influence maximization on temporal networks