RuCL: Stratified Rubric-Based Curriculum Learning for Multimodal Large Language Model Reasoning

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een heel slimme robot wilt leren om moeilijke wiskundige puzzels op te lossen, waarbij hij ook plaatjes moet begrijpen. Vroeger leerde je die robot door alleen te kijken naar het eindantwoord. Als het antwoord goed was, kreeg hij een beloning. Als het fout was, kreeg hij een straf.

Maar hier zit een addertje onder het gras: de robot leert dan vaak "trucs" om toch een goed antwoord te krijgen, zonder echt te begrijpen waarom het goed is. Hij kan bijvoorbeeld raden of een logische fout maken die per toeval uitkomt op het juiste getal. Dit noemen onderzoekers "reward hacking" (beloning hacken). Het is alsof een leerling die een proefwerk maakt, het antwoord op het einde van een boekje opzoekt, maar de sommen niet echt heeft uitgewerkt.

De auteurs van dit paper, RuCL, hebben een slimme oplossing bedacht. Ze vergelijken het trainen van deze robot met het opzetten van een speciaal schoolprogramma (een "curriculum"), maar dan op een heel nieuwe manier.

Hier is hoe het werkt, in drie simpele stappen:

1. De "Rubrieken" (De Checklijst)

In plaats van alleen te kijken naar het eindantwoord, maken ze een gedetailleerde checklijst (een rubriek) voor elke stap in het denkproces.

Stap 1: Heeft de robot de plaatjes goed gezien? (Bijvoorbeeld: "Zie ik een rode auto of een blauwe?")
Stap 2: Begrijpt hij de vraag?
Stap 3: Is de logica tussen de stappen kloppend?

2. Het Probleem: Alles tegelijk is te zwaar

Als je de robot direct al deze moeilijke checklijsten geeft, raakt hij in de war. Hij is nog niet goed genoeg in het zien van de plaatjes, en als je hem nu al straft voor een fout in de complexe logica, leert hij niks. Het is alsof je een beginnende zwemmer direct in de diepe oceaan gooit en hem straft als hij verdrinkt, terwijl hij nog niet eens kan drijven.

3. De Oplossing: RuCL (Het "Stap-voor-Stap" Systeem)

RuCL introduceert een strakke opbouw, net zoals een goede leraar dat zou doen:

Fase 1: De Basis (De "Drijflaag")
In het begin krijgt de robot alleen punten voor de simpele dingen. "Heb je de auto goed gezien? Ja? Top!" De robot bouwt zelfvertrouwen op en leert de basisvaardigheden. De moeilijke logica-questions worden hier nog genegeerd.
Fase 2: De Opbouw (Het "Dieper Water")
Zodra de robot laat zien dat hij de basis onder de knie heeft (hij drijft stabiel), schakelt het systeem automatisch over. Nu krijgt hij ook punten voor de logische stappen. "Heb je de som goed uitgewerkt?"
Fase 3: De Meester (De "Open Oceaan")
Uiteindelijk moet hij alles perfect doen: goed kijken, goed begrijpen én perfect logisch redeneren.

Waarom werkt dit zo goed?

Stel je voor dat je een speler in een computerspel bent.

De oude manier: Je krijgt een straf als je de eindbaas niet verslaat. Je probeert dan alles, ook rare trucs, om die straf te vermijden. Je wordt niet beter in het spel, je wordt alleen beter in het hacken.
De RuCL-methode: Je krijgt eerst een beloning als je de eerste 10 levels hebt gehaald. Pas als je die kunt, krijg je toegang tot de moeilijke levels. Je wordt stap voor stap sterker, zonder dat je overweldigd raakt.

Het Resultaat

Door deze slimme aanpak (waarbij ze de "beloningen" dynamisch aanpassen aan wat de robot op dat moment kan), leert de robot veel sneller en betrouwbaarder. In de tests bleek dat hun model (RuCL) veel beter werd in het oplossen van complexe visuele puzzels dan eerdere modellen. Het haalde zelfs een score die de beste open-source modellen van dat moment versloeg.

Kortom: RuCL leert robots niet alleen wat het antwoord is, maar hoe ze er moeten komen, door ze eerst de basis te laten beheersen voordat ze de zware logica aan moeten. Het is het verschil tussen een robot die "raadt" en een robot die echt "denkt".

Each language version is independently generated for its own context, not a direct translation.

Titel

RuCL: Gestratificeerde Rubric-gebaseerde Curriculum Learning voor Redenering in Multimodale Grootte Taalmodellen

1. Het Probleem

Multimodale Grootte Taalmodellen (MLLMs) hebben indrukwekkende vaardigheden ontwikkeld in complexe visuele redeneertaken. Een populaire methode om deze vaardigheden te verbeteren is Reinforcement Learning with Verifiable Rewards (RLVR), waarbij modellen worden getraind op basis van de juistheid van het eindantwoord.

Echter, deze aanpak heeft twee fundamentele beperkingen:

Reward Hacking: Modellen neigen naar het leren van schijnbare redeneerpatronen of oppervlakkige shortcuts om het eindantwoord correct te krijgen, zonder dat de tussenliggende redenering logisch of waarheidsgetrouw is. Dit leidt tot hallucinaties en tegenstrijdige stappen die per ongeluk het juiste antwoord opleveren.
Inefficiëntie van Bestaande Rubric-methoden: Recentere benaderingen gebruiken gedetailleerde beoordelingsrubrics (rubrics) om het redeneerproces te evalueren. Deze methoden lijden echter onder:
- Hoge rekenkosten: Het genereren van specifieke rubrics voor elk individueel voorbeeld (instance-level) is computatief zwaar.
- Ongeoptimaliseerde trainingsdynamiek: Bestaande methoden behandelen alle rubrics als even moeilijk. Hierdoor worden modellen gestraft voor complexe logische fouten voordat ze basisvaardigheden (zoals visuele perceptie) onder de knie hebben. Dit resulteert in ruis in de gradiënten en vertraagt de convergentie.

2. Methodologie: RuCL Framework

De auteurs stellen Stratified Rubric-based Curriculum Learning (RuCL) voor. In plaats van curriculum learning toe te passen op de data-selectie (zoals gebruikelijk), past RuCL curriculum learning toe op het ontwerp van de beloning (reward design).

Het framework bestaat uit twee fasen:

Fase I: Generalized Rubric Construction en Stratificatie

In plaats van voor elk voorbeeld nieuwe rubrics te genereren, creëert RuCL een set van generaliseerbare rubrics die toepasbaar zijn op diverse taken.

Generatie: Een "teacher" LLM genereert een pool van kandidaat-rubrics gebaseerd op taakcategorieën.
Filtering: Een "Judge" model evalueert deze rubrics op een steekproef van data om hun toepasbaarheid (hoe vaak zijn ze relevant?) en pass rate (hoe vaak slaagt het model ze?) te bepalen.
Stratificatie: Op basis van de pass rate worden de rubrics ingedeeld in twee niveaus:
- Fundamentele Rubrics ( $\mathcal{R}_{easy}$ ): Hoge pass rates, richten zich op basisvaardigheden (bijv. visuele aanwezigheid, entiteitsextractie, OCR-accuraatheid).
- Geavanceerde Rubrics ( $\mathcal{R}_{hard}$ ): Lage pass rates, richten zich op complexe redenering (bijv. logische coherentie, bewijsgronden, complexe deductie).
Theoretische Basis: De auteurs tonen aan dat rubrics met een lage pass rate een hoge variabiliteit (ruis) in de gradiënt hebben. Het trainen hierop in een vroeg stadium is inefficiënt.

Fase II: Dynamische Curriculum Learning

Tijdens het trainen (met GRPO - Group Relative Policy Optimization) wordt de beloning dynamisch aangepast:

Hybride Beloning: De totale beloning is een combinatie van een strikte regelgebaseerde controle van het eindantwoord en een gewogen som van de rubric-beloningen.
Stabiliteitsbewuste Scheduling: Een parameter $\lambda_t$ $λ_{t}$ regelt de balans tussen fundamentele en geavanceerde rubrics.
- Stabilisatiefase: $\lambda_t = 0$ . Het model focust uitsluitend op fundamentele rubrics. De overgang naar de volgende fase gebeurt pas wanneer de prestaties op deze basis consistent een drempelwaarde overschrijden (gecontroleerd via een schuifend venster).
- Opbouw (Ramp-up): Zodra de basis stabiel is, wordt $\lambda_t$ geleidelijk verhoogd (bijv. via een sigmoid functie) om de focus te verschuiven naar de geavanceerde rubrics.
- Consolidatie: Het model wordt volledig getraind op de combinatie van alle rubrics.

Dit zorgt ervoor dat het model eerst leert om de wereld correct waar te nemen voordat het wordt gevraagd om complexe logica toe te passen.

3. Belangrijkste Bijdragen

RuCL Framework: Een nieuw, beloningsgericht curriculum framework dat de moeilijkheidsgraad van rubrics dynamisch afstemt op de competentie van het model.
Data-gedreven Rubric Constructie: Een schaalbare pijplijn die generaliseerbare rubrics genereert en deze stratificeert op basis van empirische prestaties, wat de rekenkosten ten opzichte van instance-specifieke methoden drastisch verlaagt.
Uitgebreide Experimenten: Validatie op zeven verschillende benchmarks, waarbij RuCL state-of-the-art resultaten behaalt en de effectiviteit van de stratificatie en scheduling aantoont via ablatiestudies.

4. Resultaten

De auteurs hebben RuCL getraind op de Qwen2.5-VL-7B base model en geëvalueerd op zeven benchmarks (waaronder MathVerse, MathVista, MMMU, LogicVista).

Prestatieverbetering: RuCL behaalt een gemiddelde verbetering van +7,83% ten opzichte van het basis Qwen2.5-VL-7B model.
State-of-the-Art: Het model bereikt een nauwkeurigheid van 60,06%, wat de beste prestatie is onder open-source redeneermodellen van 7B parameters.
Specifieke Winsten:
- WeMATH: +12,97% verbetering.
- Counting (Super-CLEVR): +12,00% verbetering (toont verbeterde visuele perceptie).
- LogicVista: +10,40% verbetering (toont verbeterde logische redenering).
Vergelijking: Het presteert beter dan andere toonaangevende open-source modellen zoals Vision-R1, MM-Eureka en VL-Rethinker, en sluit de kloof met gesloten modellen (zoals GPT-4o) aanzienlijk in.

5. Betekenis en Impact

Oplossing voor Reward Hacking: RuCL bewijst dat het systematisch straffen van logische fouten alleen als het eindantwoord correct is, niet werkt. Door het redeneerproces te belonen via gestructureerde rubrics, wordt "lucky guessing" onderdrukt.
Efficiëntie: Door generaliseerbare rubrics te gebruiken in plaats van per-voorbeeld generatie, wordt de computerkost voor het trainen van RLVR aanzienlijk verlaagd.
Nieuwe Paradigma: Het paper verschuift de focus van curriculum learning (van data naar reward design). Het toont aan dat het trainen van AI-modellen effectiever is wanneer de complexiteit van de feedback (de beloning) wordt afgestemd op het leertraject van het model, net zoals bij menselijk onderwijs.
Betrouwbaarheid: De methode bevordert modellen die niet alleen het juiste antwoord geven, maar dit ook doen via een logisch consistent en waarheidsgetrouw redeneerproces, wat essentieel is voor toepassing in kritieke domeinen.

Kortom, RuCL biedt een robuust en schaalbaar kader om de redeneercapaciteiten van multimodale modellen te verbeteren door de leercurve van het model te synchroniseren met de complexiteit van de evaluatiecriteria.