Enhancing Multi-Modal LLMs Reasoning via Difficulty-Aware Group Normalization

Deze paper introduceert Durian, een difficulty-aware group normalisatiemethode die de instabiliteit van standaard RLVR/GRPO-benaderingen in multimodale modellen oplost door samples te groeperen op basis van perceptuele complexiteit en redeneeronzekerheid, waardoor de prestaties op multimodale redeneerbenchmarks aanzienlijk worden verbeterd.

Jinghan Li, Junfeng Fang, Jinda Lu, Yuan Wang, Xiaoyan Guo, Tianyu Zhang, Xiang Wang, Xiangnan He

Gepubliceerd 2026-02-27
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De Probleemstelling: Een Verkeerde Weegschaal

Stel je voor dat je een groep leerlingen hebt die een moeilijke wiskundetoets doen. Je wilt ze belonen voor goed werk en hen helpen hun fouten te verbeteren.

In de wereld van kunstmatige intelligentie (AI) gebruiken onderzoekers een slimme methode genaamd GRPO. Dit werkt als een coach die de antwoorden van een groep leerlingen vergelijkt. Als de meeste leerlingen het fout hebben, maar één het goed, krijgt die ene leerling een enorme "bonus" (een hoge beloning). Als bijna iedereen het goed heeft, is de bonus voor de winnaar kleiner.

Het probleem:
Deze methode werkt geweldig voor tekst, maar faalt bij multimodale modellen (AI die zowel naar plaatjes als tekst kijkt). Waarom? Omdat plaatjes soms extreem makkelijk zijn (bijv. "wat staat er op dit gras?") en soms extreem moeilijk (bijv. een ingewikkeld geometrisch raadsel).

In de huidige methode wordt de "bonus" berekend op basis van de standaardafwijking (een maat voor hoe verschillend de antwoorden zijn).

  • Als een groep leerlingen allemaal het perfect goed heeft, is de standaardafwijking bijna nul.
  • Als de standaardafwijking nul is, wordt de beloning voor de winnaar ontzettend groot (oneindig groot in theorie).
  • Dit is als een leraar die een leerling die een vraag van "wat is 1+1?" goed heeft beantwoord, een prijs van 10 miljoen euro geeft, terwijl een leerling die een lastig probleem oplost, maar 10 euro krijgt.

Dit maakt de AI gek. Ze leert niet van de moeilijke vragen, maar raakt gefocust op de "geluksvogels" die de simpele vragen raak hebben. De AI wordt onstabiel.

De Oplossing: "Durian" (De Moeilijkheids-Coach)

De auteurs van dit papier hebben een nieuwe methode bedacht, die ze Durian noemen (geïnspireerd op de doornige vrucht, maar hier staat het symbool voor "moeilijkheidsbewust").

In plaats van alle leerlingen in één grote klas te gooien, maakt Durian kleine, speciale groepjes op basis van hoe moeilijk de vraag was.

Stap 1: De Twee Soorten Moeilijkheid

Durian kijkt naar twee dingen om de moeilijkheidsgraad te bepalen:

  1. De "Oog-Moeilijkheid" (Perceptie):
    • Metafoor: Kijk naar een schilderij. Is het een egaal wit canvas (makkelijk) of een chaotisch, kleurrijk doolhof (moeilijk)?
    • De AI meet dit door te kijken naar de "ruis" en complexiteit in het plaatje. Een simpel plaatje heeft weinig variatie (lage entropie), een complex plaatje heeft veel variatie (hoge entropie).
  2. De "Bewustzijns-Moeilijkheid" (Redenering):
    • Metafoor: Hoe zeker is de AI van zijn antwoord? Zegt hij "Ik weet het zeker!" of "Hmm, ik twijfel..."?
    • Als de AI twijfelt (lage zekerheid), is de vraag voor haar moeilijk. Als ze zeker is, is het makkelijk.

Stap 2: Het Groeperen (De Durian-strategie)

Nu komen de leerlingen in groepjes terecht:

  • Groep Makkelijk: Simpele plaatjes + Zekere antwoorden.
  • Groep Moeilijk: Complexe plaatjes + Twijfelachtige antwoorden.
  • Groep Gemiddeld: Iets in het midden.

Het magische trucje:
Binnen elke groep wordt de beloning nu berekend op basis van die specifieke groep.

  • In de "Moeilijke" groep is de standaardafwijking normaal, dus de beloningen zijn eerlijk.
  • In de "Makkelijke" groep is de standaardafwijking ook normaal.
  • De AI wordt niet meer gestoord door de extreme uitschieters van de andere groepen.

Waarom werkt dit?

Stel je voor dat je een marathon organiseert.

  • De oude methode: Je laat een 5-jarige en een olympisch atleet samen rennen. Als de 5-jarige ook maar een stapje zet, is dat een enorme prestatie vergeleken met de atleet die stilstaat. De 5-jarige krijgt een gouden medaille, de atleet niets. Dit is onrechtvaardig en helpt niemand.
  • De Durian-methode: Je verdeelt de lopers in categorieën: "Junioren", "Amateurs" en "Professionals". Binnen elke categorie vergelijken ze met elkaar. De 5-jarige krijgt een medaille voor zijn leeftijdsgenoten, en de atleet voor de zijnen. Iedereen wordt eerlijk beloond en gemotiveerd om beter te worden.

Het Resultaat

Door deze slimme groepering (Durian) te gebruiken, leert de AI veel sneller en stabieler. Ze raakt niet meer gefrustreerd door de "extreme" gevallen (te makkelijk of te moeilijk) en focust zich op het echt verbeteren van haar redeneervermogen.

In de tests bleek dat AI-modellen die deze methode gebruikten, 11,3% beter presteerden op moeilijke visuele en wiskundige taken dan de beste bestaande methoden.

Kort samengevat: Durian zorgt ervoor dat de AI niet meer "verkeerde" beloningen krijgt door extreme voorbeelden, maar eerlijk wordt beloond binnen haar eigen niveau van moeilijkheid.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →