Annotation-Free Visual Reasoning for High-Resolution Large Multimodal Models via Reinforcement Learning

Dit paper introduceert HART, een annotatievrij framework dat Large Multimodal Models via versterkingsleer in staat stelt om zonder menselijke labels effectief te redeneren over hoge-resolutie beelden door zelfkritische focus op relevante beeldregio's.

Jiacheng Yang, Anqi Chen, Yunkai Dang, Qi Fan, Cong Wang, Wenbin Li, Feng Miao, Yang Gao

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een gigantische, ultra-hoge resolutie foto van een drukke markt hebt. Je wilt weten: "Welke vrucht is er rot op de kraam links?"

Als je een gewone kunstmatige intelligentie (een 'Large Multimodal Model' of LMM) deze foto geeft, krijgt het een probleem. De foto is zo groot dat de computer er duizenden kleine stukjes van moet analyseren. Het probeert alles tegelijk te zien, waardoor het verdrinkt in details en de belangrijke plek (de rotte vrucht) over het hoofd ziet. Het is alsof je probeert een naald te vinden in een berg hooi, terwijl je blinddoek op hebt en de hele berg moet voelen.

De huidige oplossing is vaak om de foto te verkleinen, maar dan verdwijnen de fijne details (de rotte plek) en kun je het antwoord niet vinden.

Andere methoden vragen mensen om te tekenen waar de belangrijke dingen zitten (bijv. "teken een kader om de rotte vrucht"). Maar dat is duur en tijdrovend.

HART: De slimme "Zoom-in" methode

De auteurs van dit paper hebben een nieuwe methode bedacht, genaamd HART. Ze gebruiken een slimme truc die werkt als een detective met een vergrootglas, zonder dat er iemand anders hoeft te tekenen.

Hier is hoe het werkt, stap voor stap:

1. De "Zoom-in" Truc (De Gesloten Lus)

Stel je voor dat je een detective bent.

  • Stap 1: Je kijkt naar de hele markt (de grote foto) en vraagt aan je assistent: "Waar moet ik kijken om de rotte vrucht te vinden?"
  • De assistent wijst een plek aan (bijvoorbeeld: "linksboven").
  • Stap 2 (De Magische Stap): Nu doen we iets vreemds. We nemen de grote foto weg! De detective mag alleen kijken naar het kleine stukje dat de assistent aanwees.
  • Vervolgens vragen we: "Is de vrucht hier rot?"

Als de detective het juiste antwoord geeft, betekent dit dat de assistent de juiste plek heeft aangewezen. Als de detective het fout heeft, betekent dit waarschijnlijk dat de assistent naar de verkeerde plek wees.

Dit is de kern van HART: het model moet zichzelf bewijzen dat het de juiste plek heeft gevonden, door alleen op dat stukje te vertrouwen.

2. De Trainer (AP-GRPO)

Hoe leer je de computer dit? Normaal gesproken krijg je een beloning als het antwoord goed is, zelfs als je de verkeerde plek hebt aangekeken (bijvoorbeeld: je raadt het antwoord goed, maar je keek naar de verkeerde kraam). Dit is slecht voor het leren.

De auteurs hebben een nieuwe trainer bedacht, AP-GRPO.

  • De Analogie: Stel je voor dat je een leerling traint om een schat te vinden.
    • Oude methode: Als de leerling de schat vindt, krijgt hij een snoepje, ook al liep hij eerst door de hele tuin in de verkeerde richting.
    • HART-methode: De leerling krijgt een snoepje alleen als hij eerst de juiste schatlocatie heeft aangewezen én dan de schat vindt. Als hij de verkeerde plek aanwijst, krijgt hij geen snoepje, zelfs niet als hij het antwoord raadt.

Deze trainer dwingt het model om zich te concentreren op het vinden van de juiste details, in plaats van alleen maar te gokken op het antwoord.

3. Waarom is dit geweldig?

  • Geen dure mensen nodig: Je hoeft geen duizenden mensen te betalen om kaders om objecten te tekenen. Het model leert zichzelf door te "zoomen" en te controleren.
  • Beter zien: Omdat het model zich concentreert op de kleine, belangrijke stukjes, ziet het details die bij een gewone, grote foto verloren zouden gaan.
  • Sneller en slimmer: Het vermijdt het analyseren van alle onbelangrijke hooibergen en focust direct op de naald.

Samenvattend:
HART is als het geven van een vergrootglas aan een slimme computer, maar met een streng leraar die zegt: "Als je het antwoord wilt weten, moet je eerst bewijzen dat je naar het juiste stukje van de foto kijkt." Hierdoor wordt de computer veel beter in het oplossen van complexe puzzels met hoge resolutie foto's, zonder dat er iemand anders hoeft te helpen met tekenen.