RL makes MLLMs see better than SFT

✨

Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een Multimodaal Groot Taalmodel (MLLM) een slimme robot is die kan praten en kijken. Tot nu toe dachten onderzoekers dat het grootste deel van de intelligentie van deze robot kwam uit zijn "hersenen" (de taalmodel-achterkant) en dat zijn "ogen" (de visuele encoder) gewoon een vaste camera waren die je niet veel aan kon passen.

Deze paper, getiteld "RL maakt MLLMs beter zien dan SFT", zegt: "Nee, we hebben de ogen verkeerd behandeld!"

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het oude idee: De robot met een statische camera

Vroeger trainden ze deze robots met een methode genaamd SFT (Supervised Finetuning).

De analogie: Stel je voor dat je een student leert een schilderij te beschrijven. De leraar (SFT) zegt: "Kijk naar dit schilderij en schrijf de juiste zin op." De student leert de zin te onthouden, maar kijkt misschien niet echt diep naar de details. Hij leert vooral wat hij moet zeggen, niet hoe hij moet kijken.
Het probleem: De robot werd goed in praten, maar zijn "kijkvermogen" bleef een beetje slap. Hij zag details over het hoofd.

2. De nieuwe ontdekking: De robot met een scherper oog

De auteurs ontdekten dat als je de robot traint met RL (Reinforcement Learning, ofwel "leren door feedback"), iets magisch gebeurt.

De analogie: Nu krijgt de student niet alleen een voorbeeldzin, maar ook een vergelijking. De leraar zegt: "Hier is een goede beschrijving (de 'gewenste' antwoord) en hier is een slechte beschrijving (het 'afgekeurde' antwoord). Probeer de goede te kiezen en de slechte te vermijden."
Het effect: Om het verschil tussen goed en slecht te begrijpen, moet de student (de robot) extreem goed gaan kijken. Hij moet zien: "Ah, in de goede zin wordt de hond genoemd, in de slechte niet. Ik moet dus echt naar de hond kijken!"
Het resultaat: Door deze "keuzes" te maken, worden de ogen van de robot veel scherper en gericht. Ze zien details die ze voorheen negeerden.

3. De grote verrassing: De ogen worden beter dan de hersenen

Het meest verbazingwekkende is dit: door deze nieuwe trainingsmethode (die ze PIVOT noemen) worden de "ogen" van de robot zelfs beter dan de ogen van veel duurdere, grotere modellen.

De analogie: Stel je voor dat je een goedkope bril (een klein visueel model) hebt. Normaal gesproken zou je denken: "Ik moet een dure, zware bril kopen om beter te zien."
Maar met PIVOT (de nieuwe methode) krijg je die goedkope bril een super-training. Na de training ziet die goedkope bril scherper dan een dure bril die nooit zo getraind is.
De kosten: Dit kostte ze minder dan 1% van de rekenkracht die normaal nodig is om zo'n bril te trainen. Het is alsof je een auto met een kleine motor kunt laten racen als je de bestuurder maar slim genoeg traint.

4. Wat betekent dit voor de toekomst?

De auteurs hebben een recept bedacht, genaamd PIVOT (Preference-Instructed Vision OpTimization).

De boodschap: Je hoeft niet per se een gigantisch, duur visueel model te bouwen. Je kunt bestaande, kleinere modellen nemen en ze "slimmer" maken door ze te laten leren uit voorkeuren (goed vs. slecht) in plaats van alleen uit voorbeelden.
Waarom is dit belangrijk? Het maakt slimme robots die kunnen zien en praten goedkoper, sneller en slimmer. Ze zien de wereld niet alleen als een wazig plaatje, maar als een verzameling van duidelijke, belangrijke details.

Kort samengevat:
Vroeger dachten we dat de "hersenen" van de AI alles bepaalden en dat de "ogen" maar een bijrol hadden. Deze paper laat zien dat als je de AI leert om keuzes te maken tussen goed en slecht (RL in plaats van SFT), haar ogen vanzelf scherper worden. Je kunt hiermee goedkope, snelle modellen maken die zien beter dan dure, trage modellen. Het is een revolutie in hoe we AI laten kijken.

Each language version is independently generated for its own context, not a direct translation.

Titel: RL maakt MLLMs beter zien dan SFT

Auteurs: Junha Song, Sangdoo Yun, Dongyoon Han, Jaegul Choo, Byeongho Heo (KAIST & NAVER AI Lab)
Datum: April 2026

1. Het Probleem

In het onderzoek naar Multimodale Large Language Models (MLLMs) wordt vaak aangenomen dat de prestaties voornamelijk worden bepaald door de kracht van de taalmodel-ruggengraat (LLM), waardoor de visuele encoder (die bepaalt hoe het model beelden waarneemt) onderbelicht blijft.

Huidige status: De meeste MLLMs worden getraind via Supervised Fine-Tuning (SFT). Recentelijk is er een verschuiving naar Reinforcement Learning (RL), zoals Direct Preference Optimization (DPO), om hallucinaties te verminderen en de uitlijning met menselijke voorkeuren te verbeteren.
De kennislacune: Er is weinig begrip over hoe deze trainingsstrategieën (SFT vs. RL) de onderliggende visuele representaties van het model beïnvloeden. Bestaand onderzoek heeft voornamelijk gekeken naar de prestaties op taakniveau, zonder diep in te gaan op de kwalitatieve veranderingen in de visuele encoder zelf.

2. Methodologie

De auteurs voeren een gecontroleerde vergelijking uit tussen SFT en RL (specifiek DPO, en later uitgebreid naar GRPO en PPO) om hun impact op zowel de MLLM als de visuele encoder te analyseren.

Experimenteel Opzet:
- Ze gebruiken de LLaVA-OneVision architectuur met verschillende schalen van Qwen2.5 (LLM) en SigLIP2 (visuele encoder).
- Het trainingsproces bestaat uit twee fasen:
  1. Stage 1: Pre-training (projector-only en end-to-end pre-training op VL-data).
  2. Stage 2: Post-training met een gecontroleerde dataset van 20.000 "image-query-response" paren, waarbij voor elk item een gekozen ( $y_c$ ) en een verworpen ( $y_r$ ) antwoord beschikbaar is.
- Vergelijking: Eén model wordt getraind met SFT (maximale waarschijnlijkheid op $y_c$ ) en een ander met DPO (optimalisatie van de voorkeur tussen $y_c$ en $y_r$ ).
Analyse van Visuele Representaties:
- ImageNet Classificatie: De visuele encoder wordt losgekoppeld van de LLM en getest via "linear probing" op ImageNet.
- Segmentatie: Probing op het ADE20K-dataset om objectlocatie en fijnmazige segmentatie te evalueren.
- Gradient Visualisatie: Gebruik van Grad-CAM om te visualiseren waar de gradiëntsignalen tijdens het backpropagatieproces zich concentreren in de afbeelding.
- Representatie Uitlijning: Meting van de gelijkenis tussen de visuele encoder en verschillende LLMs.
PIVOT (Preference-Instructed Vision OpTimization):
- Gebaseerd op de bevindingen, stellen de auteurs een nieuwe trainingsmethode voor: PIVOT. Hierbij wordt een bestaande visuele encoder (zoals CLIP, SigLIP, MAE) getraind met een LLM-head via DPO, waarna deze encoder wordt losgekoppeld en gebruikt als een verbeterde visuele backbones voor nieuwe MLLMs.

3. Belangrijkste Bevindingen & Resultaten

A. Prestaties op MLLM-taken

RL (DPO) overtreft SFT: DPO toont aanzienlijke verbeteringen ten opzichte van SFT, vooral op taken die een diep visueel begrip vereisen (zoals OCR, grafieken en visueel gecentreerde VQA).
Schaling: Deze superioriteit blijft bestaan bij het schalen van zowel de visuele encoder als de taalmodel.
Data-efficiëntie: DPO bereikt hoge prestaties met minder data dan SFT. Een DPO-model getraind met 3K samples presteert beter dan een SFT-model getraind met 40K samples.

B. Impact op de Visuele Encoder

Herdefiniëring van Visuele Representaties: Post-training met DPO verandert fundamenteel hoe het model beelden ziet.
Fijnmazigheid en Lokalisatie:
- Gradienten: Grad-CAM toont aan dat DPO-gradiënten zich preciezer concentreren op semantisch relevante gebieden (bijv. het object waarover wordt gevraagd), terwijl SFT-gradiënten verspreid en diffuus zijn.
- Segmentatie: DPO-getrainde encoders genereren nauwkeurigere segmentatiemaps die beter overeenkomen met de ground truth.
- ImageNet: DPO-encoders behalen een hogere Top-1 nauwkeurigheid op ImageNet dan hun SFT-tegenhangers, zelfs zonder extra visuele pre-training.
Invloed van de LLM: Grotere LLMs leveren informatieverere optimalisatiesignalen terug naar de visuele encoder, wat leidt tot betere visuele representaties.

C. PIVOT Resultaten

Superieure Encoders: Een visuele encoder getraind met PIVOT (bijv. SigLIP1-So/14 + PIVOT) presteert beter dan een veel grotere, nieuwere encoder (SigLIP2-So/16) die niet met PIVOT is getraind.
Efficiëntie: PIVOT vereist minder dan 1% van de rekencost (GPU-tijd) van standaard visuele pre-training, maar levert encoders op die beter presteren in MLLM-context.
Generalisatie: De methode werkt effectief op diverse bestaande encoders (CLIP, DINOv2, MAE, SigLIP), ongeacht of ze oorspronkelijk zelftoezicht of toezicht met taal kregen.

4. Bijdragen

Systematische Analyse: Eerste diepgaande studie die laat zien dat RL (DPO) niet alleen de taaloutput verbetert, maar ook de visuele representaties fundamenteel versterkt en localiseert.
Visuele Encoder Ontwikkeling: Het bewijs dat DPO effectiever is dan SFT voor het leren van visuele features, zelfs op pure visuele benchmarks zoals ImageNet en segmentatie.
PIVOT Methode: Een praktische en efficiënte "recept" (PIVOT) om bestaande visuele encoders te optimaliseren voor MLLM-toepassingen, waarbij ze zelfs grotere, zwaarder getrainde modellen overtreffen.
Generalisatie van RL: Het bewijs dat de voordelen van RL boven SFT niet beperkt zijn tot DPO, maar ook gelden voor GRPO en PPO.

5. Betekenis en Impact

Dit paper daagt de heersende opvatting uit dat de LLM de enige drijvende kracht achter MLLM-prestaties is. Het toont aan dat de trainingsstrategie (RL vs. SFT) een cruciale rol speelt in de kwaliteit van de visuele waarneming.

Efficiëntie: Het biedt een weg om state-of-the-art visuele backbones te verbeteren met een fractie van de rekencost die normaal nodig is voor pre-training.
Toekomstige Richting: Het suggereert dat de toekomst van MLLM-ontwikkeling ligt in het gebruik van RL-gebaseerde voorkeursoptimalisatie om zowel taal als visie te aligneren, in plaats van alleen op SFT te vertrouwen.
Praktische Toepassing: PIVOT biedt een directe route voor onderzoekers en ontwikkelaars om bestaande visuele modellen te "upgraden" voor multimodale taken zonder de noodzaak van enorme datasets of dure hardware.

Kortom, het paper concludeert dat Reinforcement Learning MLLMs niet alleen slimmer maakt in taal, maar hen ook beter laat "zien" door het creëren van scherpere, meer gelokaliseerde en semantisch rijker visuele representaties.