GenRecal: Generation after Recalibration from Large to Small Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

GenRecal: Hoe we slimme AI's leren van grotere AI's, zelfs als ze een andere "taal" spreken

Stel je voor dat je een zeer ervaren, briljante professor hebt (de grote AI) die alles over de wereld weet, maar die ook enorm groot, traag en duur is om te draaien. Je wilt die kennis overdragen op een slimme, maar kleine student (de kleine AI) die snel is, goedkoop en op je telefoon past.

Het probleem? De professor en de student spreken niet dezelfde taal.

Het Probleem: Twee verschillende woordenboeken

In de wereld van Vision-Language Models (AI's die beelden en tekst begrijpen), gebruiken grote modellen en kleine modellen vaak verschillende tokenizers.

De Professor (bijv. InternVL2.5-78B) ziet een woord als één blokje en noemt het "Auto".
De Student (bijv. Qwen2-VL-7B) ziet datzelfde woord als drie stukjes en noemt het "Au-t-o".

Omdat hun "woordenboeken" en de manier waarop ze zinnen opbouwen totaal verschillend zijn, kunnen ze normaal gesproken niet met elkaar communiceren. Traditionele methoden om kennis over te dragen (distillatie) faarden hier: het was alsof je probeerde een boek in het Frans te vertalen naar het Nederlands, maar de vertaler dacht dat "Auto" en "Au-t-o" twee totaal verschillende concepten waren. Je kon de kennis dus niet overdragen.

De Oplossing: GenRecal (De "Tolk" of "Vertaler")

De onderzoekers van GenRecal hebben een slimme oplossing bedacht: een Recalibrator.

Stel je dit voor als een super-tolk die tussen de professor en de student staat.

De Professor geeft zijn gedachten (de antwoorden) in zijn eigen taal.
De Student geeft zijn gedachten (de vragen) in zijn eigen taal.
De Recalibrator pakt de antwoorden van de professor, vertaalt ze naar een gemeenschappelijke "tussentaal" die de student begrijpt, en zorgt dat de student precies weet wat de professor bedoelde.

Deze tolk is heel slim: hij kijkt niet alleen naar de woorden, maar naar de betekenis erachter. Hij zorgt ervoor dat de kleine AI leert denken zoals de grote AI, zonder dat ze dezelfde woordenboeken hoeven te hebben.

Hoe werkt het in de praktijk? (De 3 Stappen)

Het proces verloopt in drie fases, net als een intensieve trainingssessie:

Fase 1: De Tolk leren (Alignement)
De grote AI en de kleine AI worden "bevroren" (ze veranderen niet). Alleen de Recalibrator (de tolk) wordt getraind. De tolk leert hoe hij de gedachten van de grote AI moet vertalen naar de wereld van de kleine AI. Hij leert: "Als de professor dit beeld ziet, moet de student dit specifieke antwoord geven, zelfs als hun woorden anders zijn."
Fase 2: De Student leren (Distillatie)
Nu de tolk zijn werk goed doet, gaat de kleine AI zelf aan de slag. Hij kijkt naar de vertaalde antwoorden van de professor en leert ze na te bootsen. Hij wordt slimmer door te kijken naar de "gouden antwoorden" van de professor, vertaald door de tolk.
Fase 3: De Tolk weg (Inference)
Zodra de student alles heeft geleerd, is de tolk niet meer nodig! De kleine AI kan nu zelfstandig werken. Hij is nu zo slim geworden dat hij bijna net zo goed presteert als de grote professor, maar hij is nog steeds klein, snel en past op je telefoon.

Waarom is dit zo belangrijk?

Geen meer vastzitten in één familie: Voorheen moesten de grote en kleine AI's van hetzelfde merk zijn (bijv. beide van Qwen) om kennis te kunnen overdragen. Met GenRecal kun je een enorme AI van het ene merk (bijv. InternVL) gebruiken om een kleine AI van een ander merk (bijv. Qwen) te trainen. Het is alsof je een Italiaanse chef-kok kunt leren koken aan een Japanse kok, dankzij een perfecte tolk.
Betere resultaten: Zelfs als de grote en kleine AI's wel dezelfde taal spreken, werkt GenRecal beter dan oude methoden. De tolk zorgt voor een diepere, betere overdracht van kennis.
Toekomst: Hierdoor kunnen we in de toekomst veel slimmere AI's op je telefoon of in je auto hebben, die trainen op de kennis van de allerbeste, grootste supercomputers, zonder dat we die supercomputers nodig hebben om de app te laten werken.

Kortom: GenRecal is de brug die de kloof overbrugt tussen de enorme, trage super-AI's en de snelle, kleine AI's van de toekomst. Het zorgt ervoor dat kennis vrij kan stromen, ongeacht welke "taal" de modellen spreken.

Each language version is independently generated for its own context, not a direct translation.

Titel: GenRecal: Generation after Recalibration from Large to Small Vision-Language Models

Auteurs: Byung-Kwan Lee et al. (NVIDIA, KAIST, National Taiwan University)

1. Het Probleem

Recente vooruitgang in Vision-Language Models (VLMs) heeft geleid tot modellen (zoals GPT-4V, Qwen2-VL-72B, InternVL2.5-78B) die prestaties bereiken die vergelijkbaar zijn met gesloten systemen. Echter, de enorme rekenkracht die deze grote modellen vereisen, maakt ze onpraktisch voor implementatie op apparaten met beperkte resources (zoals mobiele telefoons of edge devices).

Om dit op te lossen, wordt kennisdistillatie gebruikt om kennis over te dragen van grote "leraar"-modellen naar kleinere "student"-modellen. De huidige staat van de techniek (SOTA) voor distillatie heeft echter een fundamentele beperking:

Token-Type Afhankelijkheid: Traditionele distillatiemethoden (zoals LLaVA-KD) gaan ervan uit dat de leraar en de student dezelfde tokenizer gebruiken (dezelfde vocabulairegrootte, token-splitsing en token-indexvolgorde).
Incompatibiliteit: Verschillende VLM-families (bijv. Qwen2-VL vs. InternVL2.5) gebruiken vaak verschillende onderliggende LLM-architecturen en tokenizers. Zelfs binnen dezelfde familie kunnen verschillende modelgroottes verschillende tokenizers hebben.
Gevolg: Wanneer de tokenizers verschillen, zijn de output-tokenlengtes en -indices niet direct vergelijkbaar. Hierdoor kunnen traditionele afstandsmaatstaven (zoals KL-divergentie op logit-niveau) niet worden berekend, waardoor distillatie tussen heterogene modellen onmogelijk wordt.

2. Methodologie: GenRecal

De auteurs introduceren GenRecal (Generation after Recalibration), een generiek distillatiekader dat onafhankelijk is van het token-type. De kern van de methode is een nieuw module genaamd de Recalibrator.

Architectuur en Componenten:

Leraar (Large VLM): Een groot model (>72B parameters) dat als kennisbron dient.
Student (Small VLM): Een kleiner, efficiënter model dat getraind wordt.
Recalibrator: Een learnable module die fungeert als brug tussen de leraar en de student. Deze bestaat uit:
- Proj-pre: Een lineaire laag die de hidden-dimensies van de leraar aanpast aan die van de student.
- Rec-body: Twee decoder-blokken (gebaseerd op de architectuur van de student) die sequentiële modellering toepassen.
- Proj-post: Een lineaire laag die de features terugprojecteert naar de hidden-dimensie van de leraar.

Trainingstappen (3 Stadia):

Stadium 1: Alignement (Kalibratie)
- De parameters van de leraar en student zijn vast (frozen). Alleen de Recalibrator wordt getraind.
- De student ontvangt de vraag-tokens ( $q_s$ ) en de leraar ontvangt de antwoord-tokens ( $a_l$ ).
- De Recalibrator neemt de features van de student ( $z_{q_s}$ ) en projecteert ze naar de latent space van de leraar, gecombineerd met de leraar-antwoordfeatures ( $z_{a_l}$ ).
- Verliesfuncties:
  - Autoregressief Verlies (Lar): Voorspelt de exacte token-index van de leraar op basis van de student-features. Dit zorgt voor harde supervisie.
  - KL-Divergentie (Lkl): Matcht de verdeling van de leraar-outputs met de gerecalibreerde student-outputs.
- Regularisatie: Een extra term wordt toegevoegd om te voorkomen dat de Recalibrator te ver afwijkt van de oorspronkelijke leraar-features.
Stadium 2: Distillatie
- De Recalibrator blijft gebruikt, maar nu wordt ook de student's eigen autoregressieve loss toegevoerd.
- De student's VLM-body wordt getraind om de kennis van de leraar (via de gerecalibreerde features) te internaliseren.
Stadium 3: Fine-tuning (SFT)
- De Recalibrator en de leraar worden verwijderd.
- De student wordt alleen nog gefine-tuned via Supervised Fine-Tuning (SFT) op de instructie-data om de follow-up capabilities te verbeteren.

Belangrijk: Tijdens inferentie wordt de Recalibrator verwijderd, waardoor er geen extra rekenkosten zijn voor het uiteindelijke kleine model.

3. Belangrijkste Bijdragen

Token-Type Agnosticisme: GenRecal is de eerste distillatiemethode die effectief werkt tussen VLM-paren met volledig verschillende tokenizers en vocabulaires, zonder dat de token-indices hoeven te matchen.
Recalibrator Module: Een innovatieve architectuur die feature-representaties aligneert in een gedeelde latent space voordat de taal-head wordt bereikt, in plaats van alleen op logit-niveau te werken.
Superieure Prestaties: GenRecal presteert niet alleen beter dan traditionele distillatie bij identieke tokenizers, maar haalt ook prestaties van veel grotere modellen (zelfs gesloten systemen) met kleinere modellen.
Breed Toepasbaar: De methode werkt over verschillende modelgroottes (van 1B tot 78B parameters) en verschillende families (Qwen, InternVL, LLaVA, etc.).

4. Resultaten

De auteurs hebben uitgebreide experimenten uitgevoerd op uitdagende benchmarks zoals MM-Vet, MMMU, MMMU-Pro, MMB, en MathVista.

Prestatieverbetering: GenRecal overtreedt aanzienlijk de baselines (SFT) en traditionele distillatiemethoden (zoals LLaVA-KD).
- Voorbeeld: Een Qwen2-VL-7B model getraind met GenRecal (leraar: InternVL2.5-78B) behaalde 70.4% op MM-Vet, vergeleken met 62.0% voor de baseline en 67.8% voor traditionele distillatie.
- Op MMMU steeg de score van een 8B model van 56.0% naar 68.1%.
Cross-Tokenizer Succes: Zelfs wanneer de leraar en student verschillende tokenizers hebben (bijv. InternVL2.5-78B als leraar en InternVL2.5-8B als student), slaagt GenRecal in het overbrengen van kennis, terwijl traditionele methoden hier falen.
Efficiëntie: De Recalibrator voegt tijdens het trainen slechts een kleine fractie toe aan de FLOPs (ongeveer 2.27 TeraFLOPs vs. 260+ TeraFLOPs voor de leraar), en introduceert geen overhead tijdens inferentie.
Ablatie Studies:
- De Regularisatie is cruciaal; zonder deze term daalt de prestatie aanzienlijk omdat de features niet goed aligneren.
- De Autoregressieve Loss (Lar) is essentieel voor token-level alignement; zonder deze presteert het model slechter dan alleen met KL-divergentie.
- Het gebruik van een grotere leraar leidt consistent tot betere resultaten voor de student.

5. Betekenis en Conclusie

GenRecal oplost een fundamentele blokkade in het veld van Vision-Language Model distillatie: de afhankelijkheid van identieke tokenizers. Door een "recalibratie" van features in plaats van een directe vergelijking van tokens, maakt het distillatie mogelijk tussen willekeurige combinaties van grote en kleine VLMs.

Dit heeft grote implicaties voor de praktijk:

Het stelt ontwikkelaars in staat om de krachtigste beschikbare open-source leraars (ongeacht hun architectuur) te gebruiken om zeer efficiënte, op apparaten draaiende modellen te trainen.
Het democratiseert de toegang tot state-of-the-art multimodale intelligentie voor resource-beperkte omgevingen.
Het biedt een nieuw paradigma voor kennisoverdracht dat verder gaat dan alleen logit-matching en inzoomt op de semantische representatie in de latent space.

Kortom, GenRecal is een doorbraak die de weg vrijmaakt voor een nieuwe generatie compacte, maar uiterst capabele Vision-Language Models.

GenRecal: Generation after Recalibration from Large to Small Vision-Language Models

Het Probleem: Twee verschillende woordenboeken

De Oplossing: GenRecal (De "Tolk" of "Vertaler")

Hoe werkt het in de praktijk? (De 3 Stappen)

Waarom is dit zo belangrijk?

Titel: GenRecal: Generation after Recalibration from Large to Small Vision-Language Models

1. Het Probleem

2. Methodologie: GenRecal

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Using Optimal Transport as Alignment Objective for fine-tuning Multilingual Contextualized Embeddings

SQLBench: A Comprehensive Evaluation for Text-to-SQL Capabilities of Large Language Models

DAVIS: Planning Agent with Knowledge Graph-Powered Inner Monologue

Did somebody say "Gest-IT"? A pilot exploration of multimodal data management

LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics