GenRecal: Generation after Recalibration from Large to Small Vision-Language Models

GenRecal is een algemeen distillatiekader dat kennis overdraagt van grote naar kleine vision-language modellen door middel van een recalibratiemodule die de verschillen in architectuur en tokenisatie tussen heterogene modellen overbrugt, waardoor kleinere modellen zelfs betere prestaties leveren dan grote gesloten systemen.

Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, Yu-Chiang Frank Wang, Yueh-Hua Wu

Gepubliceerd 2026-03-03
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

GenRecal: Hoe we slimme AI's leren van grotere AI's, zelfs als ze een andere "taal" spreken

Stel je voor dat je een zeer ervaren, briljante professor hebt (de grote AI) die alles over de wereld weet, maar die ook enorm groot, traag en duur is om te draaien. Je wilt die kennis overdragen op een slimme, maar kleine student (de kleine AI) die snel is, goedkoop en op je telefoon past.

Het probleem? De professor en de student spreken niet dezelfde taal.

Het Probleem: Twee verschillende woordenboeken

In de wereld van Vision-Language Models (AI's die beelden en tekst begrijpen), gebruiken grote modellen en kleine modellen vaak verschillende tokenizers.

  • De Professor (bijv. InternVL2.5-78B) ziet een woord als één blokje en noemt het "Auto".
  • De Student (bijv. Qwen2-VL-7B) ziet datzelfde woord als drie stukjes en noemt het "Au-t-o".

Omdat hun "woordenboeken" en de manier waarop ze zinnen opbouwen totaal verschillend zijn, kunnen ze normaal gesproken niet met elkaar communiceren. Traditionele methoden om kennis over te dragen (distillatie) faarden hier: het was alsof je probeerde een boek in het Frans te vertalen naar het Nederlands, maar de vertaler dacht dat "Auto" en "Au-t-o" twee totaal verschillende concepten waren. Je kon de kennis dus niet overdragen.

De Oplossing: GenRecal (De "Tolk" of "Vertaler")

De onderzoekers van GenRecal hebben een slimme oplossing bedacht: een Recalibrator.

Stel je dit voor als een super-tolk die tussen de professor en de student staat.

  1. De Professor geeft zijn gedachten (de antwoorden) in zijn eigen taal.
  2. De Student geeft zijn gedachten (de vragen) in zijn eigen taal.
  3. De Recalibrator pakt de antwoorden van de professor, vertaalt ze naar een gemeenschappelijke "tussentaal" die de student begrijpt, en zorgt dat de student precies weet wat de professor bedoelde.

Deze tolk is heel slim: hij kijkt niet alleen naar de woorden, maar naar de betekenis erachter. Hij zorgt ervoor dat de kleine AI leert denken zoals de grote AI, zonder dat ze dezelfde woordenboeken hoeven te hebben.

Hoe werkt het in de praktijk? (De 3 Stappen)

Het proces verloopt in drie fases, net als een intensieve trainingssessie:

  1. Fase 1: De Tolk leren (Alignement)
    De grote AI en de kleine AI worden "bevroren" (ze veranderen niet). Alleen de Recalibrator (de tolk) wordt getraind. De tolk leert hoe hij de gedachten van de grote AI moet vertalen naar de wereld van de kleine AI. Hij leert: "Als de professor dit beeld ziet, moet de student dit specifieke antwoord geven, zelfs als hun woorden anders zijn."

  2. Fase 2: De Student leren (Distillatie)
    Nu de tolk zijn werk goed doet, gaat de kleine AI zelf aan de slag. Hij kijkt naar de vertaalde antwoorden van de professor en leert ze na te bootsen. Hij wordt slimmer door te kijken naar de "gouden antwoorden" van de professor, vertaald door de tolk.

  3. Fase 3: De Tolk weg (Inference)
    Zodra de student alles heeft geleerd, is de tolk niet meer nodig! De kleine AI kan nu zelfstandig werken. Hij is nu zo slim geworden dat hij bijna net zo goed presteert als de grote professor, maar hij is nog steeds klein, snel en past op je telefoon.

Waarom is dit zo belangrijk?

  • Geen meer vastzitten in één familie: Voorheen moesten de grote en kleine AI's van hetzelfde merk zijn (bijv. beide van Qwen) om kennis te kunnen overdragen. Met GenRecal kun je een enorme AI van het ene merk (bijv. InternVL) gebruiken om een kleine AI van een ander merk (bijv. Qwen) te trainen. Het is alsof je een Italiaanse chef-kok kunt leren koken aan een Japanse kok, dankzij een perfecte tolk.
  • Betere resultaten: Zelfs als de grote en kleine AI's wel dezelfde taal spreken, werkt GenRecal beter dan oude methoden. De tolk zorgt voor een diepere, betere overdracht van kennis.
  • Toekomst: Hierdoor kunnen we in de toekomst veel slimmere AI's op je telefoon of in je auto hebben, die trainen op de kennis van de allerbeste, grootste supercomputers, zonder dat we die supercomputers nodig hebben om de app te laten werken.

Kortom: GenRecal is de brug die de kloof overbrugt tussen de enorme, trage super-AI's en de snelle, kleine AI's van de toekomst. Het zorgt ervoor dat kennis vrij kan stromen, ongeacht welke "taal" de modellen spreken.