A Unified Framework for Knowledge Transfer in Bidirectional Model Scaling

Dit paper introduceert BoT, het eerste framework dat bidirectionele model-schaalveranderingen (van klein naar groot en vice versa) verenigt door modelgewichten te behandelen als continue signalen en Discrete Wavelet-transformaties te gebruiken voor een parameterloze en rekenkundig efficiënte kennisoverdracht.

Jianlu Shen, Fu Feng, Jiaze Xu, Yucheng Xie, Jiaqi Lv, Xin Geng

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, superkrachtige robot hebt die alles kan doen: van het vertalen van boeken tot het diagnosticeren van ziektes. Dit is een groot AI-model. Het probleem is dat deze robot zo groot en zwaar is dat hij niet in een gewone auto past; hij kan alleen in een speciaal gebouwde fabriek werken.

Nu wil je een kleinere, wendbaardere versie van die robot maken die wel in een auto past, maar die nog steeds slim is. Of andersom: je hebt een kleine, handige robot en je wilt hem uitbreiden tot een gigant, zonder hem vanaf nul opnieuw te bouwen (wat jaren zou duren en een fortuin aan stroom kost).

Tot nu toe was dit heel lastig. Wetenschappers hadden twee totaal verschillende gereedschapskisten: één voor het verkleinen van robots en één voor het vergroten. Ze werkten niet samen.

Dit nieuwe onderzoek, genaamd BoT, introduceert een magische, universele sleutel die beide kanten op werkt. Hier is hoe het werkt, vertaald naar alledaags taal:

1. Het Geheim: De "Lerend-Gene" (Learngene)

Stel je voor dat de kennis in een AI-model niet bestaat uit losse onderdelen, maar als een continu geluidssignaal of een fotografie.

  • Een groot model is als een foto in 4K-resolutie: je ziet elk detail, elke rimpel en elke haartjes.
  • Een klein model is als dezelfde foto, maar dan als een klein, wazig duimnaagje. Je ziet de grote lijnen (de vorm van het gezicht), maar niet de details.

De kernboodschap van dit papier is: De "ware kennis" zit in de grote lijnen (de lage frequenties). De details (de hoge frequenties) zijn gewoon extra verfijningen.

2. De Magische Tool: De Golf-Transformator (Wavelets)

De auteurs gebruiken een wiskundig trucje uit de signaalverwerking, genaamd de Discrete Wavelet Transform (DWT). Je kunt dit zien als een superkrachtige zoomfunctie of een kookproces:

  • Van Groot naar Klein (L2S): Het "Samenvatten"
    Stel je voor dat je een enorme, gedetailleerde soep hebt (het grote model). Je wilt er een klein kopje van maken voor iemand die minder kan eten.

    • Oude methode: Je plukt willekeurig wat groenten uit de grote pot en hoopt dat het smaakt. Vaak is het resultaat een rommelige soep.
    • De BoT-methode: Je gebruikt een speciale zeef (de Wavelet). Je haalt de "essentie" van de soep eruit (de lage frequenties) en gooit de extra, rommelige stukjes (de hoge frequenties) weg. Wat overblijft is een perfect samengevatte, krachtige soep die precies past in het kleine kopje, maar nog steeds dezelfde smaak heeft. Je hebt de "lerend-gene" overgebracht zonder de structuur te breken.
  • Van Klein naar Groot (S2L): Het "Uitbreiden"
    Nu heb je dat kleine kopje soep en wil je er een grote pan van maken voor een feestje.

    • Oude methode: Je doet de soep in een grote pot en hoopt dat hij groeit, of je bouwt er willekeurige nieuwe groenten bij die misschien niet passen.
    • De BoT-methode: Je neemt de kleine soep (de lage frequenties) en vult de lege plekken in de grote pot op met leegte (nullen). Vervolgens gebruik je de "omgekeerde" magische zeef. De wiskunde vult de lege plekken automatisch in met de juiste, logische details die bij de soep horen. Je krijgt een enorme pan soep die perfect past bij het originele recept, maar dan in een grotere maat.

3. Waarom is dit zo geweldig?

  • Eén tool voor alles: Voorheen hadden ze aparte gereedschappen voor "verkleinen" en "vergroten". BoT gebruikt dezelfde wiskundige formule voor beide. Het is als een sleutel die zowel de voordeur als de achterdeur opent.
  • Snel en goedkoop: Omdat je geen nieuwe training hoeft te doen om de "nieuwe" onderdelen te leren (je vult ze gewoon in met de juiste wiskunde), bespaar je tot wel 67% aan rekenkracht en tijd. Het is alsof je een auto bouwt in plaats van hem van nul af te ontwerpen.
  • Beter resultaat: De robots die zo worden gemaakt, zijn slimmer en leren sneller dan robots die willekeurig zijn opgezet. Ze houden de "structuur" van de kennis vast, net zoals een goede samenvatting van een boek de kern van het verhaal behoudt.

Samenvatting in één zin

BoT is een slimme methode die AI-modellen behandelt als foto's of geluiden: je kunt ze wiskundig verkleinen of vergroten zonder dat de "zin" ervan verloren gaat, waardoor je enorme hoeveelheden tijd en energie bespaart bij het bouwen van slimme computers.