Entropy-Aware On-Policy Distillation of Language Models

Deze paper introduceert Entropy-Aware On-Policy Distillation, een methode die de standaard reverse KL-divergentie aanvult met forward KL bij hoge teacher-entropie om de generatiediversiteit te behouden en de prestaties van taalmodellen op wiskundige redeneringstaken aanzienlijk te verbeteren.

Woogyeol Jin, Taywon Min, Yongjin Yang, Swanand Ravindra Kadhe, Yi Zhou, Dennis Wei, Nathalie Baracaldo, Kimin Lee

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een jonge, slimme student (het student-model) hebt die wil leren wiskunde van een wereldberoemde professor (het leraar-model). De student moet niet alleen de juiste antwoorden leren, maar ook begrijpen hoe de professor denkt, inclusief de momenten waarop de professor twijfelt.

Dit artikel beschrijft een nieuwe manier om die kennis over te dragen, genaamd EOPD (Entropy-Aware On-Policy Distillation). Hier is hoe het werkt, vertaald naar alledaags taal:

1. Het oude probleem: De "Mode-Seeking" valkuil

Tot nu toe leerden studenten vaak door simpelweg te kijken naar het antwoord dat de professor het meest waarschijnlijk vond. In de wereld van AI noemen we dit "Reverse KL".

  • De analogie: Stel je voor dat de professor een vraag krijgt: "Wat is de beste manier om naar het station te komen?"
    • Soms is het antwoord duidelijk: "Neem de trein." (De professor is 100% zeker).
    • Soms is het antwoord minder duidelijk: "Je kunt de bus nemen, de fiets, of lopen, afhankelijk van het weer." (De professor is onzeker en geeft meerdere goede opties).

Het oude systeem (Reverse KL) dwong de student om alleen de optie te kiezen die de professor het vaakst noemde. Als de professor twijfelde tussen bus, fiets en lopen, koos de student steevast voor de bus, omdat die net iets vaker werd genoemd.

  • Het gevolg: De student werd een "one-trick pony". Hij verloor de diversiteit. Hij leerde niet dat er meerdere goede oplossingen zijn. In moeilijke wiskundeproblemen, waar vaak meerdere wegen naar het antwoord leiden, werd de student hierdoor dom en onzeker. Hij probeerde de professor na te bootsen, maar verloor de essentie van de twijfel.

2. Het nieuwe idee: EOPD (De slimme leraar)

De auteurs van dit artikel zeggen: "Wacht, we moeten kijken naar hoe zeker de leraar is."

Ze introduceren een slimme strategie die EOPD heet. Het werkt als een slimme coach die twee verschillende methodes gebruikt, afhankelijk van de situatie:

  • Situatie A: De leraar is 100% zeker.
    • Analogie: De leraar zegt: "Het antwoord is 42."
    • Actie: De student leert hierdoor gewoon na te bootsen (Reverse KL). Dit is snel en efficiënt.
  • Situatie B: De leraar is onzeker (hoge entropie).
    • Analogie: De leraar zegt: "Het kan A, B of C zijn, allemaal zijn ze mogelijk."
    • Actie: Hier schakelt de student over op een andere methode (Forward KL). In plaats van alleen naar het meest waarschijnlijke antwoord te kijken, leert de student nu om alle mogelijke goede opties te omarmen. Hij leert dat de leraar twijfelt, en dat die twijfel belangrijk is.

3. Waarom is dit zo goed?

Stel je voor dat je een spoorbaan bouwt.

  • De oude methode bouwde maar één spoor, zelfs als er drie wegen naar de bestemming waren. Als die ene weg geblokkeerd was, kon de trein niet verder.
  • De nieuwe methode (EOPD) bouwt meerdere sporen op de plekken waar de leraar twijfelde.

Dit heeft twee grote voordelen:

  1. Meer creativiteit: De student leert dat er meerdere goede oplossingen zijn. Hij raakt niet vast in één denkpatroon.
  2. Stabiel leren: Als de leraar twijfelt, geeft de oude methode de student een verwarrend signaal ("Kies maar wat!"). De nieuwe methode zegt duidelijk: "Oké, hier zijn drie goede opties, onthoud ze allemaal."

4. De resultaten in de praktijk

De auteurs hebben dit getest op wiskundeproblemen (zoals de AIME en AMC wedstrijden).

  • Resultaat: De studenten die met de nieuwe methode (EOPD) leerden, werden niet alleen beter in het vinden van het juiste antwoord, maar ze waren ook veel creatiever.
  • Ze konden meer verschillende manieren bedenken om een probleem op te lossen.
  • Op de moeilijkste vragen (waar de leraar het meest twijfelde) scoorden de nieuwe studenten veel beter dan de oude studenten.

Samenvatting in één zin

Deze paper leert ons dat om een slimme AI te maken, we hem niet alleen de "juiste antwoorden" moeten geven, maar hem ook moeten leren omgaan met onzekerheid, zodat hij niet alleen één weg kent, maar het hele landschap van mogelijke oplossingen begrijpt.