UpSkill: Mutual Information Skill Learning for Structured Response Diversity in LLMs

Het artikel introduceert UpSkill, een trainingsmethode die wederzijdse informatie gebruikt om de diversiteit van antwoorden in grote taalmodellen te vergroten en zo de prestaties op meervoudige pogingen (pass@k) te verbeteren zonder de nauwkeurigheid van de eerste poging te verlagen.

Devan Shah, Owen Yang, Daniel Yang, Chongyi Zheng, Benjamin Eysenbach

Gepubliceerd 2026-02-27
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

UpSkill: Hoe we LLM's leren om niet steeds hetzelfde te zeggen

Stel je voor dat je een zeer slimme, maar soms een beetje stijve robot hebt die wiskundepuzzels oplost. Als je deze robot één keer vraagt: "Hoeveel was doet Raymond als Sarah 400 kilo doet?", geeft hij een goed antwoord. Maar als je hem tien keer dezelfde vraag stelt, geeft hij tien keer bijna hetzelfde antwoord. Het is alsof hij in een loop zit: hij denkt dat zijn eerste idee het allerbeste is en probeert het niet meer op een andere manier.

Dit is het probleem dat de onderzoekers van Princeton (Devan Shah en zijn team) willen oplossen. Ze hebben een nieuwe methode bedacht, genaamd UpSkill. Hier is hoe het werkt, vertaald in alledaagse taal:

1. Het Probleem: De "Eenzame Denker"

Normaal gesproken wordt een slimme taalmodel getraind om één keer het juiste antwoord te geven. Als hij dat doet, wordt hij beloond. Het gevolg? De robot wordt heel goed in één specifieke manier van denken.

  • Vergelijking: Stel je voor dat je een kok hebt die alleen maar pasta kookt. Als je hem vraagt om een maaltijd te maken, maakt hij elke keer pasta, zelfs als je eigenlijk een salade of soep nodig had. Hij is goed in pasta, maar hij mist de variatie.
  • In de praktijk: Bij complexe taken (zoals wiskunde of programmeren) is het vaak slim om een probleem op meerdere manieren aan te pakken. Als je model maar één manier kent, en die faalt, heb je pech. Als hij tien verschillende manieren kent, is de kans veel groter dat er één werkt.

2. De Oplossing: De "Magische Knoppen" (UpSkill)

UpSkill leert de robot om te denken met verschillende "strategieën". Ze doen dit door een klein, onzichtbaar knopje toe te voegen aan de vraag. Laten we dit knopje Z noemen.

  • Z = 1: De robot denkt: "Oké, ik ga dit probleem oplossen alsof ik een algebraïsche wiskundeleraar ben."
  • Z = 2: De robot denkt: "Oké, nu ga ik het oplossen alsof ik een visuele denker ben die met diagrammen werkt."
  • Z = 3: "Nu ga ik het stap voor stap uitleggen als een verhaal."

De truc is: de robot leert tijdens het trainen dat deze knoppen echt verschillende manieren van denken moeten opleveren. Ze mogen niet allemaal op hetzelfde uitkomen.

3. De Beloning: "Hoe uniek ben je?"

Hoe leer je een robot om uniek te zijn? De onderzoekers gebruiken een slimme beloningssysteem gebaseerd op Mutuele Informatie (een ingewikkeld woord voor "hoe goed hangt het antwoord samen met het knopje dat je hebt gedrukt?").

  • De oude manier: "Als het antwoord goed is, krijg je een sterretje." (Dit leidt tot saaie, identieke antwoorden).
  • De UpSkill manier: "Als je antwoord goed is én het lijkt echt op de manier die bij knopje Z hoort, krijg je een extra grote sterretje!"

Als de robot probeert om bij knopje 1 en knopje 2 precies hetzelfde te zeggen, krijgt hij geen extra punten. Hij wordt dus beloond om echt verschillende "personages" te spelen.

4. Het Resultaat: Een Team van Experts

Na het trainen met UpSkill is de robot niet alleen slim, maar ook divers.

  • Als je de robot 5 keer dezelfde vraag stelt, maar elke keer met een ander knopje (Z=1 tot Z=5), krijg je 5 verschillende oplossingsroutes.
  • Zelfs als de eerste route faalt, is de kans groot dat route 3 of 5 wel werkt.
  • Het mooie: De robot wordt niet minder goed in het vinden van het juiste antwoord (pass@1). Hij wordt juist beter in het vinden van een goed antwoord binnen een paar pogingen (pass@k).

Een Leuke Analogie: De Detektive

Stel je voor dat je een moord moet oplossen.

  • Zonder UpSkill: Je hebt één detective die altijd dezelfde theorie heeft. Als die theorie fout is, is het raam dicht.
  • Met UpSkill: Je hebt één detective die vijf verschillende "hoeden" kan dragen.
    • Met de rode hoed kijkt hij naar financiële motieven.
    • Met de blauwe hoed kijkt hij naar getuigen.
    • Met de groene hoed analyseert hij de vingerafdrukken.

Door de detective te dwingen om met elke hoed een andere conclusie te trekken, heb je een veel bredere dekking. Als de rode hoed niets oplevert, heb je misschien met de blauwe hoed het antwoord gevonden.

Samenvatting

UpSkill is een trainingstechniek die grote taalmodellen leert om niet in een "echo-kamer" van zichzelf te blijven hangen. Door ze te leren om met verschillende "strategieën" (zoals verschillende knoppen) te werken, krijgen we een model dat:

  1. Minder vaak vastloopt.
  2. Meer creatieve oplossingen vindt.
  3. Beter presteert op taken waar je meerdere pogingen nodig hebt (zoals wiskunde en coderen).

Het is alsof je een team van vijf experts in plaats van één expert inzet, maar dan allemaal in één slimme robot verpakt.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →