Single-Position Intervention Fails: Distributed Output Templates Drive In-Context Learning

Dit artikel toont aan dat taakidentiteit bij in-context learning niet gelokaliseerd is tot specifieke lagen of tokens zoals door lineaire probing wordt gesuggereerd, maar causaal is gecodeerd als gedistribueerde outputformaattemplates over demonstratietokens heen, met een kritiek interventievenster rond 30% van de netwerkdiepte.

Oorspronkelijke auteurs: Bryan Cheng, Jasper Zhang

Gepubliceerd 2026-05-07
📖 5 min leestijd🧠 Diepgaand

Oorspronkelijke auteurs: Bryan Cheng, Jasper Zhang

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Each language version is independently generated for its own context, not a direct translation.

Stel je een groot taalmodel (zoals die chatbots aandrijven) voor als een enorme fabriek met meerdere verdiepingen. Wanneer je het een paar voorbeelden van een taak geeft (zoals "zet dit woord in hoofdletters"), probeert het de regel te achterhalen en toe te passen op je nieuwe vraag. Dit heet In-Context Learning (ICL).

Lange tijd dachten wetenschappers dat ze wisten waar in deze fabriek de "regel" was opgeslagen. Ze gebruikten een hulpmiddel genaamd een "probe" (zoals een metaaldetector) die luid kon piepen en zeggen: "Ja, de regel voor 'hoofdletters' zit hier!" Ze vonden deze piepjes op specifieke plekken op specifieke verdiepingen van de fabriek.

De Grote Verrassing: De Metaaldetector is een Leugenaar
De auteurs van dit artikel besloten te testen of die piepjes eigenlijk wel iets belangrijks betekenden. Ze probeerden een "chirurgische" experiment: ze gingen naar de exacte plek waar de metaaldetector zei dat de regel zat, verwijderden de informatie en vervingen het door iets anders.

  • Het Resultaat: Er gebeurde niets. De fabriek bleef perfect werken, de chirurgische ingreep volledig negerend.
  • De Analogie: Stel je voor dat je denkt dat de motor van een auto wordt bestuurd door één enkele rode draad. Je knipt die draad door, in de verwachting dat de auto stopt. In plaats daarvan blijft de auto rijden. Het blijkt dat de motor niet wordt bestuurd door één draad; het signaal is verspreid over duizenden draden. Als je er maar één doorsnijdt, geeft de auto er niets om.

De Eigenlijke Ontdekking: Het "Verspreide Sjabloon"
De onderzoekers realiseerden zich dat de "regel" niet op één plek is opgeslagen. Het is als een puzzel die verspreid ligt over de volledige set voorbeelden die je aan het model hebt gegeven.

  1. Het Falen op Eén Positie: Als je probeert om slechts één stukje van de puzzel te vervangen (één woord in het voorbeeld), merkt het model het niet. Het heeft te veel andere stukjes om het plaatje te vormen.
  2. De Doorbraak op Meerdere Posities: Maar, als je alle stukjes van de puzzel tegelijk vervangt (elk uitvoerwoord in de voorbeelden), verandert het model wel van mening. Het begint de nieuwe regel die je hebt gegeven te volgen.

Het "Sweet Spot" in de Fabriek
De onderzoekers ontdekten dat deze "puzzelvervanging" alleen werkt als je het op een specifieke verdieping van de fabriek doet.

  • Te vroeg (Verdiepingen 1–7): De puzzelstukken zijn nog niet in elkaar gezet; het patroon is niet duidelijk.
  • Te laat (Verdiepingen 15+): De fabriek heeft de auto al gebouwd en rijdt weg; het blauwdruk nu veranderen is te laat.
  • Precies goed (Verdieping 8): Dit is het "toewijzingsvenster". Het is waar de fabriek het ontwerp finaliseert maar nog niet is begonnen met bouwen. Als je hier de blauwdrukken verwisselt, bouwt de fabriek de nieuwe auto.

Wat Wordt Eigenlijk Overgedragen?
Het artikel ontdekte dat het model niet de betekenis van de taak leert (zoals "dit gaat over gevoelens"). In plaats daarvan leert het de vorm van het antwoord.

  • De Analogie: Stel je voor dat je een model leert hoe je een gedicht schrijft. Als je de voorbeelden verandert om een ander type gedicht te tonen (bijvoorbeeld van rijmende coupletten naar haiku's), zal het model niet overschakelen, zelfs niet als het onderwerp hetzelfde blijft.
  • De Bevinding: Het model kopieert alleen het "sjabloon". Als de voorbeelden tonen "Woord, Woord, Woord", zal het model alleen overschakelen naar een nieuwe taak als die nieuwe taak er ook uitziet als "Woord, Woord, Woord". Het geeft er niets om of de woorden over katten of getallen gaan; het geeft om de structuur.

De Query versus De Voorbeelden
Het artikel ontdekte ook een grappige asymmetrie:

  • De Voorbeelden (De Demo): Deze zijn als de "ingrediënten". Je hebt ze allemaal nodig om het gerecht te maken. Als je er één mist, werkt het recept nog steeds omdat de anderen het opvangen. Maar als je ze allemaal verwisselt, verandert het gerecht volledig.
  • De Vraag (De Query): Dit is de "chef" die het recept leest. Als je de instructies van de chef verstoort (het vraaggedeelte), faalt het hele proces. De chef is essentieel, maar de chef houdt het recept niet vast; de ingrediënten doen dat.

Samenvatting in Gewone Taal

  1. Vertrouw de metaaldetector niet: Alleen omdat een model een regel op één plek kan vinden, betekent dat niet dat die plek belangrijk is.
  2. De regel is overal: De "taakidentiteit" is verspreid over alle voorbeeldantwoorden, niet vastgeplakt op één plek.
  3. Timing is belangrijk: Je kunt alleen van mening veranderen in het midden van het denkproces van het model, niet aan het begin of het einde.
  4. Het gaat om de vorm, niet de betekenis: Het model kopieert het formaat van het antwoord (zoals een sjabloon) in plaats van de diepe logica van de taak te begrijpen.

Dit artikel herschreef in wezen de kaart van hoe deze AI-modellen leren van voorbeelden, en liet zien dat het "brein" van de taak een verspreid, fouttolerant netwerk is, en niet een enkele schakelaar.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →