Understanding the Dynamics of Demonstration Conflict in In-Context Learning

Deze studie onthult hoe grote taalmodellen tijdens in-context learning conflicterende voorbeelden verwerken door een twee-fase computatiestructuur te doorlopen, waarbij vroege 'kwetsbare' koppen en late 'gevoelige' koppen verantwoordelijk zijn voor misleidende voorspellingen, wat leidt tot een verbetering van meer dan 10% na gerichte ablacie van deze koppen.

Difan Jiao, Di Wang, Lijie Hu

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

De Grootte van het Probleem: Een Verkeerde Wegwijzer in een Meerderheid

Stel je voor dat je een grote taalcomputer (een AI) vraagt om een nieuwe taak te leren, zoals het oplossen van een wiskundepuzzel. Je geeft de computer een voorbeeld: "Kijk, als ik 2 en 2 optel, krijg ik 4. Als ik 3 en 5 optel, krijg ik 8." De computer leert snel: "Ah, ze gebruiken de optelregel!"

Dit noemen we In-Context Learning. De computer leert uit voorbeelden zonder dat we hem opnieuw hoeven te programmeren.

Maar wat gebeurt er als er één leugen tussen de waarheden zit?
Stel, je geeft de computer vier voorbeelden. Drie zijn correct (optellen), maar één is bedorven: "2 en 2 zijn 5".
Je zou denken: "Geen probleem, 3 tegen 1 is duidelijk, de computer kiest de optelregel."
Fout. De onderzoekers ontdekten dat deze AI's hier enorm op reageren. Zelfs met één verkeerd voorbeeld onder de juiste, raakt de computer in de war en kiest hij vaak de verkeerde regel. Het is alsof je in een groep van drie vrienden bent die zeggen "Ga rechtdoor", maar één vriend fluistert "Ga links", en plotseling draait de hele groep linksaf.

De Ontdekking: Hoe denkt de computer?

De onderzoekers wilden weten waarom dit gebeurt. Ze keken niet alleen naar het antwoord, maar keken "in het hoofd" van de computer (in de lagen van het neurale netwerk). Ze ontdekten dat het proces in twee fasen verloopt, net als het oplossen van een raadsel in een detectiveverhaal.

Fase 1: Het verzamelen van bewijs (De "Kwetsbare" Hoofden)

In het begin van het denkproces (in de vroege lagen van de computer) leest de AI alle voorbeelden.

  • De vergelijking: Stel je voor dat de computer een detective is die getuigenissen verzamelt. Er zijn bepaalde "detectives" (we noemen ze Vulnerability Heads of Kwetsbare Hoofden) die heel erg letten op waar in de tekst het bewijs staat.
  • Het probleem: Deze detectives zijn te gevoelig voor de positie. Als het verkeerde bewijs op een plek staat waar ze vaak naar kijken, slaan ze direct alarm. Ze slaan de verkeerde regel op in hun geheugen, zelfs als er tien juiste regels zijn. Ze creëren een "zwak punt" in het systeem.

Fase 2: Het nemen van een beslissing (De "Kwetsbare" Hoofden)

Later in het proces (in de laatste lagen) moet de computer de uiteindelijke beslissing nemen.

  • De vergelijking: Nu komt de "rechter" (we noemen ze Susceptible Heads of Kwetsbare Hoofden). Deze rechter moet beslissen welke regel geldt.
  • Het probleem: Deze rechter is te makkelijk te overtuigen. Zelfs als de meeste bewijzen voor de juiste regel pleiten, laat deze rechter zich door het ene verkeerde bewijs overhalen. Hij denkt: "Oh, die ene getuige zag er zo zeker uit, ik ga voor die regel." Hierdoor wordt de juiste beslissing onderdrukt.

De Oplossing: De "Slechte" detectives uitschakelen

Het meest interessante deel van het onderzoek is wat ze deden om dit te fixen. Ze hebben een soort "chirurgische ingreep" uitgevoerd.

Ze hebben de specifieke onderdelen (de Kwetsbare en Kwetsbare Hoofden) die verantwoordelijk waren voor het verkeerd interpreteren van de informatie, tijdelijk "uitgeschakeld" (verdoofd).

  • Het resultaat: Toen ze deze specifieke onderdelen uitschakelden, werd de computer plotseling veel slimmer. Hij negeerde de leugen en luisterde naar de meerderheid. De prestaties verbeterden met meer dan 10%.
  • De les: Het bleek dat je niet de hele computer hoeft te herschrijven. Je hoeft alleen maar die paar specifieke "detectives" en "rechters" te vinden die te snel oordelen op basis van één verkeerd getuigenis, en ze even stil te houden.

Samenvatting in één zin

Deze studie laat zien dat AI's soms vergeten om naar de meerderheid te luisteren omdat ze te gevoelig zijn voor één verkeerd voorbeeld, maar door een paar specifieke "zwakke plekken" in hun brein te identificeren en te repareren, kunnen we ze veel betrouwbaarder maken.

Waarom is dit belangrijk?
In de echte wereld is data nooit perfect; er zit altijd ruis of fouten in. Als we begrijpen waarom AI's hierin falen, kunnen we ze veiliger en slimmer maken, zodat ze niet zomaar in de war raken door één leugen in een stapel waarheden.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →