Causality \neq Invariance: Function and Concept Vectors in LLMs

Dit onderzoek toont aan dat hoewel grote taalmodellen abstracte concepten bevatten via stabiele Concept Vectors, deze verschillen van de minder robuuste Function Vectors die voornamelijk prestaties binnen dezelfde inputformaat drijven.

Gustaw Opiełka, Hannes Rosenbusch, Claire E. Stevenson

Gepubliceerd 2026-02-27
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom AI soms "slim" is, maar niet altijd "begrijpelijk": Een verhaal over twee soorten geheugen

Stel je voor dat een groot taalmodel (zoals een geavanceerde AI) een enorme bibliotheek is. In deze bibliotheek staan boeken over alles: hoe je woorden vertaalt, hoe je tegenwoorden vindt (zoals 'warm' en 'koud'), en hoe je zinnen maakt.

De onderzoekers van dit paper hebben ontdekt dat deze bibliotheek niet één groot, uniform geheugen heeft. In plaats daarvan heeft de AI twee verschillende soorten "denkers" die samenwerken, maar heel verschillend werken.

Hier is de uitleg, vertaald naar alledaagse taal:

1. De twee denkers: De "Actieve Werknemer" en de "Filosoof"

De onderzoekers hebben twee soorten vectoren (dat zijn wiskundige representaties van wat de AI denkt) ontdekt:

  • De Actieve Werknemer (Function Vectors - FV's):

    • Wat doet hij? Hij zorgt ervoor dat de AI direct het juiste antwoord geeft. Hij is de "uitvoerder".
    • Hoe werkt hij? Hij is heel goed in zijn werk, maar hij is ook een beetje oppervlakkig. Hij leest de vraag en kijkt naar hoe de vraag gesteld is.
    • Het probleem: Als je hem vraagt om een tegenwoord te vinden in een meerkeuzevraag, denkt hij: "Ah, meerkeuze! Dan moet ik een haakje gebruiken en een letter kiezen." Als je hem dezelfde vraag stelt in het Frans, denkt hij: "Ah, Frans! Dan moet ik een Frans woord gebruiken."
    • Kortom: Hij koppelt het concept (tegenwoord) direct aan de vorm (meerkeuze, Frans, Engels). Hij is niet echt abstract; hij is "format-gebonden".
  • De Filosoof (Concept Vectors - CV's):

    • Wat doet hij? Hij begrijpt het essentiële idee achter de vraag, los van hoe de vraag eruitziet.
    • Hoe werkt hij? Hij is de "abstracte denker". Als je hem vraagt om een tegenwoord, denkt hij: "Het gaat om het idee van tegenovergestelde betekenissen." Het maakt hem niet uit of de vraag in het Engels, Frans, als meerkeuze of als open vraag wordt gesteld.
    • Het probleem: Hij is niet altijd de snelste in het geven van het antwoord. Hij heeft minder "kracht" om de AI direct te laten praten, maar hij is wel het meest eerlijk en consistent.

2. De creatieve analogie: De Vertaler en de Regisseur

Laten we dit vergelijken met een filmset:

  • De Actieve Werknemer (FV) is de Regisseur.
    Hij zorgt dat de opnames vlot verlopen. Hij kijkt naar de camera, het script en de kleding. Als het script in het Frans is, zegt hij: "Acteurs, spreek Frans!" Als het een meerkeuzevraag is, zegt hij: "Acteurs, wijs naar optie A of B!" Hij is super efficiënt, maar hij verliest zich vaak in de details van de vorm van de film. Als je hem een Frans script geeft, praat hij Frans, zelfs als je eigenlijk een Engels verhaal wilde horen.

  • De Filosoof (CV) is de Schrijver van het verhaal.
    Hij zit in een hoekje en denkt na over de boodschap: "Het gaat hier over liefde en verlies." Hij maakt zich niet druk om of het script in het Frans of Engels is, of of het een boek of een film is. Hij houdt het zuivere idee vast.

    • Het interessante: De Regisseur (FV) luistert vaak niet naar de Schrijver (CV) als het om het directe antwoord gaat. De Regisseur doet het werk, maar de Schrijver bewaart de ware essentie van het verhaal.

3. Wat hebben ze ontdekt? (De "Aha!"-momenten)

De onderzoekers hebben getest wat er gebeurt als je deze twee "denkers" probeert te gebruiken om de AI te sturen (te "steeren"):

  1. Als de vorm hetzelfde blijft (In-Distribution):
    Als je de AI vraagt om een taak te doen in dezelfde vorm als waarin je haar hebt getraind (bijv. Engels, open vraag), wint de Regisseur (FV). Hij is snel, krachtig en geeft het beste antwoord.
  2. Als de vorm verandert (Out-of-Distribution):
    Als je de AI vraagt om een taak in een andere vorm te doen (bijv. van Engels naar Frans, of van open vraag naar meerkeuze), faalt de Regisseur vaak. Hij blijft de oude gewoontes (zoals het gebruik van Franse woorden of haakjes) toepassen, zelfs als dat niet past.
    De Filosoof (CV) daarentegen blijft stabiel. Hij zorgt ervoor dat de AI het idee van "tegenwoord" begrijpt, ongeacht of de vraag in het Frans of Engels is. Hij is minder krachtig, maar veel betrouwbaarder als de situatie verandert.

4. Waarom is dit belangrijk?

Vroeger dachten wetenschappers dat AI's één soort "super-intelligentie" hadden die alles abstract kon begrijpen. Dit paper toont aan dat dat niet zo is.

  • Causaliteit (Wat doet de AI?) is niet hetzelfde als Invariantie (Wat begrijpt de AI?).
    De AI kan een taak uitvoeren (door de Regisseur) zonder het concept echt abstract te begrijpen (zoals de Filosoof doet).
  • De AI is niet één geheel: Het heeft een deel dat goed is in het uitvoeren van taken in een specifieke vorm, en een ander deel dat het abstracte idee bewaart. Deze twee delen werken vaak niet samen; ze zijn zelfs bijna onafhankelijk van elkaar (ze zitten in verschillende delen van het brein van de AI).

Conclusie voor de gewone mens

Stel je voor dat je een robot hebt die heel goed kan rekenen als je het op een speciaal formulier invult. Maar als je hem de som mondeling vraagt, faalt hij.
Dit paper zegt: "Die robot heeft twee hersenen. Het ene hersen (de Regisseur) is super goed in het invullen van het formulier, maar begrijpt niet echt wat 'rekenen' is. Het andere hersen (de Filosoof) begrijpt wel wat rekenen is, maar is niet goed in het invullen van het formulier."

Om AI's echt slim en betrouwbaar te maken, moeten we leren omgaan met deze twee verschillende systemen: de krachtige uitvoerder voor snelle taken, en de abstracte denker voor echt begrijpen en aanpassen aan nieuwe situaties.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →