Evaluating Adjective-Noun Compositionality in LLMs: Functional vs Representational Perspectives

Each language version is independently generated for its own context, not a direct translation.

De Geheime Taal van AI: Waarom Computers Slim Klinken, Maar Niet Altijd Slim Denken

Stel je voor dat je een enorme bibliotheek hebt met miljarden boeken. Je vraagt aan een slimme bibliothecaris (een Groot Taalmodel of LLM) om een nieuwe zin te maken door twee woorden te combineren, bijvoorbeeld "rode auto".

Deze paper van onderzoekers uit Kopenhagen en Microsoft onderzoekt iets heel interessants: Kan deze bibliothecaris echt begrijpen wat "rode auto" betekent, of leest hij alleen de woorden voor?

Om dit te testen, kijken ze naar twee verschillende manieren om de bibliothecaris te beoordelen:

De "Uitvoering"-test: Wat zegt de bibliothecaris als je hem een vraag stelt? (Functioneel)
De "Brein-scan"-test: Wat gebeurt er in zijn hoofd terwijl hij nadenkt? (Representatief)

Hier is wat ze ontdekten, vertaald naar alledaags taalgebruik:

1. De Twee Kijkwijzen

De Uitvoering (Wat hij zegt)
Stel je voor dat je de bibliothecaris vraagt: "Als een 'nieuwe record' een 'record' is, is een 'vermeende dader' dan ook een 'dader'?"

Het probleem: Soms zegt de bibliothecaris "Ja", soms "Nee". Het hangt af van hoe je de vraag stelt, hoe groot zijn geheugen is, of hij is getraind om instructies te volgen.
De verrassing: Als je de bibliothecaris groter maakt (meer geheugen) of hem beter traint om instructies te volgen, wordt hij niet per se beter in deze logica. Soms wordt hij zelfs slechter. Het is alsof je een student meer boeken geeft, maar hij vergeet dan juist hoe hij een som moet oplossen.

De Brein-scan (Wat hij denkt)
Nu kijken we niet naar wat hij zegt, maar naar de elektrische signalen in zijn "hersenen" (de interne lagen van het model).

De verrassing: Zelfs als de bibliothecaris de vraag verkeerd beantwoordt, zien we in zijn "hersenen" dat hij het antwoord wel degelijk weet. De informatie over de betekenis van "rode auto" zit er perfect in. Het is alsof hij het antwoord op zijn tong heeft, maar het niet durft of kan uitspreken.

2. De Grote Klap: Het Verschil tussen Weten en Doen

De onderzoekers ontdekten een groot gat tussen weten en doen.

De Analogie van de Acteur: Stel je een acteur voor die een toneelstuk speelt. Hij kent zijn tekst perfect (de interne kennis is er), maar als de regisseur zegt "Speel het nu!", doet hij het soms raar of verkeerd.
De conclusie: De AI-modellen hebben de "combinatiekracht" (het vermogen om woorden logisch te koppelen) al in hun systeem. Maar ze kunnen deze kennis niet altijd consistent gebruiken om een vraag correct te beantwoorden.

3. Waarom is dit belangrijk?

Vroeger dachten we: "Als de AI de test haalt, is hij slim. Als hij faalt, is hij dom."
Deze paper zegt: "Nee, wacht even. Hij is niet dom, hij is gewoon een beetje verward over hoe hij zijn kennis moet tonen."

Als we alleen kijken naar of de AI het juiste antwoord geeft (de test), denken we misschien dat hij geen logica heeft. Maar als we naar zijn interne werking kijken, zien we dat hij die logica wel heeft.

Wat betekent dit voor de toekomst?
Als we AI willen vertrouwen (bijvoorbeeld in de zorg of justitie), mogen we niet alleen kijken naar of hij het juiste antwoord geeft. We moeten ook begrijpen waarom hij soms faalt, zelfs als hij het antwoord "weet".

Samenvattend in één zin:

Deze AI-modellen zijn als een genie dat de oplossing voor een raadsel in zijn hoofd heeft, maar soms vergeet hoe hij het moet vertellen; we moeten dus niet alleen naar zijn antwoord kijken, maar ook naar hoe zijn brein werkt, om te begrijpen wat hij echt kan.

Evaluating Adjective-Noun Compositionality in LLMs: Functional vs Representational Perspectives

1. De Twee Kijkwijzen

2. De Grote Klap: Het Verschil tussen Weten en Doen

3. Waarom is dit belangrijk?

Samenvattend in één zin:

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen

Betekenis en Implicaties

Evaluating Adjective-Noun Compositionality in LLMs: Functional vs Representational Perspectives

1. De Twee Kijkwijzen

2. De Grote Klap: Het Verschil tussen Weten en Doen

3. Waarom is dit belangrijk?

Samenvattend in één zin:

Probleemstelling

Methodologie

Belangrijkste Resultaten

Bijdragen

Betekenis en Implicaties

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models