LLMs Struggle with Abstract Meaning Comprehension More Than Expected

Hoewel grote taalmodellen moeite hebben met het begrijpen van abstracte betekenissen, verbetert een voorgestelde bidirectionele attentie-classificator, die is geïnspireerd op menselijke cognitieve strategieën, de prestaties van fijngetuneerde modellen aanzienlijk op de SemEval-2021 ReCAM-taken.

Hamoud Alhazmi, Jiachen Jiang

Gepubliceerd 2026-04-15
📖 3 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Samenvatting: Waarom AI nog steeds worstelt met "onzichtbare" woorden

Stel je voor dat je een grote, slimme robot hebt die miljoenen boeken heeft gelezen. Hij kan perfect vertellen wat er in een verhaal gebeurt, wie wie is en wat er gebeurt. Maar als je hem vraagt om het gevoel van "vrijheid" te begrijpen, of het verschil tussen "dier" en "zoogdier" te zien, raakt hij in de war. Dat is precies wat deze studie ontdekt.

Hier is het verhaal van de studie, verteld in gewone taal met een paar creatieve vergelijkingen.

1. Het Probleem: De "Geestelijke" Woorden

Woorden zijn van twee soorten:

  • Concreet: Een "appel" of een "hond". Je kunt ze zien, ruiken en aanraken. Een robot kan dit makkelijk begrijpen.
  • Abstract: Woorden als "rechtvaardigheid", "economie" of "veiligheid". Je kunt deze niet aanraken. Ze bestaan alleen in ons hoofd.

De onderzoekers wilden weten: Kunnen de nieuwste, superkrachtige AI-modellen (zoals GPT-4) deze abstracte woorden net zo goed begrijpen als mensen?

Het verrassende antwoord: Nee, niet echt.
Zelfs de slimste robots (zoals GPT-4o) scoorden maar ongeveer 70% goed op een test met abstracte vragen. Dat klinkt hoog, maar voor een "super-intelligente" machine is dat eigenlijk een flinke mislukking. Ze blijven steken in de letterlijke tekst en missen de diepere, onzichtbare betekenis.

2. De Oude Methode vs. De Nieuwe Methode

De onderzoekers dachten: "Misschien moeten we de robot niet dwingen om te 'praten' (zoals een chatbot), maar hem trainen als een slimme lezer die een meerkezentest moet invullen."

Ze gebruikten een bestaande, sterke lezer genaamd ELECTRA (een soort slimme motor die al veel tekst heeft gelezen). Maar zelfs deze motor had moeite met abstracte puzzels.

De Creatieve Oplossing: De Twee-Weg Spiegels
Om dit op te lossen, bedachten de onderzoekers een nieuwe techniek die ze een "Bi-directionele Aandacht Classifier" noemen.

Stel je voor dat je een moeilijke vraag moet beantwoorden op een examen:

  1. Stap 1 (De Menselijke Strategie): Je leest het verhaal, kijkt naar de vraag, en zegt: "Welk antwoord past hier?"
  2. Stap 2 (De Omgekeerde Strategie): Je kijkt naar de antwoorden en zegt: "Welk verhaal past bij dit antwoord?"

Mensen doen dit onbewust allebei tegelijk. De oude AI-modellen deden dit meestal maar in één richting (van verhaal naar antwoord).

De onderzoekers bouwden een twee-weg spiegel in de AI:

  • De AI kijkt van het verhaal naar de antwoorden.
  • Tegelijkertijd kijkt de AI van de antwoorden terug naar het verhaal.
  • Dan mixt de AI deze twee blikken tot één perfect inzicht.

Het is alsof je een gesprek voert met jezelf: "Wat zegt de tekst?" en "Wat zegt het antwoord?" en dan de twee samenvoegt tot een helder beeld.

3. Het Resultaat: Een Grote Sprong Voorwaarts

Toen ze deze "twee-weg spiegel" toevoegden aan de slimme motor (ELECTRA), gebeurde er iets moois:

  • De score steeg met ongeveer 4%.
  • Dat lijkt weinig, maar in de wereld van AI is dat als een marathonloper die plotseling 2 minuten sneller loopt. Het betekende dat hun systeem nu in de top 3 van de wereld zat voor dit soort moeilijke testen.

4. De Conclusie in Eén Zin

Hoewel de nieuwste chatbots (zoals GPT-4) geweldig zijn in het genereren van tekst, zijn ze nog niet zo goed in het diep begrijpen van abstracte concepten als een goed getrainde, gespecialiseerde lezer die gebruikmaakt van slimme, tweerichtings-reflectie.

Kortom: AI is een briljant bibliothecaris die alles kan opzoeken, maar om de geest van een boek te vatten, heeft het soms een menselijke aanpak nodig: niet alleen lezen, maar ook teruggaan en nadenken over wat er precies bedoeld wordt.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →