AgentCoMa: A Compositional Benchmark Mixing Commonsense and Mathematical Reasoning in Real-World Scenarios

Deze paper introduceert AgentCoMa, een nieuw benchmark voor het testen van LLM's op gecombineerd gezond verstand en wiskundig redeneren in realistische scenario's, waarbij blijkt dat modellen bij gemengde taken aanzienlijk slechter presteren dan bij afzonderlijke stappen, ondanks dat mensen dit probleem niet ervaren.

Lisa Alazraki, Lihu Chen, Ana Brassard, Joe Stacey, Hossein A. Rahmani, Marek Rei

Gepubliceerd Wed, 11 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

🧠 De "Twee-Hoofdige" Uitdaging voor AI

Stel je voor dat je een slimme robot hebt die perfect kan rekenen en perfect kan redeneren over alledaagse dingen.

  • Rekenen: "Als ik 3 appels koop voor €1,50 elk, hoeveel kost dat dan?" (Dit is wiskunde).
  • Redeneren: "Mag ik een tapijt dweilen met water?" (Dit is gezond verstand; het antwoord is nee, want het gaat kapot).

Tot nu toe dachten we dat deze robots (grote taalmodellen of LLM's) hier allebei goed in waren. Maar dit nieuwe onderzoek, genaamd AgentCoMa, laat zien dat er een groot probleem is als we deze twee vaardigheden tegelijk vragen.

🏗️ De Bouwtekening: Wat is AgentCoMa?

De onderzoekers (van o.a. Imperial College London) hebben een nieuwe test ontwikkeld. Ze noemen het AgentCoMa.

Stel je voor dat je een huis bouwt.

  • De eerste stap is het kiezen van de juiste materialen (gezond verstand). Bijvoorbeeld: "Welke vloer is geschikt om te dweilen?"
  • De tweede stap is het berekenen van de kosten (wiskunde). Bijvoorbeeld: "Hoeveel vierkante meter is dat en wat kost dat totaal?"

In de echte wereld moeten AI-agenten dit vaak doen. Maar in de tests van de onderzoekers moesten de robots eerst een keuze maken op basis van gezond verstand, en daarna direct een berekening maken op basis van die keuze.

📉 Het Grote Geheim: De "Klap" in de Prestaties

Hier komt het verrassende deel. De onderzoekers hebben 61 verschillende AI-modellen getest.

  1. Los van elkaar: Als je de AI vraagt alleen de keuze te maken, lukt dat bijna altijd (90% succes). Als je vraagt alleen de som te maken, lukt dat ook bijna altijd.
  2. Samen: Maar als je ze vraagt om beide stappen in één keer te doen, zakt hun prestatie met ongeveer 30%.

De metafoor:
Stel je voor dat je een atleet hebt die perfect kan hardlopen en perfect kan springen.

  • Als je zegt: "Loop 100 meter," doet hij het perfect.
  • Als je zegt: "Spring over de hindernis," doet hij het perfect.
  • Maar als je zegt: "Loop 100 meter en spring dan direct over de hindernis," struikelt hij.

Het lijkt alsof de AI vergeet hoe ze moeten hardlopen zodra ze moeten springen. Ze raken de draad kwijt.

🧩 Waarom gebeurt dit? (De "Brein"-analyse)

De onderzoekers keken diep in het "brein" van de AI (de neurale netwerken) om te zien wat er misging. Ze vonden drie belangrijke dingen:

  1. De "Gewone" Oefening: De AI's zijn getraind op enorme hoeveelheden tekst. Maar in die tekst komen vragen voor waarbij je eerst moet rekenen en dan moet redeneren, of andersom, heel zelden voor. Het is een zeldzame combinatie voor hen.
  2. De Verkeerde Schakelaar: Wanneer de AI de moeilijke vraag krijgt, schakelt ze automatisch naar het "rekenen-deel" van haar brein. Ze vergeet het "gezond-verstand-deel" bijna volledig. Het is alsof je een auto start die alleen maar naar links kan sturen, terwijl je nu rechts moet afslaan.
  3. Mensen vs. Robots: Interessant genoeg kunnen gewone mensen (die geen experts zijn) deze vragen heel goed oplossen. Voor ons is het niet moeilijk om eerst te denken "Oh, tapijt mag niet gedweild worden" en dan "Oké, dan reken ik alleen de tegels". De AI vindt dit echter een enorme hindernis.

🛠️ Wat betekent dit voor de toekomst?

Dit onderzoek is belangrijk omdat het laat zien dat AI's nog kwetsbaar zijn. Ze zijn goed in losse taken, maar nog niet goed in het mixen van verschillende soorten denken in realistische situaties.

  • Voorbeeld uit de echte wereld: Een AI die voor jou boodschappen doet. Hij moet weten dat je een vegetariër bent (gezond verstand) én dat je niet meer dan €50 wilt uitgeven (rekenen). Als hij de combinatie niet goed maakt, koopt hij misschien vlees of wordt je budget overschreden.

🎯 Conclusie in één zin

AgentCoMa is een nieuwe test die laat zien dat AI's, net als iemand die net een nieuwe sport leert, vaak struikelen als ze twee verschillende vaardigheden tegelijk moeten gebruiken, terwijl mensen dit moeiteloos doen. Het is een uitnodiging aan onderzoekers om AI's te leren hoe ze beter kunnen "schakelen" tussen verschillende soorten denken.