Semantic Invariance in Agentic AI

Dit artikel introduceert een metamorfische testframework om de semantische invariantie van LLM-agenten te evalueren, waarbij wordt vastgesteld dat modelgrootte geen voorspeller is voor robuustheid en dat kleinere modellen zoals Qwen3-30B-A3B stabieler presteren dan grotere tegenhangers.

I. de Zarzà, J. de Curtò, Jordi Cabot, Pietro Manzoni, Carlos T. Calafate

Gepubliceerd 2026-03-16
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

🧠 De "Onzichtbare Kracht" van Slimme Computers: Waarom Groter niet Altijd Beter is

Stel je voor dat je een superintelligente robot hebt die complexe problemen oplost, zoals het berekenen van de route voor een vrachtwagen of het stellen van een medische diagnose. Je noemt deze robot een LLM-agent (een taalmodel dat als een autonome agent werkt).

Nu, als je deze robot vraagt: "Hoeveel is 2 plus 2?", geeft hij het antwoord: "4".
Maar wat als je het vraagt als: "Wat krijg je als je twee appels en nog twee appels bij elkaar optelt?" of "In een zakelijke context: als we twee eenheden toevoegen aan twee eenheden, wat is de som?"

Een perfecte robot zou in alle drie de gevallen hetzelfde antwoord moeten geven: 4.

Dit onderzoek van een team van wetenschappers uit Luxemburg, Spanje en Nederland gaat over precies dit: Semantische Invariantie. Dat is een groot woord voor: "Blijft je antwoord hetzelfde, ook al verandert de manier waarop ik de vraag stel?"

🕵️‍♂️ Het Probleem: De "Kleedkamer"-Test

De onderzoekers zeggen dat we tot nu toe slimme robots alleen hebben getest op hun "kleding". Ze kregen standaardproblemen op een examen (zoals MMLU of GSM8K) en we keken of ze het goed hadden.

Maar in het echte leven is de wereld niet zo gestructureerd. Mensen stellen vragen op duizenden manieren.

  • Soms zijn ze kort en bondig.
  • Soms zijn ze langdradig en vol met extra details.
  • Soms worden de feiten in een andere volgorde verteld.
  • Soms wordt de vraag verpakt in een zakelijke context of juist in een schoolse context.

Het onderzoek stelt: "Wat als je robot goed is in het examen, maar in paniek raakt als je de vraag net anders stelt?" Dat is gevaarlijk, zeker als die robot medische beslissingen neemt of geld investeert.

🧪 De Oplossing: De "Metamorfose"-Test

Om dit te testen, hebben de onderzoekers een nieuwe testmethode bedacht die ze Metamorfose-testen noemen.

Stel je voor dat je een spiegel hebt. Als je voor de spiegel staat en je draait je hoofd, zie je nog steeds jezelf. Als je een hoed opzet, zie je nog steeds jezelf. Maar als je voor de spiegel staat en je wordt ineens een eend, dan is de spiegel kapot.

De onderzoekers namen 19 moeilijke problemen (over natuurkunde, wiskunde, biologie, etc.) en veranderden ze op 8 verschillende manieren, zonder de betekenis te veranderen:

  1. Parafraze: De vraag in andere woorden zeggen.
  2. Hervatten: Feiten in een andere volgorde zetten.
  3. Uitbreiden: De vraag langer maken met extra uitleg.
  4. Korter maken: De vraag tot de kern inperken.
  5. Context: De vraag in een zakelijke of academische setting zetten.
  6. Contrast: De vraag vergelijken met een ander scenario (een valstrik).

Ze gaven deze "verklede" vragen aan 7 verschillende AI-modellen (van kleine tot gigantische) en keken: Geeft de robot nog steeds hetzelfde antwoord?

📉 De Verassende Resultaten: De "Gigantische" Valstrik

Het meest verbazingwekkende resultaat is dit: Groter is niet per se sterker.

In de wereld van AI denken we vaak: "Hoe meer hersencellen (parameters) een model heeft, hoe slimmer en stabieler het is."
Maar dit onderzoek toont het tegenovergestelde aan.

  • De "Gigant" (Hermes 405B): Dit is een enorm model met 405 miljard parameters. Het is een "olifant". Het doet het goed op standaardtests, maar als je de vraag net iets anders stelt, begint het te hinken. Het wordt verward door extra details of een andere volgorde.
  • De "Wendbare" (Qwen3-30B): Dit is een veel kleiner model (slechts 30 miljard parameters, waarvan er maar 3 actief zijn). Dit is als een wandelende kat. Het is veel wendbaarder. Als je de vraag verandert, blijft het antwoord stabiel. Het faalt veel minder vaak dan de gigant.

De les: Een kleine, wendbare robot is vaak betrouwbaarder in het echte leven dan een enorme, stijve robot die alleen goed is op zijn eigen examen.

🎭 De "Contrast"-Valstrik

Er was één type vraag waar alle robots, groot of klein, op faalden: de Contrast-vraag.
Stel je voor dat je vraagt: "Hoeveel is 2+2?" en je voegt toe: "Maar vergeet niet, in een parallel universum is 2+2 soms 5, en in een ander universum is het 3. Wat is het dan?"

Dit soort "afleidingen" maakten alle robots gek. Ze raakten in de war en gaven soms verkeerde antwoorden. Het lijkt erop dat AI's moeite hebben om zich te concentreren op de kern als er "ruis" of alternatieve scenario's bij komen.

🏁 Wat betekent dit voor ons?

Dit onderzoek is een wake-up call voor iedereen die AI gebruikt:

  1. Kijk niet alleen naar de grootte: Als je een AI kiest voor een belangrijke taak (zoals in een ziekenhuis of bij een bank), moet je niet alleen kijken naar hoe slim hij is op een standaardtest. Je moet testen of hij stabiel blijft als de situatie verandert.
  2. Kies je model slim: Soms is een kleiner, specifiek getraind model (zoals de Qwen3 in dit onderzoek) veiliger en betrouwbaarder dan een gigantisch model.
  3. Wees voorzichtig met afleiding: AI's zijn nog steeds erg gevoelig voor "verkeerde" informatie in de vraag. We moeten leren hoe we ze beter kunnen trainen om niet in de val te lopen.

Kortom: De onderzoekers hebben bewezen dat we niet blindelings moeten vertrouwen op de grootste AI's. Net als bij een auto: een dure, grote limousine is niet per se veiliger in een storm dan een kleine, wendbare auto die beter kan reageren op onverwachte obstakels.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →