Semantic Invariance in Agentic AI

Each language version is independently generated for its own context, not a direct translation.

🧠 De "Onzichtbare Kracht" van Slimme Computers: Waarom Groter niet Altijd Beter is

Stel je voor dat je een superintelligente robot hebt die complexe problemen oplost, zoals het berekenen van de route voor een vrachtwagen of het stellen van een medische diagnose. Je noemt deze robot een LLM-agent (een taalmodel dat als een autonome agent werkt).

Nu, als je deze robot vraagt: "Hoeveel is 2 plus 2?", geeft hij het antwoord: "4".
Maar wat als je het vraagt als: "Wat krijg je als je twee appels en nog twee appels bij elkaar optelt?" of "In een zakelijke context: als we twee eenheden toevoegen aan twee eenheden, wat is de som?"

Een perfecte robot zou in alle drie de gevallen hetzelfde antwoord moeten geven: 4.

Dit onderzoek van een team van wetenschappers uit Luxemburg, Spanje en Nederland gaat over precies dit: Semantische Invariantie. Dat is een groot woord voor: "Blijft je antwoord hetzelfde, ook al verandert de manier waarop ik de vraag stel?"

🕵️‍♂️ Het Probleem: De "Kleedkamer"-Test

De onderzoekers zeggen dat we tot nu toe slimme robots alleen hebben getest op hun "kleding". Ze kregen standaardproblemen op een examen (zoals MMLU of GSM8K) en we keken of ze het goed hadden.

Maar in het echte leven is de wereld niet zo gestructureerd. Mensen stellen vragen op duizenden manieren.

Soms zijn ze kort en bondig.
Soms zijn ze langdradig en vol met extra details.
Soms worden de feiten in een andere volgorde verteld.
Soms wordt de vraag verpakt in een zakelijke context of juist in een schoolse context.

Het onderzoek stelt: "Wat als je robot goed is in het examen, maar in paniek raakt als je de vraag net anders stelt?" Dat is gevaarlijk, zeker als die robot medische beslissingen neemt of geld investeert.

🧪 De Oplossing: De "Metamorfose"-Test

Om dit te testen, hebben de onderzoekers een nieuwe testmethode bedacht die ze Metamorfose-testen noemen.

Stel je voor dat je een spiegel hebt. Als je voor de spiegel staat en je draait je hoofd, zie je nog steeds jezelf. Als je een hoed opzet, zie je nog steeds jezelf. Maar als je voor de spiegel staat en je wordt ineens een eend, dan is de spiegel kapot.

De onderzoekers namen 19 moeilijke problemen (over natuurkunde, wiskunde, biologie, etc.) en veranderden ze op 8 verschillende manieren, zonder de betekenis te veranderen:

Parafraze: De vraag in andere woorden zeggen.
Hervatten: Feiten in een andere volgorde zetten.
Uitbreiden: De vraag langer maken met extra uitleg.
Korter maken: De vraag tot de kern inperken.
Context: De vraag in een zakelijke of academische setting zetten.
Contrast: De vraag vergelijken met een ander scenario (een valstrik).

Ze gaven deze "verklede" vragen aan 7 verschillende AI-modellen (van kleine tot gigantische) en keken: Geeft de robot nog steeds hetzelfde antwoord?

📉 De Verassende Resultaten: De "Gigantische" Valstrik

Het meest verbazingwekkende resultaat is dit: Groter is niet per se sterker.

In de wereld van AI denken we vaak: "Hoe meer hersencellen (parameters) een model heeft, hoe slimmer en stabieler het is."
Maar dit onderzoek toont het tegenovergestelde aan.

De "Gigant" (Hermes 405B): Dit is een enorm model met 405 miljard parameters. Het is een "olifant". Het doet het goed op standaardtests, maar als je de vraag net iets anders stelt, begint het te hinken. Het wordt verward door extra details of een andere volgorde.
De "Wendbare" (Qwen3-30B): Dit is een veel kleiner model (slechts 30 miljard parameters, waarvan er maar 3 actief zijn). Dit is als een wandelende kat. Het is veel wendbaarder. Als je de vraag verandert, blijft het antwoord stabiel. Het faalt veel minder vaak dan de gigant.

De les: Een kleine, wendbare robot is vaak betrouwbaarder in het echte leven dan een enorme, stijve robot die alleen goed is op zijn eigen examen.

🎭 De "Contrast"-Valstrik

Er was één type vraag waar alle robots, groot of klein, op faalden: de Contrast-vraag.
Stel je voor dat je vraagt: "Hoeveel is 2+2?" en je voegt toe: "Maar vergeet niet, in een parallel universum is 2+2 soms 5, en in een ander universum is het 3. Wat is het dan?"

Dit soort "afleidingen" maakten alle robots gek. Ze raakten in de war en gaven soms verkeerde antwoorden. Het lijkt erop dat AI's moeite hebben om zich te concentreren op de kern als er "ruis" of alternatieve scenario's bij komen.

🏁 Wat betekent dit voor ons?

Dit onderzoek is een wake-up call voor iedereen die AI gebruikt:

Kijk niet alleen naar de grootte: Als je een AI kiest voor een belangrijke taak (zoals in een ziekenhuis of bij een bank), moet je niet alleen kijken naar hoe slim hij is op een standaardtest. Je moet testen of hij stabiel blijft als de situatie verandert.
Kies je model slim: Soms is een kleiner, specifiek getraind model (zoals de Qwen3 in dit onderzoek) veiliger en betrouwbaarder dan een gigantisch model.
Wees voorzichtig met afleiding: AI's zijn nog steeds erg gevoelig voor "verkeerde" informatie in de vraag. We moeten leren hoe we ze beter kunnen trainen om niet in de val te lopen.

Kortom: De onderzoekers hebben bewezen dat we niet blindelings moeten vertrouwen op de grootste AI's. Net als bij een auto: een dure, grote limousine is niet per se veiliger in een storm dan een kleine, wendbare auto die beter kan reageren op onverwachte obstakels.

Each language version is independently generated for its own context, not a direct translation.

Titel: Semantische Invariantie in Agente AI

Auteurs: I. de Zarzà et al. (LUXEMBOURG Institute of Science and Technology, Barcelona Supercomputing Center, Universitat Politècnica de València, etc.)

1. Het Probleem

Grote Taalmodellen (LLMs) worden steeds vaker ingezet als autonome redeneeragenten in kritieke toepassingen zoals wetenschappelijke ontdekking, medische besluitvorming en multi-agent-coördinatie. Een fundamenteel vereiste voor betrouwbare agenten is semantische invariantie: het vermogen om consistente output te genereren wanneer de input semantisch equivalent is, maar anders geformuleerd.

Huidige evaluatiemethoden (zoals benchmarks MMLU, GSM8K, MATH) testen modellen op vaste, canonieke probleemformuleringen. Ze gaan er ten onrechte van aan dat prestaties generaliseren naar semantisch equivalente herschrijvingen. Er is echter groeiend bewijs dat LLMs uiterst gevoelig zijn voor oppervlakkige inputvariaties (zoals parafraze, volgorde van feiten of contextuele framing), wat hun betrouwbaarheid in de echte wereld ondermijnt. Bestaande robuustheidstests focussen vaak op adversariele perturbaties die prestaties moeten verslechteren, in plaats van op transformaties die geen verandering in het antwoord zouden mogen veroorzaken.

2. Methodologie

De auteurs presenteren een metamorfisch testkader om de robuustheid van LLM-redeneeragenten systematisch te evalueren. In plaats van te zoeken naar een "ground truth" voor elke getransformeerde input, definiëren ze metamorfische relaties (MR's): verwachte relaties tussen output en input. Voor semantisch equivalente transformaties is de verwachte relatie dat de oplossing en het redeneerproces invariant blijven.

Het Kader:

Transformaties: Er worden 8 metamorfische relaties toegepast, ingedeeld in drie categorieën:
1. Structureel: Identiteit (baseline), Parafraze (herschrijven), Feiten herschikken (reordering).
2. Verbositeit: Uitbreiden (toevoegen van context zonder nieuwe info), Inkorten (verwijderen van overbodige tekst).
3. Contextueel: Academische framing, Zakelijke framing, Contrastieve formulering (toevoegen van alternatieve scenario's/misvattingen).
Modellen: Zeven foundation modellen uit vier architecturale families worden getest:
- Hermes: 70B en 405B parameters (Dense Transformer).
- Qwen3: 30B-A3B en 235B-A22B (MoE - Mixture of Experts).
- DeepSeek: R1-0528 (MoE).
- gpt-oss: 20B en 120B (Dense Transformer).
Dataset: 19 meerstaps redeneerproblemen over 8 wetenschappelijke domeinen (Fysica, Wiskunde, Chemie, etc.) met drie moeilijkheidsgraden.
Evaluatiemetrics:
- Oplossingskwaliteit: Cosijn-similariteit tussen de gegenereerde oplossing en de referentieoplossing.
- Score Delta ( $\Delta$ ): Het verschil in kwaliteit tussen de originele en getransformeerde input. Een waarde dicht bij 0 betekent invariantie.
- Stabiliteitspercentage: Het percentage transformaties waarbij de score delta kleiner is dan 0,05.
- Trace Similariteit: Coherentie van het redeneerproces (stappen voor stap) over transformaties heen.

3. Belangrijkste Bijdragen

Metamorfisch Testkader voor Agenten: De eerste systematische toepassing van metamorfische testing op LLM-agenten om semantische invariantie te kwantificeren, in plaats van alleen eindantwoorden te evalueren.
Ontdekking van Schaal-Robuustheid Inversie: Het weerleggen van de aanname dat grotere modellen per definitie robuuster zijn.
Architecturale "Vulnerability Signatures": Het identificeren van specifieke kwetsbaarheidsprofielen per modelfamilie.
Universele Kwetsbaarheid voor Contrast: Het aantonen dat contrastieve formuleringen (het toevoegen van afleidende alternatieven) een fundamentele zwakte is voor alle geteste modellen.

4. Resultaten

De resultaten tonen een opmerkelijke disconnectie tussen modelgrootte en betrouwbaarheid:

Schaal-Robuustheid Inversie: Grotere modellen presteren vaak slechter op robuustheid dan kleinere.
- Het kleinere Qwen3-30B-A3B (met slechts 3B actieve parameters) behaalde de hoogste stabiliteit (79,6% invariantie) en de hoogste semantische similariteit (0,91).
- Het grotere Hermes-405B en gpt-oss-120b vertoonden meer fragiliteit, ondanks hun enorme parameteraantallen.
Model-Familie Signatures:
- Qwen3: Toonde de meest gebalanceerde robuustheid over alle transformaties heen.
- Hermes: Sterke basisprestaties, maar zeer kwetsbaar voor contrastieve transformaties.
- DeepSeek-R1: Gevoelig voor structurele transformaties, met name het herschikken van feiten.
- gpt-oss: Toonde catastrofale instabiliteit, vooral bij contrast en herschikking.
Contrastieve Kwetsbaarheid: Alle modelfamilies leden aanzienlijke prestatieverlies bij contrastieve transformaties (tot -0,45 scoreverlies bij gpt-oss-120b). Dit suggereert dat attention-mechanismen moeite hebben met het filteren van plausibele maar irrelevante afleidingen.
Verbositeit: Uitbreiding van tekst hielp sommige modellen (Qwen3) maar verwarde andere (gpt-oss, DeepSeek), wat wijst op architecturale verschillen in hoe context wordt verwerkt.

5. Betekenis en Conclusie

Dit onderzoek heeft belangrijke implicaties voor de implementatie van Agente AI:

Keuze van Model: In scenario's waar betrouwbaarheid en consistentie belangrijker zijn dan pure prestatie op standaard benchmarks, kunnen kleinere, specifiek getrainde modellen (zoals Qwen3-30B) superieur zijn aan enorme foundation modellen.
Evaluatie Paradigma: Standaard benchmarks zijn ontoereikend voor het beoordelen van de betrouwbaarheid van agenten in dynamische omgevingen. Metamorfische testing moet een standaard onderdeel worden van de evaluatiepipeline.
Systeemontwerp: Multi-agent systemen moeten rekening houden met de specifieke "vulnerability signatures" van modellen. Bijvoorbeeld, door modellen te combineren die complementaire zwaktes hebben (bijv. een model dat goed is tegen parafraze maar slecht tegen contrast, gecombineerd met een ander model), kunnen ensemble-strategieën de algehele robuustheid verhogen.
Toekomstige Richting: Er is behoefte aan fine-tuning doelen die semantische invariantie expliciet optimaliseren en aan architecturale interventies om de gevoeligheid voor misleidende context (contrast) te verminderen.

Kortom, het artikel toont aan dat "beter presteren op benchmarks" niet gelijkstaat aan "betrouwbaarder zijn in de praktijk", en dat semantische invariantie een kritieke, maar vaak genegeerde, dimensie is voor de veilige inzet van AI-agenten.

Semantic Invariance in Agentic AI

🧠 De "Onzichtbare Kracht" van Slimme Computers: Waarom Groter niet Altijd Beter is

🕵️‍♂️ Het Probleem: De "Kleedkamer"-Test

🧪 De Oplossing: De "Metamorfose"-Test

📉 De Verassende Resultaten: De "Gigantische" Valstrik

🎭 De "Contrast"-Valstrik

🏁 Wat betekent dit voor ons?

Titel: Semantische Invariantie in Agente AI

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks