Each language version is independently generated for its own context, not a direct translation.
Stel je voor dat een groot, complex computersysteem (zoals een bank-app of een telefoonnetwerk) op een dag crasht. Er is een enorme paniek: geld stroomt weg, klanten zijn boos, en niemand weet waarom.
Vroeger moest een team van super-ervaren ingenieurs de "autopsie" uitvoeren. Ze keken naar duizenden logs, grafieken en foutmeldingen om de boosdoener te vinden. Vandaag de dag hopen we dat AI-agenten dit werk voor hen kunnen doen. Het idee is dat slimme computersystemen samenwerken om het probleem op te lossen, net als een team van detectives.
Maar dit artikel, geschreven door onderzoekers van de Hanyang Universiteit, vertelt een hardnekkig verhaal: deze AI-detectives falen systematisch. Zelfs met de allerbeste modellen is de kans dat ze het probleem écht vinden, slechts tussen de 4% en 12%.
Hier is wat er misgaat, vertaald in simpele taal met een paar creatieve vergelijkingen.
1. Het Probleem: De "Blinde" Detectives
De AI-agenten die de onderzoekers gebruikten, werken volgens een specifiek plan:
- De Chef (Controller): Deze AI denkt na, stelt hypotheses en geeft instructies.
- De Werknemer (Executor): Deze AI schrijft de code om de data te checken en geeft het resultaat terug.
Het probleem is dat ze niet goed samenwerken en vaak in de war raken. De onderzoekers keken niet alleen naar of het antwoord goed was, maar keken hoe de AI tot dat antwoord kwam. Ze ontdekten 12 soorten "valkuilen" (fouten).
2. De Drie Grootste Valkuilen (Met Vergelijkingen)
A. De Chef die fantaseert (Intra-Agent Falen)
De meest voorkomende fout (in 71% van de gevallen) is dat de "Chef" de data verkeerd interpreteert.
- De Vergelijking: Stel je voor dat je een detective bent die een spoor van modder ziet. Een goede detective zegt: "Er is iemand gelopen." De AI-Chef zegt echter: "Ah, dit is zeker een olifant die hier gelopen heeft!" Hij maakt er een verhaal van dat logisch klinkt, maar dat niet waar is. Hij "hallucineert" een betekenis die er niet is.
- Het Resultaat: De AI kijkt wel naar de data, maar trekt de verkeerde conclusies. Of ze kijken alleen naar de temperatuur en vergeten de motorolie te checken (onvolledig onderzoek).
B. De Telefoonlijn die te kort is (Inter-Agent Falen)
De Chef en de Werknemer communiceren alleen via korte, samengevatte berichten.
- De Vergelijking: Het is alsof de Chef de Werknemer belt en zegt: "Kijk naar die machine." De Werknemer belt terug: "Ik heb gekeken, alles lijkt oké." Maar de Chef heeft niet gehoord hoe de Werknemer keek, of welke foutmeldingen er waren.
- Het Gevolg: De Chef denkt dat de Werknemer het juiste ding heeft gedaan, terwijl de Werknemer eigenlijk een heel ander ding heeft gedaan. Ze blijven in een cirkel draaien ("Doe het nog eens!") zonder te beseffen dat ze vastlopen.
C. De Werkbank die instort (Agent-Environment Falen)
Soms is het probleem niet de AI zelf, maar de omgeving waarin ze werken.
- De Vergelijking: Stel je voor dat de AI werkt op een bureau dat steeds voller wordt met papieren. De AI vergeet oude papieren weg te gooien. Uiteindelijk is het bureau zo vol dat er geen ruimte meer is om te werken, en de hele sessie crasht. De AI merkt dit niet op voordat het te laat is.
3. Wat werkt (en wat niet)?
De onderzoekers probeerden verschillende dingen om dit op te lossen:
Probeer 1: "Praat beter tegen de AI" (Prompt Engineering)
Ze gaven de AI strengere instructies: "Kijk naar alles!" of "Fantaseer niet!"- Resultaat: Het hielp een beetje om de AI breder te laten kijken, maar het stopte het fantaseren niet. De AI bleef gewoon mooie, maar verkeerde verhalen bedenken. Het is alsof je een kind vertelt "niet te liegen", maar het kind blijft liegen omdat het zo is ingesteld.
Probeer 2: "Geef meer details door" (Verbeterde Communicatie)
Ze veranderden de manier waarop de Chef en de Werknemer praten. In plaats van alleen een samenvatting, stuurde de Werknemer nu ook de ruwe code, de foutmeldingen en de exacte resultaten door.- Resultaat: Dit werkte wonderbaarlijk goed. De Chef kon nu zien: "Oh, de Werknemer heeft een fout gemaakt in de code!" of "Oh, dit is een echte foutmelding, niet een verzonnen verhaal."
- Het Effect: De fouten door slechte communicatie daalden met wel 15%. Bovendien werd het proces sneller, omdat ze niet meer in een cirkel hoefden te draaien.
Probeer 3: "Een bewaker voor het geheugen"
Ze voegden een automatische bewaker toe die ziet als het "bureau" (het geheugen) vol raakt, en stopt het proces voordat het crasht.- Resultaat: De crashes door vol geheugen verdwenen volledig.
4. De Grote Conclusie
De belangrijkste les uit dit onderzoek is: Het probleem zit niet in de "slimheid" van de AI-modellen.
Zelfs de slimste modellen (zoals Gemini 2.5 Pro) maken dezelfde fouten als de minder slimme modellen. Het probleem zit in hoe ze zijn gebouwd (het architectuur).
- Als je een slechte auto bouwt met een gebroken stuur, helpt het niet om een super-sportieve bestuurder (een slim AI-model) in de auto te zetten. De auto zal nog steeds van de weg raken.
- Je moet de auto repareren (de communicatie tussen de AI's verbeteren en de omgeving veiliger maken).
Kortom: Om AI-agenten echt goed te laten werken bij het oplossen van complexe computerproblemen, moeten we stoppen met alleen maar proberen ze "slimmer" te maken met betere instructies. We moeten hun samenwerking en werkomgeving opnieuw ontwerpen zodat ze eerlijk, duidelijk en veilig met elkaar kunnen praten.