The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break

Dit paper introduceert HORIZON, een diagnostisch benchmarkkader dat systematisch de oorzaken van falen van LLM-agenten bij langdurige taken analyseert en een reproduceerbare methode biedt voor het attribueren van fouten.

Xinyu Jessica Wang, Haoyue Bai, Yiyou Sun, Haorui Wang, Shuibai Zhang, Wenjie Hu, Mya Schroder, Bilge Mutlu, Dawn Song, Robert D Nowak

Gepubliceerd 2026-04-15
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, digitale assistent hebt die je helpt met complexe taken. Als je vraagt: "Koop een kopje koffie," doet hij dit perfect. Maar als je vraagt: "Organiseer mijn hele leven voor de komende maand, boek vakanties, regel verzekeringen en plan een verhuizing," begint hij vaak in de war te raken en faalt hij.

Deze paper, getiteld "The Long-Horizon Task Mirage?" (De Mirage van Lange-Taken), onderzoekt precies waarom deze slimme robot-assistenten (LLM-agents) zo goed zijn in korte klusjes, maar zo snel in elkaar storten bij lange, ingewikkelde reeksen acties.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Mirage"

De auteurs noemen het een "mirage" (zandkasteel in de woestijn). Het lijkt alsof deze AI's steeds slimmer worden en alles kunnen doen. Maar zodra je ze een taak geeft die lang duurt en veel stappen heeft (een "lange horizon"), blijkt hun vermogen een illusie. Ze lijken sterk, maar breken op een heel specifiek punt.

De Analogie:
Stel je voor dat je een lange tocht maakt met een fiets.

  • Korte rit: Je fietst 5 kilometer naar de supermarkt. Geen probleem.
  • Lange rit: Je moet 500 kilometer fietsen door een onbekend landschap.
  • Het probleem: De fiets (de AI) is niet kapot. De motor (het brein) is sterk. Maar na een tijdje raakt de fietser de weg kwijt, vergeet hij waar hij naartoe moet, of hij maakt een klein foutje in de eerste kilometer dat later leidt tot een crash.

2. De Oplossing: HORIZON (De Diagnose-tool)

De onderzoekers hebben een nieuwe meetlat bedacht, genaamd HORIZON. In plaats van alleen te kijken of de AI de taak "wint" of "verliest", kijken ze waar en waarom hij faalt.

Ze hebben een "ziekenhuis voor robots" gebouwd. Ze geven de robots taken die steeds moeilijker worden (meer stappen), en kijken precies op welk moment ze crashen. Ze hebben dit getest op vier verschillende gebieden:

  • Web: Zoeken en kopen op internet.
  • OS: Besturingssysteem taken (zoals bestanden verplaatsen).
  • Database: Werken met grote databases.
  • Embodied: Een robotarm die fysieke objecten verplaatst.

3. De 7 Doodsoorzaken (De "Monsterlijst")

De onderzoekers hebben ontdekt dat er niet één reden is voor falen, maar ze hebben een lijst met 7 specifieke "doodsoorzaken" gemaakt. Stel je voor dat de AI een detective is die een lang verhaal moet oplossen. Hier zijn de 7 manieren waarop hij het verhaal verpest:

  1. Omgevingstoch (Environment Error): De wereld verandert terwijl de AI kijkt.
    • Vergelijking: Je probeert een deur te openen, maar iemand heeft de deur dichtgedaan terwijl je nog naar de knop keek. De AI denkt dat de deur nog open is en botst er tegenaan.
  2. Verkeerde Instructie (Instruction Error): De AI begrijpt de opdracht niet helemaal.
    • Vergelijking: Je zegt: "Koop alleen rode appels, behalve die met een vlek." De AI koopt de appels met de vlekken, omdat hij het woord "behalve" heeft over het hoofd gezien.
  3. Vergeten (Catastrophic Forgetting): De AI vergeet wat hij eerder heeft besloten.
    • Vergelijking: Je zegt: "Doe niets met mijn bankrekening." Na 20 stappen, als de AI druk bezig is met andere dingen, vergeet hij die regel en maakt hij een grote overschrijving.
  4. Verkeerde Aannames (False Assumptions): De AI doet alsof hij weet hoe de wereld werkt, maar dat is niet zo.
    • Vergelijking: De AI denkt: "Alle websites hebben een 'Aanmelden'-knop." Hij zoekt naar die knop op een site die die niet heeft, en blijft er tegen aan duwen.
  5. Slecht Plan (Planning Error): De AI weet niet hoe hij de grote taak moet opsplitsen.
    • Vergelijking: Je moet een huis bouwen. De AI begint met het dak, voordat hij de muren heeft opgetrokken. Het dak valt er direct af.
  6. Ophoping van fouten (History Error Accumulation): Een klein foutje aan het begin wordt groter en groter.
    • Vergelijking: Je begint een reis met een verkeerde kaart. Na 100 meter loop je de verkeerde kant op. Na 10 kilometer ben je in een ander land. De fout aan het begin heeft alles verpest.
  7. Geheugenoverbelasting (Memory Limitation): De AI heeft te veel informatie in zijn hoofd en laat dingen vallen.
    • Vergelijking: Je probeert 50 telefoonnummers te onthouden. Na nummer 40 vergeet je nummer 1. De AI vergeet de eerste regel van de opdracht omdat het gesprek te lang is geworden.

4. Wat hebben ze ontdekt?

De belangrijkste conclusie is verrassend: Het is niet alleen een kwestie van "slimmer" maken.

Zelfs als je de slimste AI's ter wereld neemt (zoals de nieuwste modellen van OpenAI en Anthropic), zakken ze allemaal in op hetzelfde moment als de taak te lang wordt.

  • De conclusie: Het probleem is niet dat ze niet slim genoeg zijn, maar dat hun manier van werken (hun architectuur) niet geschikt is voor lange reeksen.
  • Ze moeten niet alleen "groter" worden, maar ze moeten leren plannen (hoe bouw je een huis zonder het dak eerst te doen?) en onthouden (hoe houd je de regels vast na 50 stappen?).

5. De Toekomst: Hoe fixen we dit?

De paper zegt dat we niet kunnen wachten tot de AI's vanzelf slimmer worden. We moeten hun "brein" herontwerpen:

  • Beter plannen: Leer de AI om grote taken in kleine, beheersbare stukjes te hakken.
  • Beter onthouden: Zorg dat de AI belangrijke regels (zoals "geen bankrekening aanraken") blijft onthouden, zelfs als het gesprek lang duurt.
  • Controle: Laat de AI tussentijds checken: "Ben ik nog steeds op het juiste spoor?"

Samenvattend:
Deze paper zegt: "Stop met denken dat AI's alles kunnen doen zolang ze maar slim genoeg zijn. Voor lange, complexe taken moeten we hun strategie veranderen. Het is niet een gebrek aan intelligentie, maar een gebrek aan discipline in het plannen en onthouden."

Ze hebben een nieuwe tool (HORIZON) gemaakt om precies te meten waar deze robots in de war raken, zodat ingenieurs weten waar ze aan moeten sleutelen om ze echt betrouwbaar te maken voor de lange termijn.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →