The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen extrem intelligenten, aber etwas vergesslichen Assistenten, den Sie „Künstliche Intelligenz" nennen. Wenn Sie ihm eine einfache Aufgabe geben – wie „Rufe mir bitte die Wettervorhersage für morgen ab" – erledigt er das blitzschnell und perfekt. Das ist wie ein kurzer Spaziergang zum Briefkasten.

Aber was passiert, wenn Sie ihm eine komplexe, langwierige Aufgabe geben? Zum Beispiel: „Organisiere meine gesamte digitale Lebensgeschichte, finde alle alten Fotos, sortiere sie nach Datum, erstelle daraus ein Album, schreibe eine Zusammenfassung und sende sie an meine Familie." Das ist kein Spaziergang mehr, sondern eine mehrtägige Expedition durch einen Dschungel.

Genau hier stolpern die aktuellen KI-Agenten, wie die Forscher in dieser neuen Studie herausfanden. Die Studie heißt HORIZON und untersucht, warum diese KI-Assistenten bei langen Aufgaben oft katastrophal scheitern, obwohl sie bei kurzen Aufgaben brillieren.

Hier ist die Erklärung der wichtigsten Punkte, einfach und mit ein paar bildhaften Vergleichen:

1. Das Problem: Der „Horizont-Effekt"

Stellen Sie sich vor, Sie laufen einen Weg entlang. Bei jedem Schritt machen Sie einen kleinen Fehler (z. B. Sie stolpern leicht).

Kurze Wege: Wenn der Weg nur 3 Schritte lang ist, stolpern Sie einmal, rappeln sich auf und kommen trotzdem an.
Lange Wege: Wenn der Weg 100 Schritte lang ist, summieren sich die kleinen Stolpern. Sie stolpern, fallen, vergessen, wo Sie waren, laufen in die falsche Richtung und am Ende sind Sie völlig verloren.

Die Forscher nennen dies den „Horizont-Effekt". Je länger die Aufgabe (der „Horizont"), desto wahrscheinlicher ist es, dass die KI nicht einfach nur langsamer wird, sondern komplett zusammenbricht. Es ist nicht so, dass sie nur müde wird; ihre Denkweise ändert sich strukturell.

2. Die Diagnose-Toolbox: HORIZON

Bisher haben Forscher nur geschaut: „Hat die KI die Aufgabe geschafft oder nicht?" (Ja/Nein). Das ist wie ein Lehrer, der nur das Endergebnis einer Matheaufgabe ansieht, ohne zu wissen, wo der Schüler den Fehler gemacht hat.

Die Forscher haben HORIZON entwickelt. Das ist wie eine medizinische Diagnose-App für KI.

Sie baut Aufgaben systematisch auf: Erst 1 Schritt, dann 2, dann 3, bis hin zu 10 Schritten.
Sie schaut sich genau an, wo und warum die KI scheitert.
Sie hat vier verschiedene „Testumgebungen" (wie ein Labor):
1. Web: Surfen im Internet (z. B. Tickets buchen).
2. Betriebssystem: Computer steuern (z. B. Dateien verwalten).
3. Datenbank: Datenbanken abfragen (z. B. SQL).
4. Embodied: Roboter steuern (z. B. einen Arm bewegen).

3. Die sieben „Krankheiten" der KI

Die Forscher haben herausgefunden, dass KI bei langen Aufgaben an sieben spezifischen Problemen leidet. Man kann sie sich wie Fehler in einem langen Roman vorstellen:

Die Umwelt-Verwirrung (Environment Error): Die KI schaut auf eine Webseite, aber die Seite lädt langsam oder ändert sich, während die KI noch denkt. Sie handelt dann basierend auf veralteten Informationen – wie jemand, der versucht, ein Auto zu starten, das bereits weggefahren ist.
Der Missverständliche (Instruction Error): Die KI versteht den Befehl nicht ganz. Wenn Sie sagen: „Kauf nur rote Äpfel, aber nicht die großen", vergisst sie das „nicht" und kauft trotzdem die großen.
Der Vergessliche (Catastrophic Forgetting): Das ist das größte Problem! Die KI beginnt die Aufgabe, merkt sich eine wichtige Regel („Niemals das Passwort ändern"), aber nach 20 Schritten ist diese Regel aus ihrem Gedächtnis verschwunden. Sie tut genau das, was sie nicht durfte, weil sie den Anfang vergessen hat.
Der Phantast (False Assumption): Die KI erfindet Fakten. Sie denkt: „Ah, auf dieser Seite steht sicher, dass der Preis 10€ ist", obwohl dort gar nichts steht. Sie füllt Lücken mit Fantasie, weil sie sich nicht traut, zu fragen.
Der Planer ohne Plan (Planning Error): Die KI weiß, was das Ziel ist, aber sie plant die Schritte falsch. Sie versucht, das Dach zu bauen, bevor sie die Fundamente gelegt hat.
Der Kaskaden-Effekt (History Error Accumulation): Ein kleiner Fehler am Anfang wird ignoriert. Später baut die KI auf diesem Fehler auf, und plötzlich ist das ganze Gebäude schief. Ein kleiner Tropfen macht den Eimer voll.
Der Gedächtnis-Überlauf (Memory Limitation): Der Kopf der KI ist voll. Bei sehr langen Aufgaben muss sie so viel Information speichern, dass der „Kopf" platzt. Wichtige Details am Anfang werden herausgedrängt, um Platz für Neues zu machen.

4. Die Entdeckung: Mehr Intelligenz reicht nicht

Das Wichtigste an der Studie ist diese Erkenntnis: Es hilft nicht, einfach nur eine „schlauere" KI zu bauen.

Wenn man die KI-Modelle immer größer macht (mehr Daten, mehr Rechenleistung), werden sie bei kurzen Aufgaben besser. Aber sobald die Aufgabe lang wird, scheitern auch die größten Modelle an denselben Problemen: Sie vergessen ihre Regeln und planen schlecht.

Es ist wie bei einem Genie, das eine komplexe Maschine reparieren soll. Wenn die Maschine nur einen Defekt hat, ist das Genie genial. Wenn die Maschine 100 Defekte hat und das Genie die ersten 50 Schritte vergisst, hilft seine Intelligenz nichts mehr.

5. Was tun?

Die Forscher sagen: Wir müssen die KI nicht nur „dicker" machen, sondern ihr bessere Werkzeuge geben:

Besseres Gedächtnis: Damit sie sich an die Regeln am Anfang einer langen Reise erinnert.
Bessere Planung: Damit sie nicht einfach drauflos plant, sondern ihre Schritte überprüft.
Selbstkontrolle: Damit sie merkt, wenn sie einen Fehler gemacht hat, und nicht einfach weitermacht.

Fazit

Die Studie sagt uns: KI ist heute wie ein sehr talentierter, aber vergesslicher Praktikant. Bei kurzen Aufgaben ist er unschlagbar. Bei langen, komplexen Projekten braucht er aber nicht nur mehr Intelligenz, sondern ein besseres System, um den Überblick zu behalten, sich Dinge zu merken und Fehler sofort zu korrigieren.

HORIZON ist der erste Schritt, um genau zu verstehen, wo dieser Praktikant hakt, damit wir ihn in Zukunft zu einem zuverlässigen Langzeit-Assistenten ausbilden können.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Große Sprachmodelle (LLMs) zeigen zwar starke Leistungen bei kurz- und mittelfristigen Aufgaben, scheitern jedoch häufig bei langfristigen Aufgaben (Long-Horizon Tasks), die aus ausgedehnten, voneinander abhängigen Aktionssequenzen bestehen.

Das Kernproblem: Die Leistung von Agenten verschlechtert sich nicht linear mit der Aufgabenlänge, sondern bricht oft abrupt zusammen. Kleine Fehler pro Schritt häufen sich auf und führen zu einem systematischen Versagen.
Forschungslücke: Bisherige Benchmarks sind oft domainspezifisch, verwenden inkonsistente Definitionen für „Horizont" (Aufgabenlänge) und konzentrieren sich nur auf den Endzustand (Erfolg/Misserfolg), ohne die Ursachen und den Verlauf des Scheiterns zu analysieren. Dies erschwert einen systematischen Vergleich und die Diagnose von Fehlern über verschiedene Domänen hinweg.
Zentrale Forschungsfragen:
1. Wo brechen Agenten zusammen, wenn der Aufgabenhorizont steigt?
2. Warum treten diese Fehler auf?

2. Methodik: Das HORIZON-Framework

Die Autoren stellen HORIZON (Holistic Observations for Reasoning and faIlure analyZis in lOng-horizoN agents) vor, ein diagnostisches Benchmark-System, das domänenübergreifend agiert.

A. Definition des Aufgabenhorizonts

Um Komplexität von Ineffizienz zu trennen, definieren die Autoren zwei Metriken:

Intrinsischer Horizont ( $H^*$ ): Die minimale Anzahl effektiver Aktionen, die eine optimale Strategie benötigt.
Kompositionstiefe ( $s$ ): Die Anzahl verschachtelter Teilziele oder bedingter Verzweigungen.

Um systematisch zu untersuchen, wie Agenten bei steigendem Horizont versagen, werden zwei Erweiterungsstrategien verwendet:

Depth Extension (Tiefen-Erweiterung): Hinzufügen von notwendigen Zwischenschritten in eine sequenzielle Aufgabe (z. B. zusätzliche Berechtigungsprüfungen).
Breadth Extension (Breiten-Erweiterung): Kombination mehrerer unabhängiger Basistasks zu einem einzigen Workflow, was Koordination und Kontextwechsel erfordert.

B. Fehler-Taxonomie (7 Kategorien)

Basierend auf einer FMEA-Analyse (Failure Mode and Effects Analysis) wurde eine Taxonomie mit sieben orthogonalen Fehlerkategorien entwickelt, die nicht gegenseitig ausschließen:

Umgebungsfehler (Environment): Störungen oder Nicht-Erkennung von Zustandsänderungen.
Instruktionsfehler (Instruction): Unklare oder nur teilweise verstandene Anweisungen.
Falsche Annahmen (False Assumptions): Das Agent trifft Annahmen über die Umgebung, die nicht überprüft werden.
Planungsfehler (Planning Error): Fehlerhafte Zerlegung des Ziels in Teilpläne oder falsche Aktionsreihenfolge.
Katastrophales Vergessen (Catastrophic Forgetting): Verlust früherer Constraints oder Ziele im Kontext, obwohl sie noch vorhanden sind.
Akkumulation von Fehlerhistorie (History Error Accumulation): Kleine frühe Fehler pflanzen sich fort und verzerren nachfolgende Schritte.
Speicherbeschränkungen (Memory Limitation): Der Kontext wird überlaufen, wichtige Informationen gehen durch Zusammenfassung verloren.

C. Evaluierungs-Pipeline

Daten: Über 3.100 Trajektorien wurden in vier Domänen gesammelt: Web (WebArena), Betriebssysteme (AgentBench), Datenbanken (MAC-SQL) und Embodied Agents (Isaac Sim).
Modelle: State-of-the-Art Modelle (GPT-5-Varianten und Claude-4).
Fehleranalyse: Ein skalierbarer LLM-as-a-Judge-Pipeline wurde entwickelt, um fehlgeschlagene Trajektorien automatisch der Taxonomie zuzuordnen.
Validierung: Die Zuverlässigkeit wurde durch menschliche Annotationen validiert (Inter-Annotator-Übereinstimmung $\kappa=0.61$ ; Mensch-Judge-Übereinstimmung $\kappa=0.84$ ).

3. Wichtige Ergebnisse

A. Nicht-linearer Leistungsabfall

Die Leistung nimmt nicht proportional zur Aufgabenlänge ab. Stattdessen zeigen alle Domänen einen scharfen Leistungsabfall („Breaking Point"), sobald eine bestimmte Kompositionstiefe ( $s$ ) überschritten wird. Danach kollabiert die Erfolgsrate von robuster Leistung auf fast systematisches Versagen.

B. Domänenspezifische Unterschiede

Web: Kollabiert bereits bei sehr geringer Kompositionstiefe.
OS & Datenbanken: Halten moderate Leistung länger aufrecht, brechen aber später abrupt.
Embodied: Zeigt bereits bei minimalen Erhöhungen des Horizonts einen steilen Abfall.
Modellunterschiede: Sobald der „Breaking Point" erreicht ist, gleichen sich die Leistungsunterschiede zwischen den Modellen (z. B. GPT-5 vs. Claude) stark an; beide versagen systematisch.

C. Verschiebung der Fehlerzusammensetzung

Mit zunehmendem Horizont ändert sich die Art der Fehler fundamental:

Kurzfristige Fehler: Oft Umgebungs- oder Instruktionsfehler.
Langfristige Fehler: Planungsfehler (insbesondere Sub-Plan-Fehler) und Speicherbezogene Fehler (katastrophales Vergessen, Speicherbeschränkungen) dominieren.
Statistik: Planungsfehler machen einen Großteil der Fehler in Embodied- und Datenbank-Domänen aus (bis zu 95%), während OS-Aufgaben eine diversere Fehlerverteilung zeigen.

D. Skalierung allein ist nicht die Lösung

Die Studie zeigt, dass das bloße Skalieren der Basis-Modelle (mehr Parameter) die dominanten Fehlermechanismen bei langen Horizonten nicht löst. Sobald Agenten in den Bereich des langfristigen Versagens geraten, konvergieren die Erfolgsraten unterschiedlicher Modelle auf niedrige Werte.

4. Hauptbeiträge

HORIZON Benchmark: Ein erstes domänenübergreifendes diagnostisches Werkzeug zur systematischen Konstruktion von Langzeit-Aufgabenfamilien und Analyse von Fehlermustern.
Empirische Studie: Eine umfassende Analyse von über 3.100 Trajektorien mit SOTA-Modellen, die konsistente Muster des Leistungsabbaus über vier Domänen hinweg aufzeigt.
Fehler-Taxonomie & Pipeline: Eine validierte, 7-Kategorien-Taxonomie und eine skalierbare „LLM-as-a-Judge"-Pipeline für die Fehlerattribution, die eine reproduzierbare Diagnose ermöglicht.
Handlungsanweisungen: Die Erkenntnis, dass zukünftige Fortschritte nicht nur auf größeren Modellen, sondern auf methodischen Verbesserungen in Planung, Speichermechanismen und Ausführungszeit-Kontrolle basieren müssen.

5. Bedeutung und Implikationen

Die Arbeit widerlegt die Annahme, dass längere Aufgaben einfach nur „mehr vom Gleichen" sind. Stattdessen stellt sie fest, dass langfristiges Versagen eine strukturelle Verschiebung der Fehlerzusammensetzung darstellt.

Für die Forschung: Sie fordert einen Wechsel von reinen Erfolgsraten-Metriken hin zu horizonsensitiven Evaluierungen, die Fehlerursachen und -verläufe analysieren.
Für die Entwicklung: Um zuverlässige Agenten zu bauen, müssen Architekturen entwickelt werden, die explizit mit Sub-Plan-Validierung, Constraint-Tracking über lange Sequenzen und robusten Speichermechanismen umgehen können.
Praxis: Das Paper bietet eine Roadmap, um die „Illusion" (Mirage) zu entlarven, dass aktuelle Modelle bereits für komplexe, langfristige autonome Aufgaben bereit sind, und zeigt, wo die eigentlichen Engpässe liegen.

Zusammenfassend liefert HORIZON den ersten systematischen Ansatz, um nicht nur dass, sondern wo und warum Agenten bei langen Aufgaben versagen, zu verstehen, und legt den Grundstein für die Entwicklung robusterer agenter KI-Systeme.