The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break

Each language version is independently generated for its own context, not a direct translation.

Le Titre : Le Mirage des Tâches de Longue Durée

Imaginez que vous avez un assistant culinaire (l'IA) extrêmement intelligent. Si vous lui demandez de couper une carotte ou de faire griller un œuf (des tâches courtes), il est parfait. Il ne rate jamais.

Mais si vous lui demandez de préparer un banquet pour 100 personnes en suivant un plan complexe de 50 étapes (une tâche "longue durée"), c'est là que ça se gâte. Il commence bien, mais vers la moitié du chemin, il oublie qu'il ne doit pas mettre de sel, il confond les ingrédients, ou il répète la même erreur encore et encore jusqu'à ce que le plat soit irrécupérable.

Les chercheurs de cet article se demandent : Pourquoi ces assistants brillants échouent-ils si souvent quand la tâche devient longue ? Et surtout, où et comment échouent-ils exactement ?

1. Le Problème : Le "Mirage"

Jusqu'à présent, on pensait que l'échec était juste une question de "manque de chance" ou d'une erreur de calcul. Les chercheurs appellent cela un mirage : on croit que l'IA va réussir si on lui donne juste un peu plus de puissance, mais en réalité, le problème est structurel.

C'est comme si vous demandiez à un coureur de faire un sprint de 100 mètres (il gagne) puis un marathon (il s'effondre). Ce n'est pas qu'il est moins fort, c'est que la nature du défi a changé.

2. La Solution : Le "HORIZON" (La Règle à Mesurer)

Pour comprendre ce qui se passe, les chercheurs ont créé un outil appelé HORIZON.
Imaginez que vous avez une règle magique qui permet de transformer n'importe quelle tâche en une version plus longue, étape par étape, sans changer sa nature.

Au lieu de juste dire "Achète des pommes", on dit "Achète des pommes, puis des poires, puis vérifie les prix, puis compare avec le budget, puis range tout".
Ils ont testé cette règle sur 4 mondes différents : Internet (navigation web), Ordinateur (gestion de fichiers), Robots (bras mécanique) et Bases de données (gestion d'infos).

Ils ont fait jouer les meilleurs assistants actuels (les modèles GPT-5 et Claude) sur plus de 3 100 scénarios.

3. Les Découvertes : Les 7 Monstres de l'Échec

En observant les échecs, ils ont découvert que ce n'est pas un seul problème, mais 7 types de "monstres" qui attaquent l'IA différemment selon la longueur de la tâche. Voici les analogies :

L'Environnement Changeant (Le Sol qui bouge) : L'IA planifie de marcher sur une marche, mais pendant qu'elle y pense, quelqu'un a déplacé la marche. L'IA continue de marcher dans le vide.
La Mauvaise Lecture (Le Chef qui ne comprend pas) : Le chef dit "Ne salez pas le plat". L'IA comprend "Ne salez pas ce plat" mais en sale un autre, ou elle invente une règle qui n'existe pas.
L'Amnésie Catastrophique (L'oubli soudain) : Au début, le chef dit "N'utilisez jamais de gluten". Après 20 étapes, l'IA oublie totalement cette consigne et met de la farine dans la soupe. Elle se souvient de l'instruction, mais son attention a glissé ailleurs.
Les Fausses Hypothèses (Le pari risqué) : L'IA suppose que "tous les magasins ont des pommes" sans vérifier. Elle se trompe et tout le plan s'effondre.
L'Erreur de Planification (Le mauvais itinéraire) : L'IA décide de faire le dessert avant le plat principal. Elle suit un plan logique, mais dans le mauvais ordre.
L'Accumulation d'Erreurs (L'effet boule de neige) : Une petite erreur au début (oublier un ingrédient) n'est pas corrigée. À l'étape suivante, l'IA s'adapte à cette erreur, puis à la suivante, jusqu'à ce que le résultat final soit totalement faux.
La Mémoire Trop Courte (Le sac à dos trop petit) : L'IA a un "sac à dos" (sa mémoire) pour garder les infos. Si la tâche est trop longue, le sac déborde, et les premières instructions tombent au sol et sont perdues.

4. Le Résultat Principal : Ce n'est pas la taille qui compte

Le résultat le plus surprenant ? Rendre l'IA plus "intelligente" ou plus "grosse" ne suffit pas.
Même les modèles les plus puissants s'effondrent de la même manière une fois la tâche trop longue.

Ce qui échoue le plus : La planification (ne pas savoir décomposer le grand problème en petits pas) et la mémoire (oublier les règles du début).
Le message clé : On ne peut pas simplement "entraîner" l'IA pour qu'elle soit plus forte. Il faut lui donner de nouvelles méthodes : un meilleur système pour se souvenir des règles, un meilleur planificateur, et des mécanismes pour vérifier qu'elle ne dérive pas.

En Résumé

Cet article dit aux développeurs d'IA : "Arrêtez de juste faire des IA plus grosses. Regardez où elles cassent. C'est comme réparer une voiture : si vous savez que le moteur surchauffe après 100 km, vous ne changez pas juste la peinture, vous améliorez le système de refroidissement."

Ils ont créé un tableau de bord (HORIZON) pour aider tout le monde à diagnostiquer ces pannes et à construire des agents plus fiables pour les tâches complexes de la vie réelle.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : L'Effondrement des Agents à Long Terme

Bien que les agents basés sur les grands modèles de langage (LLM) excellent dans des tâches à court et moyen terme, ils subissent souvent un effondrement systématique lorsqu'ils sont confrontés à des tâches à long horizon (long-horizon tasks). Ces tâches nécessitent des séquences d'actions étendues et interdépendantes.

Le problème central identifié par les auteurs est le manque de caractérisation précise de ces échecs. Les benchmarks existants sont souvent :

Spécifiques à un domaine (web, robotique, base de données), rendant les comparaisons difficiles.
Définitions incohérentes de ce qu'est un "horizon" (nombre d'étapes vs complexité structurelle).
Focalisés sur le taux de réussite global, masquant la nature et la cause des erreurs qui s'accumulent.

Les auteurs posent deux questions de recherche fondamentales :

Où les agents échouent-ils à mesure que l'horizon de la tâche augmente ?
Pourquoi ces échecs émergent-ils (mécanismes de défaillance) ?

2. Méthodologie : Le Benchmark HORIZON

Pour combler ce vide, les auteurs introduisent HORIZON (Holistic Observations for Reasoning and faIlure analyZis in lOng-horizoN agents), un benchmark diagnostique inter-domaines.

A. Définition de l'Horizon de Tâche

Au lieu de compter simplement le nombre d'étapes, HORIZON définit l'horizon intrinsèque ( $H^*$ ) et la profondeur compositionnelle ( $s$ ) :

Horizon Intrinsèque ( $H^*$ ) : Le nombre minimum d'actions efficaces requises par une politique optimale pour accomplir la tâche.
Profondeur Compositionnelle ( $s$ ) : Le nombre de sous-objectifs imbriqués ou de branches conditionnelles.
Extension Contrôlée : Pour étudier la dégradation, les auteurs utilisent deux méthodes pour augmenter $s$ $s$ de manière contrôlée :
- Extension en Profondeur : Ajout d'étapes intermédiaires obligatoires (ex: vérifications de permissions).
- Extension en Largeur : Combinaison de plusieurs tâches de base en un seul flux de travail complexe.

B. Taxonomie des Échecs (7 Catégories)

Basée sur l'analyse des modes de défaillance et des effets (FMEA), les auteurs proposent une taxonomie de 7 catégories orthogonales pour attribuer les échecs :

Erreur d'Environnement (Disturbance / Non-détection de changement) : L'agent ne perçoit pas les changements de l'état du monde.
Erreur d'Instruction (Mal définie / Compréhension partielle) : L'agent ne comprend pas ou ignore les contraintes.
Faux Préjugés (False Assumptions) : L'agent assume des faits non vérifiés ou des états inexistants.
Erreur de Planification (Sous-plan / Action) : Mauvaise décomposition ou ordre incorrect des sous-tâches.
Oubli Catastrophique : Perte de contraintes ou d'instructions initiales au fil du temps (malgré leur présence dans le contexte).
Accumulation d'Erreurs Historiques : Une petite erreur initiale se propage et corrompt les étapes suivantes.
Limites de Mémoire : Dépassement de la fenêtre de contexte ou perte d'informations critiques lors de la compression.

C. Pipeline d'Évaluation et d'Attribution

Données : Évaluation de modèles SOTA (variantes de GPT-5 et Claude-4) sur 3100+ trajectoires à travers 4 domaines : Web, Système d'Exploitation (OS), Base de Données (DB) et Agent Embodé (Robotique).
LLM-as-a-Judge : Développement d'un pipeline automatisé utilisant un LLM pour attribuer les causes d'échec sur les trajectoires. Ce pipeline est validé par des annotateurs humains avec un fort accord (Kappa de Cohen $\kappa=0.84$ entre humain et juge, $\kappa=0.61$ entre annotateurs).

3. Résultats Clés

A. Dégradation Non-Linéaire et Points de Rupture

Les résultats montrent que la performance ne décline pas linéairement avec l'augmentation de l'horizon.

Chute Abrupte : Les agents maintiennent une certaine robustesse pour de petits horizons, puis subissent une chute brutale de performance (transition vers un échec systématique) au-delà d'un certain seuil de profondeur compositionnelle ( $s$ ).
Variabilité Inter-Domaines : Le point de rupture varie considérablement selon le domaine. Le Web s'effondre très tôt, tandis que les OS et les bases de données résistent plus longtemps. Les tâches robotiques (Embodied) dégradent rapidement même avec de légères augmentations de complexité.

B. Changement Structurel de la Composition des Échecs

L'analyse révèle que l'échec à long terme n'est pas seulement une baisse de réussite, mais un changement structurel dans le type d'erreurs :

À court terme : Les erreurs sont souvent liées à l'environnement ou à l'instruction.
À long terme : Les erreurs de planification (sous-plan) et les problèmes de mémoire (oubli catastrophique, limites de mémoire) deviennent dominants.
Convergence des Modèles : Une fois dans la zone de rupture, les écarts de performance entre les différents modèles (GPT vs Claude) se réduisent, indiquant que la simple mise à l'échelle des modèles de base ne suffit pas.

C. Validation Empirique

Web : Dominé par les erreurs de planification (74,9%), mais aussi sensible aux erreurs d'environnement (11,3%).
OS : Profil d'échec le plus diversifié (Planification, Instruction, Environnement, Mémoire).
Base de Données & Robotique : Presque exclusivement dominés par les erreurs de planification (respectivement 79,3% et 94,9%), soulignant la difficulté de maintenir une séquence logique stricte.

4. Contributions Principales

HORIZON : Un benchmark inter-domaines pionnier pour construire systématiquement des familles de tâches à long horizon et analyser la dégradation dépendante de l'horizon.
Taxonomie Unifiée : Une classification de 7 catégories de défaillances validée empiriquement, permettant une attribution fine des causes (processus vs conception).
Pipeline d'Attribution Évolutive : Une méthode "LLM-as-a-Judge" fiable et reproductible pour analyser des milliers de trajectoires, validée par des humains.
Insights Stratégiques : La démonstration que l'échec à long terme est un problème de conception d'agent (planification hiérarchique, gestion de contraintes, mémoire) plutôt qu'une simple question de capacité du modèle de base.

5. Signification et Implications

Ce travail remet en question l'idée que le simple scaling des modèles (plus de paramètres, plus de données) résoudra les problèmes des agents autonomes complexes.

Au-delà du Scaling : Les résultats suggèrent que pour construire des agents fiables à long terme, la communauté doit se concentrer sur des améliorations méthodologiques :
- Planification Hiérarchique : Meilleure décomposition des tâches et vérification des sous-plans.
- Gestion de la Mémoire : Mécanismes pour préserver et réactiver les contraintes à long terme (évitant l'oubli catastrophique).
- Contrôle d'Exécution : Vérification et réparation des plans en temps réel.
Nouvelle Méthodologie d'Évaluation : L'article plaide pour l'abandon des métriques de réussite ponctuelles au profit de courbes de performance en fonction de l'horizon et d'analyses de la composition des échecs.

En conclusion, HORIZON fournit les outils diagnostiques nécessaires pour passer d'une observation superficielle des échecs des agents à une compréhension profonde de leurs limites structurelles, ouvrant la voie à des systèmes d'IA agentic plus robustes et fiables.