TimeWarp: Evaluating Web Agents by Revisiting the Past
Ce papier présente TimeWarp, un benchmark évaluant la robustesse des agents web face aux évolutions de l'interface, et propose TimeTraj, un algorithme utilisant la distillation de plans sur plusieurs versions d'interface pour améliorer significativement leurs performances.