TimeWarp: Evaluating Web Agents by Revisiting the Past
Die Arbeit stellt TimeWarp vor, einen Benchmark zur Evaluierung der Robustheit von Web-Agenten gegenüber sich wandelnden Web-Designs, und schlägt mit TimeTraj einen effizienten Algorithmus vor, der durch Plan-Distillation über mehrere UI-Versionen hinweg die Leistungsfähigkeit dieser Agenten signifikant steigert.