TimeWarp: Evaluating Web Agents by Revisiting the Past
Il paper introduce TimeWarp, un benchmark che valuta la robustezza degli agenti web di fronte ai cambiamenti dell'interfaccia, e propone TimeTraj, un algoritmo che migliora significativamente le prestazioni degli agenti insegnando loro a generalizzare attraverso diverse versioni storiche dei siti web.