WebDS: An End-to-End Benchmark for Web-based Data Science
Ce papier présente WebDS, le premier benchmark de bout en bout pour la science des données sur le web, qui révèle un écart significatif entre les performances des agents LLM actuels et celles des humains face à des tâches complexes et multimodales nécessitant l'utilisation d'outils variés.