Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections
Questo studio introduce il benchmark MADQA per dimostrare che, sebbene gli agenti multimodali possano raggiungere una precisione paragonabile a quella umana, il loro successo deriva principalmente da una ricerca stocastica e non da un ragionamento strategico, evidenziando la necessità di passare da un approccio di forza bruta a un ragionamento calibrato ed efficiente.
Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, Shreyansh Padarha, Ryan Othniel Kearns, Adam Mahdi, Niels Rogge, Clémentine Fourrier, Siwei Han, Huaxiu Yao, Artemis Llabrés, Yiming Xu, Dimosthenis Karatzas, Hao Zhang, Anupam Datta2026-03-13💬 cs.CL