Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections
Deze studie introduceert de MADQA-benchmark om aan te tonen dat multimodale agenten, ondanks hun vergelijkbare nauwkeurigheid met mensen, voornamelijk vertrouwen op brute-force zoekopdrachten in plaats van strategisch redeneren, wat resulteert in een aanzienlijke prestatiekloof met de theoretische optimum.
Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, Shreyansh Padarha, Ryan Othniel Kearns, Adam Mahdi, Niels Rogge, Clémentine Fourrier, Siwei Han, Huaxiu Yao, Artemis Llabrés, Yiming Xu, Dimosthenis Karatzas, Hao Zhang, Anupam Datta2026-03-13💬 cs.CL