iAgentBench: Benchmarking Sensemaking Capabilities of Information-Seeking Agents on High-Traffic Topics
Il paper presenta iAgentBench, un nuovo benchmark dinamico per valutare le capacità di sintesi e integrazione di informazioni da più fonti degli agenti di ricerca, superando i limiti dei test attuali che si basano spesso sul recupero di un singolo passaggio.