BRIDGE: Benchmark for multi-hop Reasoning In long multimodal Documents with Grounded Evidence
Het paper introduceert BRIDGE, een benchmark voor het evalueren van multi-hop redenering in lange multimodale wetenschappelijke documenten door middel van stapsgewijze analyse van bewijsvoering, wat blootlegt dat bestaande modellen tekortschieten in het aggregeren en verankeren van informatie uit tekst, tabellen en figuren ondanks een correct eindantwoord.