Decoding the Pulse of Reasoning VLMs in Multi-Image Understanding Tasks
Il paper propone PulseFocus, un metodo di inferenza senza addestramento che risolve il problema delle distrazioni attentive e dei bias posizionali nei modelli VLM a ragionamento multi-immagine, ottenendo miglioramenti significativi su benchmark come BLINK e MuirBench.