See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs
Il paper presenta "See It, Say It, Sorted", un framework iterativo e privo di addestramento che riduce le allucinazioni visive e migliora il ragionamento nei modelli LVLM supervisionando ogni passo del ragionamento con evidenze visive dinamiche estratte dall'immagine.