MIRROR: Multimodal Iterative Reasoning via Reflection on Visual Regions
Il paper presenta MIRROR, un framework che migliora il ragionamento multimodale e riduce le allucinazioni visive attraverso un processo iterativo di riflessione e verifica basato su regioni specifiche dell'immagine, supportato dal nuovo dataset ReflectV.