MIRROR: Multimodal Iterative Reasoning via Reflection on Visual Regions
Die Arbeit stellt MIRROR vor, ein Framework für multimodales iteratives Schlussfolgern, das durch einen geschlossenen Regelkreis aus Entwurf, Kritik und visuell fundierter Überprüfung sowie ein entsprechendes Trainingsdatenset (ReflectV) die Genauigkeit von Vision-Language-Modellen verbessert und Halluzinationen reduziert.