MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing
Questo lavoro introduce MAP, un metodo di decodifica senza addestramento che mitiga le allucinazioni nei modelli visione-linguaggio su larga scala trattando gli stati nascosti come mappe semantiche 2D e applicando operazioni di attenzione a livello di mappa per migliorare la coerenza fattuale.