Beyond Dominant Patches: Spatial Credit Redistribution For Grounded Vision-Language Models
Ce papier propose la Redistribution du Crédit Spatial (SCR), une méthode d'inférence sans entraînement qui atténue les hallucinations des modèles vision-langage en rééquilibrant les activations des patches visuels pour restaurer le contexte spatial supprimé, améliorant ainsi la fiabilité sans sacrifier la qualité de génération ni la latence.