Decoding the Pulse of Reasoning VLMs in Multi-Image Understanding Tasks
Cet article présente PulseFocus, une méthode d'inférence sans entraînement qui améliore la compréhension d'images multiples par les modèles vision-langage en structurant le raisonnement pour corriger les pulsions d'attention diffuses et les biais positionnels observés lors de la génération de chaînes de pensée.