Decoding the Pulse of Reasoning VLMs in Multi-Image Understanding Tasks
El artículo presenta PulseFocus, un método sin entrenamiento que mejora el razonamiento de modelos de visión y lenguaje en tareas con múltiples imágenes al corregir sus patrones de atención difusos mediante la estructuración de la generación de pensamiento en bloques de planificación y enfoque.