Decoding the Pulse of Reasoning VLMs in Multi-Image Understanding Tasks
Die Arbeit stellt PulseFocus vor, eine trainingsfreie Methode zur Verbesserung des Multi-Bild-Verständnisses bei Vision-Language-Modellen, die durch die Strukturierung des Chain-of-Thought in Planungs- und Fokussierungsblöcke sowie eine weiche Aufmerksamkeitssteuerung diffuse Aufmerksamkeitsmuster überwindet und die Leistung auf Benchmarks wie BLINK und MuirBench signifikant steigert.