VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use
Die Arbeit stellt VTool-R1 vor, ein Framework, das Vision-Language-Modelle durch Reinforcement Learning mit Python-basierten Bildbearbeitungswerkzeugen trainiert, um strategisch multimodale Denkprozesse zu generieren, die Text und visuelle Zwischenschritte kombinieren, um die reasoning-Fähigkeiten bei visuellen Fragestellungen zu verbessern.