Annotation-Free Visual Reasoning for High-Resolution Large Multimodal Models via Reinforcement Learning
Ce papier présente HART, une méthode d'apprentissage par renforcement sans annotation qui permet aux modèles multimodaux de grande taille de raisonner efficacement sur des images haute résolution en identifiant et en vérifiant automatiquement les régions clés.