DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning
DeepEyes est un modèle vision-langage entraîné par apprentissage par renforcement qui apprend nativement à « réfléchir avec des images » en intégrant activement l'information visuelle dans son raisonnement, améliorant ainsi ses performances en perception, en raisonnement mathématique et en réduction des hallucinations sans nécessiter de données de raisonnement préalables.