Beyond Accuracy: Evaluating Visual Grounding In Multimodal Medical Reasoning
Cette étude révèle que l'apprentissage par renforcement basé uniquement sur le texte améliore la précision des modèles de raisonnement médical multimodal tout en dégradant leur ancrage visuel, démontrant ainsi la nécessité d'évaluations qui mesurent la dépendance réelle aux images au-delà de la simple exactitude.