Reasoning as Representation: Rethinking Visual Reinforcement Learning in Image Quality Assessment
Cet article propose RALI, un nouvel algorithme qui aligne directement les images sur des représentations textuelles généralisables apprises par des modèles de langage multimodal via l'apprentissage par renforcement, permettant ainsi d'atteindre des performances d'évaluation de la qualité d'image comparables à celles des modèles de raisonnement tout en réduisant drastiquement les paramètres et le temps d'inférence.