Reasoning as Representation: Rethinking Visual Reinforcement Learning in Image Quality Assessment

Cet article propose RALI, un nouvel algorithme qui aligne directement les images sur des représentations textuelles généralisables apprises par des modèles de langage multimodal via l'apprentissage par renforcement, permettant ainsi d'atteindre des performances d'évaluation de la qualité d'image comparables à celles des modèles de raisonnement tout en réduisant drastiquement les paramètres et le temps d'inférence.

Shijie Zhao, Xuanyu Zhang, Weiqi Li + 4 more2026-03-04💻 cs

Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs

Cette étude utilise l'interprétabilité mécanistique pour révéler les voies d'information internes des modèles de langage vidéo (VideoLLMs), démontrant que leur raisonnement temporel suit un schéma cohérent d'interactions inter-images et d'intégration multimodale, ce qui permet d'améliorer la performance en éliminant jusqu'à 58 % des connexions d'attention superflues.

Minji Kim, Taekyung Kim, Bohyung Han2026-03-04💻 cs

Inpainting the Red Planet: Diffusion Models for the Reconstruction of Martian Environments in Virtual Reality

Cet article propose une méthode de reconstruction des terrains martiens pour la réalité virtuelle utilisant un modèle de diffusion inconditionnel entraîné sur des données HiRISE, qui surpasse significativement les techniques d'interpolation traditionnelles en termes de précision géométrique et de similarité perceptuelle.

Giuseppe Lorenzo Catalano, Agata Marta Soccini2026-03-04🤖 cs.AI

CASR-Net: An Image Processing-focused Deep Learning-based Coronary Artery Segmentation and Refinement Network for X-ray Coronary Angiogram

Cet article présente le CASR-Net, un réseau d'apprentissage profond innovant en trois étapes intégrant un prétraitement avancé et une architecture UNet-DenseNet121 avec décodeur Self-ONN, conçu pour améliorer la précision de la segmentation et du raffinement des artères coronaires sur des angiogrammes X-ray afin de soutenir le diagnostic clinique.

Alvee Hassan, Rusab Sarmun, Muhammad E. H. Chowdhury + 4 more2026-03-04🤖 cs.AI

Online Data Curation for Object Detection via Marginal Contributions to Dataset-level Average Precision

Ce papier présente DetGain, une méthode de curation de données en ligne pour la détection d'objets qui sélectionne dynamiquement les images les plus informatives en estimant leur contribution marginale à la précision moyenne (AP) du jeu de données, améliorant ainsi la performance et la robustesse des modèles de détection.

Zitang Sun, Masakazu Yoshimura, Junji Otsuka + 2 more2026-03-04💻 cs

PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation

Le papier présente PrismAudio, un cadre novateur pour la génération vidéo-à-audio qui intègre l'apprentissage par renforcement avec une décomposition en chaînes de pensée spécialisées et des récompenses multidimensionnelles, résolvant ainsi les problèmes d'entrelacement des objectifs et atteignant des performances de pointe grâce à une méthode d'optimisation efficace et un nouveau benchmark rigoureux.

Huadai Liu, Kaicheng Luo, Wen Wang + 6 more2026-03-04⚡ eess