MC-INR: Efficient Encoding of Multivariate Scientific Simulation Data using Meta-Learning and Clustered Implicit Neural Representations

Cet article présente MC-INR, un cadre novateur basé sur l'apprentissage par méta-entraînement et le regroupement dynamique pour encoder efficacement des données de simulation scientifique multivariées sur des grilles non structurées, surmontant ainsi les limitations des représentations neuronales implicites existantes.

Hyunsoo Son, Jeonghyun Noh, Suemin Jeon + 2 more2026-03-04🤖 cs.LG

CoBELa: Steering Transparent Generation via Concept Bottlenecks on Energy Landscapes

Le papier présente CoBELa, un cadre basé sur l'énergie sans décodeur qui améliore la transparence de la génération en conditionnant entièrement la synthèse via des fonctions d'énergie par concept, permettant ainsi des interventions compositionnelles fiables et une interprétation post-hoc sans nécessiter de réentraînement du générateur.

Sangwon Kim, Kyoungoh Lee, Jeyoun Dong + 1 more2026-03-04🤖 cs.AI

InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation

Le papier présente InstructVLA, un modèle vision-langage-action qui, grâce à un nouveau paradigme d'ajustement par instructions (VLA-IT) et à une adaptation par mélange d'experts, préserve les capacités de raisonnement des grands modèles tout en atteignant des performances de manipulation de pointe et une forte généralisation sur des tâches complexes.

Shuai Yang, Hao Li, Bin Wang + 7 more2026-03-04💻 cs

Are VLMs Ready for Lane Topology Awareness in Autonomous Driving?

Cette étude évalue systématiquement les capacités des modèles vision-langage à comprendre la topologie routière pour la conduite autonome, révélant que malgré des progrès certains, ils peinent encore à maîtriser le raisonnement spatial fondamental, en particulier les modèles open-source, ce qui souligne un goulot d'étranglement majeur pour leur déploiement sécurisé.

Xin Chen, Jia He, Maozheng Li + 5 more2026-03-04💻 cs

EchoGen: Generating Visual Echoes in Any Scene via Feed-Forward Subject-Driven Auto-Regressive Model

Ce papier présente EchoGen, un cadre pionnier de génération pilotée par sujet basé sur des modèles auto-régressifs visuels (VAR) qui, grâce à une stratégie d'injection à double voie, surpasse les méthodes de diffusion en termes de rapidité d'inférence tout en maintenant une fidélité et une qualité d'image exceptionnelles.

Ruixiao Dong, Zhendong Wang, Keli Liu + 5 more2026-03-04💻 cs

Reasoning as Representation: Rethinking Visual Reinforcement Learning in Image Quality Assessment

Cet article propose RALI, un nouvel algorithme qui aligne directement les images sur des représentations textuelles généralisables apprises par des modèles de langage multimodal via l'apprentissage par renforcement, permettant ainsi d'atteindre des performances d'évaluation de la qualité d'image comparables à celles des modèles de raisonnement tout en réduisant drastiquement les paramètres et le temps d'inférence.

Shijie Zhao, Xuanyu Zhang, Weiqi Li + 4 more2026-03-04💻 cs