Δ\DeltaVLA: Prior-Guided Vision-Language-Action Models via World Knowledge Variation

Le papier présente Δ\DeltaVLA, un cadre d'action vision-langage guidé par des connaissances antérieures qui améliore la manipulation robotique en modélisant les variations du monde plutôt que les états futurs absolus, grâce à des modules d'extraction de priorités, de quantification des variations latentes et d'attention conditionnelle.

Yijie Zhu, Jie He, Rui Shao, Kaishen Yuan, Tao Tan, Xiaochen Yuan, Zitong Yu2026-03-10💻 cs

This Looks Distinctly Like That: Grounding Interpretable Recognition in Stiefel Geometry against Neural Collapse

Ce papier propose les Prototypes Adaptatifs de Variété (AMP), un cadre utilisant l'optimisation riemannienne sur la variété de Stiefel pour représenter les prototypes de classe comme des bases orthonormées, empêchant ainsi l'effondrement des prototypes et améliorant simultanément la précision de classification et la fidélité causale dans les modèles interprétables.

Junhao Jia, Jiaqi Wang, Yunyou Liu, Haodong Jing, Yueyi Wu, Xian Wu, Yefeng Zheng2026-03-10💻 cs

Rectified flow-based prediction of post-treatment brain MRI from pre-radiotherapy priors for patients with glioma

Cette étude présente un modèle de flux rectifié capable de générer en temps réel des IRM cérébrales post-traitement réalistes pour les patients atteints de gliome, à partir d'IRM pré-thérapeutiques et de cartes de dose de radiothérapie, afin d'optimiser la planification thérapeutique adaptative.

Selena Huisman, Nordin Belkacemi, Vera Keil, Joost Verhoeff, Szabolcs David2026-03-10💻 cs

AULLM++: Structural Reasoning with Large Language Models for Micro-Expression Recognition

L'article présente AULLM++, un cadre de raisonnement basé sur les grands modèles de langage qui améliore la reconnaissance des micro-expressions en fusionnant des indices visuels multi-granulaires et des corrélations structurelles entre les unités d'action pour surmonter les limitations des méthodes précédentes et atteindre des performances de pointe.

Zhishu Liu, Kaishen Yuan, Bo Zhao, Hui Ma, Zitong Yu2026-03-10💻 cs

StructBiHOI: Structured Articulation Modeling for Long--Horizon Bimanual Hand--Object Interaction Generation

Le papier propose StructBiHOI, un cadre de modélisation articulaire structurée qui, en découplant la planification temporelle des articulations de l'affinement des poses et en utilisant un débruiteur diffusion inspiré de Mamba, permet une génération stable et réaliste d'interactions main-objet bimanuelles à long horizon.

Zhi Wang, Liu Liu, Ruonan Liu, Dan Guo, Meng Wang2026-03-10💻 cs

SPIRAL: A Closed-Loop Framework for Self-Improving Action World Models via Reflective Planning Agents

Le papier présente SPIRAL, un cadre en boucle fermée permettant une génération vidéo à long terme contrôlée par des actions sémantiques grâce à un processus itératif de planification, d'action et de réflexion qui améliore la cohérence temporelle et l'alignement sémantique par rapport aux modèles existants.

Yu Yang, Yue Liao, Jianbiao Mei, Baisen Wang, Xuemeng Yang, Licheng Wen, Jiangning Zhang, Xiangtai Li, Hanlin Chen, Botian Shi, Yong Liu, Shuicheng Yan, Gim Hee Lee2026-03-10💻 cs

Grow, Assess, Compress: Adaptive Backbone Scaling for Memory-Efficient Class Incremental Learning

Cet article propose GRACE, un cadre d'apprentissage incrémental de classe adaptatif qui équilibre plasticité et stabilité en alternant cycles d'expansion, d'évaluation de la saturation et de compression du modèle, permettant ainsi d'atteindre des performances de pointe tout en réduisant l'empreinte mémoire de 73 % par rapport aux méthodes purement expansives.

Adrian Garcia-Castañeda, Jon Irureta, Jon Imaz, Aizea Lojo2026-03-10🤖 cs.LG

X-AVDT: Audio-Visual Cross-Attention for Robust Deepfake Detection

Cet article présente X-AVDT, un détecteur de deepfakes robuste qui exploite les mécanismes d'attention croisée audio-visuelle internes aux générateurs via l'inversion DDIM, et introduit le nouveau jeu de données multimodal MMDF pour améliorer la détection et la généralisation face aux synthèses génératives émergentes.

Youngseo Kim, Kwan Yun, Seokhyeon Hong, Sihun Cha, Colette Suhjung Koo, Junyong Noh2026-03-10🤖 cs.LG

Interactive World Simulator for Robot Policy Training and Evaluation

Les auteurs présentent l'Interactive World Simulator, un cadre utilisant des modèles de cohérence pour générer des simulations robotiques interactives, rapides et physiquement cohérentes, permettant d'entraîner et d'évaluer des politiques d'imitation avec des performances comparables à celles obtenues avec des données réelles.

Yixuan Wang, Rhythm Syed, Fangyu Wu, Mengchao Zhang, Aykut Onol, Jose Barreiros, Hooshang Nayyeri, Tony Dear, Huan Zhang, Yunzhu Li2026-03-10🤖 cs.LG

DualFlexKAN: Dual-stage Kolmogorov-Arnold Networks with Independent Function Control

Le papier présente DualFlexKAN, une architecture innovante de réseaux de Kolmogorov-Arnold à double étage qui, en découplant les transformations d'entrée et les activations de sortie, permet de combiner expressivité et efficacité computationnelle pour surpasser les MLP et les KAN classiques avec une fraction du nombre de paramètres.

Andrés Ortiz, Nicolás J. Gallego-Molina, Carmen Jiménez-Mesa, Juan M. Górriz, Javier Ramírez2026-03-10🤖 cs.LG