AD-R1: Closed-Loop Reinforcement Learning for End-to-End Autonomous Driving with Impartial World Models

Ce papier présente AD-R1, un cadre d'apprentissage par renforcement en boucle fermée pour la conduite autonome qui utilise un modèle de monde impartial, enrichi par une synthèse de contre-factuels, pour prédire et éviter les dangers en apprenant à « rêver » des conséquences négatives des actions.

Tianyi Yan, Tao Tang, Xingtai Gui, Yongkang Li, Jiasen Zhesng, Weiyao Huang, Lingdong Kong, Wencheng Han, Xia Zhou, Xueyang Zhang, Yifei Zhan, Kun Zhan, Cheng-zhong Xu, Jianbing Shen2026-03-12💻 cs

SVBench: Evaluation of Video Generation Models on Social Reasoning

Ce papier présente SVBench, le premier benchmark évaluant la capacité des modèles de génération vidéo à produire des comportements socialement cohérents en testant sept dimensions de la cognition sociale, et révèle un écart significatif entre le réalisme visuel actuel et la compréhension des dynamiques psychologiques et sociales.

Wenshuo Peng, Gongxuan Wang, Tianmeng Yang, Chuanhao Li, Xiaojie Xu, Hui He, Kaipeng Zhang2026-03-12💻 cs

Cosmos-H-Surgical: Learning Surgical Robot Policies from Videos via World Modeling

Ce papier propose une approche novatrice pour surmonter la pénurie de données en robotique chirurgicale en utilisant le modèle de monde Cosmos-H-Surgical et le jeu de données SATA pour générer des vidéos synthétiques et en déduire des kinematics factices, permettant ainsi d'entraîner des politiques de robot chirurgical qui surpassent les modèles formés uniquement sur des démonstrations réelles.

Yufan He, Pengfei Guo, Mengya Xu, Zhaoshuo Li, Andriy Myronenko, Dillan Imans, Bingjie Liu, Dongren Yang, Mingxue Gu, Yongnan Ji, Yueming Jin, Ren Zhao, Baiyong Shen, Daguang Xu2026-03-12💻 cs

Don't Mind the Gaps: Implicit Neural Representations for Resolution-Agnostic Retinal OCT Analysis

Cet article propose deux cadres basés sur des représentations neuronales implicites pour réaliser des analyses volumétriques d'OCT rétinien résolus de manière agnostique, permettant à la fois l'interpolation inter-B-scan et la création d'un atlas rétinien généralisable pour surmonter les limitations liées à l'anisotropie et à la résolution des données d'imagerie clinique.

Bennet Kahrs, Julia Andresen, Fenja Falta, Monty Santarossa, Heinz Handels, Timo Kepp2026-03-12💻 cs

PLANING: A Loosely Coupled Triangle-Gaussian Framework for Streaming 3D Reconstruction

PLANING est un cadre de reconstruction 3D en flux continu efficace qui couple lâchement des primitives géométriques explicites et des Gaussiens neuronaux pour obtenir simultanément une géométrie précise et un rendu de haute qualité, surpassant les méthodes existantes en termes de vitesse et de fidélité structurelle.

Changjian Jiang, Kerui Ren, Xudong Li, Kaiwen Song, Guanghao Li, Linning Xu, Tao Lu, Junting Dong, Yu Zhang, Bo Dai, Mulin Yu2026-03-12💻 cs

Dull, Dirty, Dangerous: Understanding the Past, Present, and Future of a Key Motivation for Robotics

Cet article analyse empiriquement l'utilisation du concept de travail « ennuyeux, sale et dangereux » (DDD) dans la littérature robotique de 1980 à 2024, révèle son manque de définitions claires, propose une clarification basée sur les sciences sociales et suggère un cadre pour mieux évaluer l'impact des robots sur le travail humain.

Nozomi Nakajima, Pedro Reynolds-Cuéllar, Caitrin Lynch, Kate Darling2026-03-12💻 cs

OmniVTON++: Training-Free Universal Virtual Try-On with Principal Pose Guidance

OmniVTON++ est un cadre de essayage virtuel universel sans entraînement qui surpasse les méthodes existantes en assurant une adaptation précise des vêtements, une cohérence structurelle humaine et une continuité des contours grâce à une morphologie structurée, un guidage de pose principal et un assemblage de contours continus, tout en s'appliquant à divers scénarios incluant plusieurs vêtements, plusieurs personnes et des personnages d'anime.

Zhaotong Yang, Yong Du, Shengfeng He, Yuhui Li, Xinzhe Li, Yangyang Xu, Junyu Dong, Jian Yang2026-03-12💻 cs

Similarity-as-Evidence: Calibrating Overconfident VLMs for Interpretable and Label-Efficient Medical Active Learning

Le cadre Similarity-as-Evidence (SaE) améliore l'apprentissage actif médical en recalibrant les modèles vision-langage surconfiants via une tête d'évidence de similarité qui quantifie le manque et le conflit de preuves, permettant ainsi une sélection d'échantillons interprétable et une réduction des coûts d'annotation.

Zhuofan Xie, Zishan Lin, Jinliang Lin, Jie Qi, Shaohua Hong, Shuo Li2026-03-12💻 cs

Structured Bitmap-to-Mesh Triangulation for Geometry-Aware Discretization of Image-Derived Domains

Ce papier propose un cadre de triangulation piloté par des modèles qui intègre les limites dérivées d'images dans une grille triangulaire régulière en ne retriangulant que les éléments intersectés, garantissant ainsi une discrétisation stable, parallèle et déterministe pour la résolution d'équations aux dérivées partielles sur des domaines complexes.

Wei Feng, Haiyong Zheng2026-03-12💻 cs