SDGraph: Multi-Level Sketch Representation Learning by Sparse-Dense Graph Architecture

Le papier présente SDGraph, une architecture d'apprentissage profond basée sur un graphe combinant des structures clairsemées et denses pour modéliser efficacement les esquisses à trois niveaux (esquisse, trait et point), améliorant ainsi significativement les performances dans les tâches de classification, de recherche et de génération.

Xi Cheng, Pingfa Feng, Mingyu Fan, Zhichao Liao, Hang Cheng, Long Zeng2026-03-12💻 cs

InstantSfM: Towards GPU-Native SfM for the Deep Learning Era

Le papier présente InstantSfM, un système de Structure-from-Motion entièrement basé sur GPU et compatible PyTorch qui intègre des priors de profondeur métrique pour résoudre l'ambiguïté d'échelle et offre une accélération d'environ 40 fois par rapport à COLMAP tout en maintenant une précision de reconstruction élevée.

Jiankun Zhong, Zitong Zhan, Quankai Gao, Ziyu Chen, Haozhe Lou, Jiageng Mao, Ulrich Neumann, Chen Wang, Yue Wang2026-03-12💻 cs

REALM: An MLLM-Agent Framework for Open World 3D Reasoning Segmentation and Editing on Gaussian Splatting

Le papier présente REALM, un cadre d'agent MLLM innovant qui permet la segmentation et l'édition 3D en monde ouvert sur des représentations Gaussian Splatting en utilisant une stratégie de localisation spatiale globale-à-locale pour interpréter avec précision des instructions complexes sans nécessiter de post-entraînement spécifique.

Changyue Shi, Minghao Chen, Yiping Mao, Chuxiao Yang, Xinyuan Hu, Jiajun Ding, Zhou Yu2026-03-12💻 cs

Taming the Long Tail: Denoising Collaborative Information for Robust Semantic ID Generation

Ce papier propose ADC-SID, un cadre innovant qui améliore la génération d'identifiants sémantiques robustes pour les systèmes de recommandation en adaptativement débruyant les informations collaboratives via un alignement comportement-contenu ajustable et un mécanisme de pondération dynamique des identifiants comportementaux.

Yi Xu, Moyu Zhang, Chaofan Fan, Jinxin Hu, Xiaochen Li, Yu Zhang, Xiaoyi Zeng, Jing Zhang2026-03-12💻 cs

EyeAgent: An Agentic AI System for Multimodal Clinical Decision Support in Ophthalmology

Le papier présente EyeAgent, un premier cadre d'IA agentique interprétable pour le soutien décisionnel clinique en ophtalmologie, qui orchestre dynamiquement 53 outils spécialisés sur 23 modalités d'imagerie pour atteindre une précision diagnostique supérieure et améliorer significativement les performances des médecins, en particulier des juniors.

Danli Shi, Xiaolan Chen, Bingjie Yan, Weiyi Zhang, Pusheng Xu, Jiancheng Yang, Ruoyu Chen, Siyu Huang, Bowen Liu, Xinyuan Wu, Meng Xie, Ziyu Gao, Yue Wu, Senlin Lin, Kai Jin, Xia Gong, Yih Chung Tham, Xiujuan Zhang, Li Dong, Yuzhou Zhang, Jason Yam, Guangming Jin, Xiaohu Ding, Haidong Zou, Yalin Zheng, Zongyuan Ge, Mingguang He2026-03-12💻 cs

MergeVLA: Cross-Skill Model Merging Toward a Generalist Vision-Language-Action Agent

Le papier présente MergeVLA, une architecture d'agent Vision-Language-Action conçue pour fusionner efficacement des compétences multiples en résolvant les conflits de paramètres et les dépendances inter-couches grâce à des adaptateurs LoRA activés de manière clairsemée et des experts d'action basés sur l'attention croisée, permettant ainsi une généralisation robuste sans nécessiter de fine-tuning individuel.

Yuxia Fu, Zhizhen Zhang, Yuqi Zhang, Zijian Wang, Zi Huang, Yadan Luo2026-03-12💻 cs

AD-R1: Closed-Loop Reinforcement Learning for End-to-End Autonomous Driving with Impartial World Models

Ce papier présente AD-R1, un cadre d'apprentissage par renforcement en boucle fermée pour la conduite autonome qui utilise un modèle de monde impartial, enrichi par une synthèse de contre-factuels, pour prédire et éviter les dangers en apprenant à « rêver » des conséquences négatives des actions.

Tianyi Yan, Tao Tang, Xingtai Gui, Yongkang Li, Jiasen Zhesng, Weiyao Huang, Lingdong Kong, Wencheng Han, Xia Zhou, Xueyang Zhang, Yifei Zhan, Kun Zhan, Cheng-zhong Xu, Jianbing Shen2026-03-12💻 cs

SVBench: Evaluation of Video Generation Models on Social Reasoning

Ce papier présente SVBench, le premier benchmark évaluant la capacité des modèles de génération vidéo à produire des comportements socialement cohérents en testant sept dimensions de la cognition sociale, et révèle un écart significatif entre le réalisme visuel actuel et la compréhension des dynamiques psychologiques et sociales.

Wenshuo Peng, Gongxuan Wang, Tianmeng Yang, Chuanhao Li, Xiaojie Xu, Hui He, Kaipeng Zhang2026-03-12💻 cs