Accelerating Robotic Reinforcement Learning with Agent Guidance

Ce papier présente AGPS, un cadre qui remplace la supervision humaine par un agent multimodal agissant comme un modèle du monde sémantique pour guider l'exploration des robots, améliorant ainsi considérablement l'efficacité des échantillons et la scalabilité de l'apprentissage par renforcement par rapport aux méthodes traditionnelles à boucle humaine.

Haojun Chen, Zili Zou, Chengdong Ma, Yaoxiang Pu, Haotong Zhang, Yuanpei Chen, Yaodong Yang2026-03-10💻 cs

To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

L'article M2RL analyse et compare les paradigmes d'apprentissage par renforcement à récompenses vérifiables (RLVR) pour les modèles de langage, démontrant que l'entraînement mixte multi-tâches et le fusionnement de modèles entraînés séparément sont tous deux efficaces car les domaines de raisonnement s'avèrent synergiques et peu interférents.

Haoqing Wang, Xiang Long, Ziheng Li, Yilong Xu, Tingguang Li, Yehui Tang2026-03-10💻 cs

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

Le benchmark SkillsBench évalue l'efficacité des compétences d'agents sur 86 tâches et révèle que, bien que les compétences curatées améliorent significativement les performances moyennes, leur impact varie considérablement selon les domaines et que les modèles ne parviennent pas actuellement à générer de manière fiable les compétences dont ils bénéficieraient.

Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Binxu Li, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee2026-03-10💻 cs

Graph Neural Model Predictive Control for High-Dimensional Systems

Cet article présente un cadre de contrôle prédictif basé sur des réseaux de neurones graphiques qui permet le contrôle en temps réel de systèmes haute dimension, tels que les robots souples, en exploitant la parcimonie des interactions et l'accélération GPU pour atteindre une précision subcentimétrique et une évolutivité jusqu'à 1 000 nœuds.

Patrick Benito Eberhard, Luis Pabon, Daniele Gammelli, Hugo Buurmeijer, Amon Lahr, Mark Leone, Andrea Carron, Marco Pavone2026-03-10💻 cs

3DMedAgent: Unified Perception-to-Understanding for 3D Medical Analysis

Le papier présente 3DMedAgent, un agent unifié qui permet aux modèles de langage multimodaux 2D d'analyser des données médicales 3D complexes via une décomposition progressive des tâches et une mémoire structurée, surpassant ainsi les méthodes existantes sur plus de 40 tâches d'imagerie thoracique.

Ziyue Wang, Linghan Cai, Chang Han Low, Haofeng Liu, Junde Wu, Jingyu Wang, Rui Wang, Lei Song, Jiang Bian, Jingjing Fu, Yueming Jin2026-03-10💻 cs

OVerSeeC: Open-Vocabulary Costmap Generation from Satellite Images and Natural Language

Le papier présente OVerSeeC, un cadre modulaire zéro-shot qui génère des cartes de coût globales pour la planification autonome à partir d'images satellites et de directives en langage naturel, en décomposant le processus en interprétation, localisation et synthèse pour s'adapter à des missions variées et à des entités inconnues.

Rwik Rana, Jesse Quattrociocchi, Dongmyeong Lee, Christian Ellis, Amanda Adkins, Adam Uccello, Garrett Warnell, Joydeep Biswas2026-03-10💻 cs

On the Energy Cost of Post-Quantum Key Establishment in Wireless Low-Power Personal Area Networks

Cette étude démontre que, sur les réseaux personnels à faible consommation comme Bluetooth Low Energy, le coût énergétique de la communication lors de l'établissement de clés post-quantiques dépasse souvent celui du calcul cryptographique, soulignant ainsi la nécessité d'une optimisation conjointe des protocoles et des couches basses pour assurer une transition efficace vers la sécurité quantique.

Tao Liu, Gowri Ramachandra, Raja Jurdak2026-03-10💻 cs

Open-Vocabulary Domain Generalization in Urban-Scene Segmentation

Cet article introduit le nouveau cadre de la généralisation de domaine à vocabulaire ouvert pour la segmentation sémantique urbaine, accompagné d'un benchmark dédié et d'une méthode innovante nommée S2-Corr, qui améliore la robustesse des modèles face aux changements de domaine et aux catégories inédites en affinant les corrélations texte-image.

Dong Zhao, Qi Zang, Nan Pu, Wenjing Li, Nicu Sebe, Zhun Zhong2026-03-10💻 cs

SKYLIGHT: A Scalable Hundred-Channel 3D Photonic In-Memory Tensor Core Architecture for Real-time AI Inference

Ce papier présente SKYLIGHT, une architecture de cœur tensoriel photonique 3D à cent canaux et à mémoire intégrée qui surpasse les GPU NVIDIA en efficacité énergétique pour l'inférence IA en temps réel tout en permettant l'apprentissage local sans étiquettes grâce à des mises à jour de poids in situ.

Meng Zhang, Ziang Yin, Nicholas Gangi, Alexander Chen, Brett Bamfo, Tianle Xu, Jiaqi Gu, Zhaoran Rena Huang2026-03-10💻 cs

Cycle-Consistent Tuning for Layered Image Decomposition

Cet article présente un cadre de décomposition d'images en couches basé sur l'apprentissage contextuel et l'adaptation LoRA de modèles de diffusion, qui utilise une stratégie d'ajustement cyclique et un processus d'amélioration progressive pour séparer efficacement des éléments complexes comme les logos de leurs arrière-plans tout en préservant la cohérence visuelle.

Zheng Gu, Min Lu, Zhida Sun, Dani Lischinski, Daniel Cohen-Or, Hui Huang2026-03-10💻 cs