ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

Ce rapport présente ACE-Brain-0, un cerveau fondationnel généraliste qui unifie le raisonnement spatial, la conduite autonome et la manipulation robotique au sein d'un seul modèle multimodal en exploitant l'intelligence spatiale comme échafaudage universel et en appliquant une nouvelle paradigme « Échafaudage-Spécialisation-Réconciliation » pour surmonter les défis de l'apprentissage multi-embodiments.

Ziyang Gong, Zehang Luo, Anke Tang + 21 more2026-03-04💬 cs.CL

COP-GEN: Latent Diffusion Transformer for Copernicus Earth Observation Data -- Generation Stochastic by Design

Le papier présente COP-GEN, un transformateur de diffusion latent multimodal conçu pour générer de manière stochastique des données d'observation de la Terre Copernicus, permettant ainsi une traduction entre capteurs et une complétion de données diversifiée et physiquement cohérente tout en modélisant correctement les incertitudes inhérentes aux relations non injectives entre modalités.

Miguel Espinosa, Eva Gmelich Meijling, Valerio Marsocci + 2 more2026-03-04💻 cs

UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

Ce papier présente UniG2U-Bench, une nouvelle évaluation systématique révélant que, bien que les modèles unifiés multimodaux sous-performent généralement leurs homologues vision-langage directs, l'inférence générative améliore spécifiquement les tâches d'intelligence spatiale, d'illusions visuelles et de raisonnement multi-étapes, tout en soulignant la nécessité de données d'entraînement plus diversifiées pour pleinement exploiter ce potentiel.

Zimo Wen, Boxiu Li, Wanbo Zhang + 11 more2026-03-04🤖 cs.AI

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

LoGeR est une architecture innovante qui permet la reconstruction géométrique 3D dense sur des vidéos extrêmement longues en combinant un traitement par blocs avec une mémoire hybride apprenante, surmontant ainsi les limitations de complexité et de cohérence des modèles existants pour atteindre des performances record sur des séquences de plusieurs milliers de trames.

Junyi Zhang, Charles Herrmann, Junhwa Hur + 5 more2026-03-04🤖 cs.LG

Beyond Language Modeling: An Exploration of Multimodal Pretraining

Cet article présente une étude empirique du préentraînement multimodal natif utilisant le cadre Transfusion, révélant que l'association d'un autoencodeur de représentation visuel optimal, de données complémentaires et d'une architecture à mélange d'experts permet de surmonter l'asymétrie de mise à l'échelle entre le langage et la vision pour créer des modèles unifiés capables de modélisation du monde.

Shengbang Tong, David Fan, John Nguyen + 18 more2026-03-04💻 cs

ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation

L'article présente ULTRA, un cadre unifié qui permet aux humanoïdes d'exécuter de manière autonome des tâches complexes de locomotion et de manipulation en combinant un réétiquetage de mouvements physiquement plausible et un contrôleur multimodal capable de générer des comportements coordonnés à partir de perceptions visuelles égo-centriques et de spécifications de tâches sans nécessiter de références de mouvement prédéfinies.

Xialin He, Sirui Xu, Xinyao Li + 4 more2026-03-04💻 cs

MIBURI: Towards Expressive Interactive Gesture Synthesis

Le papier présente MIBURI, un cadre causal en temps réel pionnier qui génère des gestes corporels et des expressions faciales expressifs et synchronisés avec la parole pour des agents conversationnels incarnés, en surmontant les limitations de rigidité et de latence des solutions existantes grâce à l'utilisation de codecs de gestes et d'une génération autoregressive conditionnée par des embeddings de langage.

M. Hamza Mughal, Rishabh Dabral, Vera Demberg + 1 more2026-03-04💻 cs

AP-Loss for Accurate One-Stage Object Detection

Ce papier propose un cadre novateur pour la détection d'objets en une seule étape qui remplace la tâche de classification par une tâche de classement optimisée via une fonction de perte de précision moyenne (AP-loss), résolvant ainsi le problème du déséquilibre extrême entre les classes et améliorant les performances de l'état de l'art grâce à un algorithme d'optimisation hybride inédit.

Kean Chen, Weiyao Lin, Jianguo Li + 3 more2026-03-03💻 cs

RFAConv: Receptive-Field Attention Convolution for Improving Convolutional Neural Networks

Ce papier propose la RFAConv, une nouvelle convolution intégrant un mécanisme d'attention sur le champ récepteur qui, tout en ajoutant une charge computationnelle négligeable, améliore significativement les performances des réseaux de neurones convolutifs en surmontant les limites des mécanismes d'attention spatiale actuels concernant le partage des paramètres.

Xin Zhang, Chen Liu, Degang Yang + 4 more2026-03-03💻 cs

Topological Inductive Bias fosters Multiple Instance Learning in Data-Scarce Scenarios

Pour pallier la baisse de performance du apprentissage multi-ensembles (MIL) en cas de pénurie de données, les auteurs proposent la méthode TG-MIL qui intègre des biais inductifs topologiques afin de préserver la structure des distributions d'instances, améliorant ainsi significativement la précision et la généralisation des modèles sur des tâches comme la classification de maladies rares.

Salome Kazeminia, Carsten Marr, Bastian Rieck2026-03-03⚡ eess

Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning

Cet article propose un nouveau modèle de causalité partielle latente pour l'apprentissage multimodal, démontrant théoriquement et expérimentalement que les représentations apprises par l'apprentissage contrastif multimodal (MMCL) correspondent à des variables couplées identifiables, permettant ainsi un meilleur dénouement des représentations et une généralisation accrue.

Yuhang Liu, Zhen Zhang, Dong Gong + 6 more2026-03-03🤖 cs.LG