VIRGi: View-dependent Instant Recoloring of 3D Gaussians Splats

VIRGi est une méthode novatrice qui permet de recolorer rapidement et de manière photoréaliste des scènes modélisées par l'éclaboussure de gaussiennes 3D (3DGS) tout en préservant les effets dépendants de la vue, en utilisant une architecture séparant les composantes de couleur et un processus de fine-tuning nécessitant uniquement une image éditée manuellement.

Alessio Mazzucchelli, Ivan Ojeda-Martin, Fernando Rivas-Manzaneque + 3 more2026-03-04💻 cs

Any Resolution Any Geometry: From Multi-View To Multi-Patch

Les auteurs proposent l'Ultra Resolution Geometry Transformer (URGT), un modèle transformeur unifié multi-patches qui améliore l'estimation conjointe de la profondeur et des normales en haute résolution en combinant des priors grossiers, une attention inter-patches pour la cohérence globale et une stratégie d'échantillonnage GridMix, atteignant ainsi des performances état de l'art sur UnrealStereo4K avec une excellente généralisation.

Wenqing Cui, Zhenyu Li, Mykola Lavreniuk + 4 more2026-03-04💻 cs

BRIGHT: A Collaborative Generalist-Specialist Foundation Model for Breast Pathology

Cette étude présente BRIGHT, le premier modèle fondationnel collaboratif généraliste-spécialiste conçu spécifiquement pour la pathologie mammaire et entraîné sur une vaste base de données multi-institutionnelle, démontrant des performances supérieures aux modèles généralistes existants sur un large éventail de tâches cliniques tout en validant une nouvelle approche évolutive pour le développement de modèles spécialisés par organe.

Xiaojing Guo, Jiatai Lin, Yumian Jia + 39 more2026-03-04💻 cs

ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

Ce rapport présente ACE-Brain-0, un cerveau fondationnel généraliste qui unifie le raisonnement spatial, la conduite autonome et la manipulation robotique au sein d'un seul modèle multimodal en exploitant l'intelligence spatiale comme échafaudage universel et en appliquant une nouvelle paradigme « Échafaudage-Spécialisation-Réconciliation » pour surmonter les défis de l'apprentissage multi-embodiments.

Ziyang Gong, Zehang Luo, Anke Tang + 21 more2026-03-04💬 cs.CL

COP-GEN: Latent Diffusion Transformer for Copernicus Earth Observation Data -- Generation Stochastic by Design

Le papier présente COP-GEN, un transformateur de diffusion latent multimodal conçu pour générer de manière stochastique des données d'observation de la Terre Copernicus, permettant ainsi une traduction entre capteurs et une complétion de données diversifiée et physiquement cohérente tout en modélisant correctement les incertitudes inhérentes aux relations non injectives entre modalités.

Miguel Espinosa, Eva Gmelich Meijling, Valerio Marsocci + 2 more2026-03-04💻 cs

UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

Ce papier présente UniG2U-Bench, une nouvelle évaluation systématique révélant que, bien que les modèles unifiés multimodaux sous-performent généralement leurs homologues vision-langage directs, l'inférence générative améliore spécifiquement les tâches d'intelligence spatiale, d'illusions visuelles et de raisonnement multi-étapes, tout en soulignant la nécessité de données d'entraînement plus diversifiées pour pleinement exploiter ce potentiel.

Zimo Wen, Boxiu Li, Wanbo Zhang + 11 more2026-03-04🤖 cs.AI

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

LoGeR est une architecture innovante qui permet la reconstruction géométrique 3D dense sur des vidéos extrêmement longues en combinant un traitement par blocs avec une mémoire hybride apprenante, surmontant ainsi les limitations de complexité et de cohérence des modèles existants pour atteindre des performances record sur des séquences de plusieurs milliers de trames.

Junyi Zhang, Charles Herrmann, Junhwa Hur + 5 more2026-03-04🤖 cs.LG

Beyond Language Modeling: An Exploration of Multimodal Pretraining

Cet article présente une étude empirique du préentraînement multimodal natif utilisant le cadre Transfusion, révélant que l'association d'un autoencodeur de représentation visuel optimal, de données complémentaires et d'une architecture à mélange d'experts permet de surmonter l'asymétrie de mise à l'échelle entre le langage et la vision pour créer des modèles unifiés capables de modélisation du monde.

Shengbang Tong, David Fan, John Nguyen + 18 more2026-03-04💻 cs