cs.CV articles | Gist.Science

Chain of World: World Model Thinking in Latent Motion

L'article présente CoWVLA, une nouvelle approche unifiant le raisonnement temporel des modèles de monde et une représentation latente de mouvement déségréguée pour améliorer l'apprentissage visuomoteur des modèles Vision-Language-Action.

Fuxiang Yang, Donglin Di, Lulu Tang + 6 more2026-03-04🤖 cs.AI

ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

Ce rapport présente ACE-Brain-0, un cerveau fondationnel généraliste qui unifie le raisonnement spatial, la conduite autonome et la manipulation robotique au sein d'un seul modèle multimodal en exploitant l'intelligence spatiale comme échafaudage universel et en appliquant une nouvelle paradigme « Échafaudage-Spécialisation-Réconciliation » pour surmonter les défis de l'apprentissage multi-embodiments.

Ziyang Gong, Zehang Luo, Anke Tang + 21 more2026-03-04💬 cs.CL

COP-GEN: Latent Diffusion Transformer for Copernicus Earth Observation Data -- Generation Stochastic by Design

Le papier présente COP-GEN, un transformateur de diffusion latent multimodal conçu pour générer de manière stochastique des données d'observation de la Terre Copernicus, permettant ainsi une traduction entre capteurs et une complétion de données diversifiée et physiquement cohérente tout en modélisant correctement les incertitudes inhérentes aux relations non injectives entre modalités.

Miguel Espinosa, Eva Gmelich Meijling, Valerio Marsocci + 2 more2026-03-04💻 cs

UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

Ce papier présente UniG2U-Bench, une nouvelle évaluation systématique révélant que, bien que les modèles unifiés multimodaux sous-performent généralement leurs homologues vision-langage directs, l'inférence générative améliore spécifiquement les tâches d'intelligence spatiale, d'illusions visuelles et de raisonnement multi-étapes, tout en soulignant la nécessité de données d'entraînement plus diversifiées pour pleinement exploiter ce potentiel.

Zimo Wen, Boxiu Li, Wanbo Zhang + 11 more2026-03-04🤖 cs.AI

DuoMo: Dual Motion Diffusion for World-Space Human Reconstruction

Le papier présente DuoMo, une méthode générative innovante qui utilise deux modèles de diffusion pour reconstruire avec précision le mouvement humain dans l'espace mondial à partir de vidéos non contraintes et bruitées, en surclassant les performances actuelles sur des jeux de données de référence.

Yufu Wang, Evonne Ng, Soyong Shin + 8 more2026-03-04💻 cs

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

LoGeR est une architecture innovante qui permet la reconstruction géométrique 3D dense sur des vidéos extrêmement longues en combinant un traitement par blocs avec une mémoire hybride apprenante, surmontant ainsi les limitations de complexité et de cohérence des modèles existants pour atteindre des performances record sur des séquences de plusieurs milliers de trames.

Junyi Zhang, Charles Herrmann, Junhwa Hur + 5 more2026-03-04🤖 cs.LG

Beyond Language Modeling: An Exploration of Multimodal Pretraining

Cet article présente une étude empirique du préentraînement multimodal natif utilisant le cadre Transfusion, révélant que l'association d'un autoencodeur de représentation visuel optimal, de données complémentaires et d'une architecture à mélange d'experts permet de surmonter l'asymétrie de mise à l'échelle entre le langage et la vision pour créer des modèles unifiés capables de modélisation du monde.

Shengbang Tong, David Fan, John Nguyen + 18 more2026-03-04💻 cs

Tether: Autonomous Functional Play with Correspondence-Driven Trajectory Warping

Le papier présente Tether, une méthode permettant à un robot d'apprendre de manière autonome par jeu fonctionnel en adaptant quelques démonstrations via des correspondances sémantiques et en s'appuyant sur des modèles vision-langage pour générer des milliers de trajectoires expertes qui surpassent les politiques apprises par imitation humaine.

William Liang, Sam Wang, Hung-Ju Wang + 3 more2026-03-04🤖 cs.AI

ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation

L'article présente ULTRA, un cadre unifié qui permet aux humanoïdes d'exécuter de manière autonome des tâches complexes de locomotion et de manipulation en combinant un réétiquetage de mouvements physiquement plausible et un contrôleur multimodal capable de générer des comportements coordonnés à partir de perceptions visuelles égo-centriques et de spécifications de tâches sans nécessiter de références de mouvement prédéfinies.

Xialin He, Sirui Xu, Xinyao Li + 4 more2026-03-04💻 cs

How to Peel with a Knife: Aligning Fine-Grained Manipulation with Human Preference

Cet article présente un cadre d'apprentissage en deux étapes pour la manipulation robotique fine, tel que l'épluchage au couteau, qui combine l'apprentissage par imitation et un affinage basé sur les préférences humaines pour atteindre des taux de réussite élevés et une forte généralisation avec peu de données.

Toru Lin, Shuying Deng, Zhao-Heng Yin + 2 more2026-03-04⚡ eess

MIBURI: Towards Expressive Interactive Gesture Synthesis

Le papier présente MIBURI, un cadre causal en temps réel pionnier qui génère des gestes corporels et des expressions faciales expressifs et synchronisés avec la parole pour des agents conversationnels incarnés, en surmontant les limitations de rigidité et de latence des solutions existantes grâce à l'utilisation de codecs de gestes et d'une génération autoregressive conditionnée par des embeddings de langage.

M. Hamza Mughal, Rishabh Dabral, Vera Demberg + 1 more2026-03-04💻 cs

Utonia: Toward One Encoder for All Point Clouds

Le papier présente Utonia, un encodeur auto-supervisé unifié capable d'apprendre une représentation cohérente à partir de nuages de points provenant de domaines diversifiés, améliorant ainsi les capacités de perception et les performances dans des tâches de raisonnement multimodal et robotique.

Yujia Zhang, Xiaoyang Wu, Yunhan Yang + 6 more2026-03-04💻 cs

Towards Accurate One-Stage Object Detection with AP-Loss

Cet article propose un cadre novateur pour la détection d'objets en une étape qui remplace la tâche de classification par une tâche de classement optimisée via une perte de précision moyenne (AP-loss) et un nouvel algorithme d'optimisation, permettant d'améliorer significativement les performances sans modifier l'architecture du réseau.

Kean Chen, Jianguo Li, Weiyao Lin + 6 more2026-03-03💻 cs

AP-Loss for Accurate One-Stage Object Detection

Ce papier propose un cadre novateur pour la détection d'objets en une seule étape qui remplace la tâche de classification par une tâche de classement optimisée via une fonction de perte de précision moyenne (AP-loss), résolvant ainsi le problème du déséquilibre extrême entre les classes et améliorant les performances de l'état de l'art grâce à un algorithme d'optimisation hybride inédit.

Kean Chen, Weiyao Lin, Jianguo Li + 3 more2026-03-03💻 cs

OmniTracker: Unifying Object Tracking by Tracking-with-Detection

Le papier présente OmniTracker, un modèle unifié qui fusionne le suivi et la détection pour résoudre efficacement toutes les tâches de suivi d'objets visuels avec une seule architecture, éliminant ainsi la redondance des paramètres tout en obtenant des performances compétitives sur sept jeux de données.

Junke Wang, Zuxuan Wu, Dongdong Chen + 4 more2026-03-03💻 cs

RFAConv: Receptive-Field Attention Convolution for Improving Convolutional Neural Networks

Ce papier propose la RFAConv, une nouvelle convolution intégrant un mécanisme d'attention sur le champ récepteur qui, tout en ajoutant une charge computationnelle négligeable, améliore significativement les performances des réseaux de neurones convolutifs en surmontant les limites des mécanismes d'attention spatiale actuels concernant le partage des paramètres.

Xin Zhang, Chen Liu, Degang Yang + 4 more2026-03-03💻 cs

Task-Driven Lens Design

Cet article propose une nouvelle approche de conception optique « Task-Driven Lens Design » qui, en optimisant uniquement les lentilles autour d'un modèle de vision par ordinateur pré-entraîné et figé, permet de créer des systèmes optiques plus stables et performants pour des tâches spécifiques que les lentilles classiques, sans nécessiter d'intervention humaine.

Xinge Yang, Qiang Fu, Yunfeng Nie + 1 more2026-03-03🔬 physics.optics

Topological Inductive Bias fosters Multiple Instance Learning in Data-Scarce Scenarios

Pour pallier la baisse de performance du apprentissage multi-ensembles (MIL) en cas de pénurie de données, les auteurs proposent la méthode TG-MIL qui intègre des biais inductifs topologiques afin de préserver la structure des distributions d'instances, améliorant ainsi significativement la précision et la généralisation des modèles sur des tâches comme la classification de maladies rares.

Salome Kazeminia, Carsten Marr, Bastian Rieck2026-03-03⚡ eess

Velocity Disambiguation for Video Frame Interpolation

Ce papier propose une méthode d'interpolation vidéo améliorée qui remplace l'indexation temporelle par une indexation de distance explicite et une estimation itérative pour résoudre les ambiguïtés de vitesse, réduisant ainsi le flou et permettant un contrôle temporel indépendant des objets.

Zhihang Zhong, Yiming Zhang, Wei Wang + 5 more2026-03-03💻 cs

Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning

Cet article propose un nouveau modèle de causalité partielle latente pour l'apprentissage multimodal, démontrant théoriquement et expérimentalement que les représentations apprises par l'apprentissage contrastif multimodal (MMCL) correspondent à des variables couplées identifiables, permettant ainsi un meilleur dénouement des représentations et une généralisation accrue.

Yuhang Liu, Zhen Zhang, Dong Gong + 6 more2026-03-03🤖 cs.LG

← Précédent Suivant →