ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation

L'article présente ULTRA, un cadre unifié qui permet aux humanoïdes d'exécuter de manière autonome des tâches complexes de locomotion et de manipulation en combinant un réétiquetage de mouvements physiquement plausible et un contrôleur multimodal capable de générer des comportements coordonnés à partir de perceptions visuelles égo-centriques et de spécifications de tâches sans nécessiter de références de mouvement prédéfinies.

Xialin He, Sirui Xu, Xinyao Li + 4 more2026-03-04💻 cs

MIBURI: Towards Expressive Interactive Gesture Synthesis

Le papier présente MIBURI, un cadre causal en temps réel pionnier qui génère des gestes corporels et des expressions faciales expressifs et synchronisés avec la parole pour des agents conversationnels incarnés, en surmontant les limitations de rigidité et de latence des solutions existantes grâce à l'utilisation de codecs de gestes et d'une génération autoregressive conditionnée par des embeddings de langage.

M. Hamza Mughal, Rishabh Dabral, Vera Demberg + 1 more2026-03-04💻 cs

AP-Loss for Accurate One-Stage Object Detection

Ce papier propose un cadre novateur pour la détection d'objets en une seule étape qui remplace la tâche de classification par une tâche de classement optimisée via une fonction de perte de précision moyenne (AP-loss), résolvant ainsi le problème du déséquilibre extrême entre les classes et améliorant les performances de l'état de l'art grâce à un algorithme d'optimisation hybride inédit.

Kean Chen, Weiyao Lin, Jianguo Li + 3 more2026-03-03💻 cs

RFAConv: Receptive-Field Attention Convolution for Improving Convolutional Neural Networks

Ce papier propose la RFAConv, une nouvelle convolution intégrant un mécanisme d'attention sur le champ récepteur qui, tout en ajoutant une charge computationnelle négligeable, améliore significativement les performances des réseaux de neurones convolutifs en surmontant les limites des mécanismes d'attention spatiale actuels concernant le partage des paramètres.

Xin Zhang, Chen Liu, Degang Yang + 4 more2026-03-03💻 cs

Topological Inductive Bias fosters Multiple Instance Learning in Data-Scarce Scenarios

Pour pallier la baisse de performance du apprentissage multi-ensembles (MIL) en cas de pénurie de données, les auteurs proposent la méthode TG-MIL qui intègre des biais inductifs topologiques afin de préserver la structure des distributions d'instances, améliorant ainsi significativement la précision et la généralisation des modèles sur des tâches comme la classification de maladies rares.

Salome Kazeminia, Carsten Marr, Bastian Rieck2026-03-03⚡ eess

Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning

Cet article propose un nouveau modèle de causalité partielle latente pour l'apprentissage multimodal, démontrant théoriquement et expérimentalement que les représentations apprises par l'apprentissage contrastif multimodal (MMCL) correspondent à des variables couplées identifiables, permettant ainsi un meilleur dénouement des représentations et une généralisation accrue.

Yuhang Liu, Zhen Zhang, Dong Gong + 6 more2026-03-03🤖 cs.LG

FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization

Le papier propose FiLo, une nouvelle méthode de détection d'anomalies en zéro-shot qui améliore la précision et la localisation grâce à des descriptions fines générées par des modèles de langage et une localisation de haute qualité assistée par Grounding DINO, atteignant ainsi des performances de pointe sur les ensembles de données MVTec et VisA.

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 4 more2026-03-03🤖 cs.LG

PO-GUISE+: Pose and object guided transformer token selection for efficient driver action recognition

Le papier présente PO-GUISE+, un transformateur vidéo multi-tâches optimisé pour la reconnaissance efficace des actions de conduite distrayante en sélectionnant les tokens grâce aux informations de pose et d'objets, réduisant ainsi les coûts computationnels tout en surpassant les méthodes actuelles sur plusieurs jeux de données et plateformes embarquées.

Ricardo Pizarro, Roberto Valle, Rafael Barea + 3 more2026-03-03💻 cs