cs.CV articles | Gist.Science

Tether: Autonomous Functional Play with Correspondence-Driven Trajectory Warping

Le papier présente Tether, une méthode permettant à un robot d'apprendre de manière autonome par jeu fonctionnel en adaptant quelques démonstrations via des correspondances sémantiques et en s'appuyant sur des modèles vision-langage pour générer des milliers de trajectoires expertes qui surpassent les politiques apprises par imitation humaine.

William Liang, Sam Wang, Hung-Ju Wang + 3 more2026-03-04🤖 cs.AI

ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation

L'article présente ULTRA, un cadre unifié qui permet aux humanoïdes d'exécuter de manière autonome des tâches complexes de locomotion et de manipulation en combinant un réétiquetage de mouvements physiquement plausible et un contrôleur multimodal capable de générer des comportements coordonnés à partir de perceptions visuelles égo-centriques et de spécifications de tâches sans nécessiter de références de mouvement prédéfinies.

Xialin He, Sirui Xu, Xinyao Li + 4 more2026-03-04💻 cs

How to Peel with a Knife: Aligning Fine-Grained Manipulation with Human Preference

Cet article présente un cadre d'apprentissage en deux étapes pour la manipulation robotique fine, tel que l'épluchage au couteau, qui combine l'apprentissage par imitation et un affinage basé sur les préférences humaines pour atteindre des taux de réussite élevés et une forte généralisation avec peu de données.

Toru Lin, Shuying Deng, Zhao-Heng Yin + 2 more2026-03-04⚡ eess

MIBURI: Towards Expressive Interactive Gesture Synthesis

Le papier présente MIBURI, un cadre causal en temps réel pionnier qui génère des gestes corporels et des expressions faciales expressifs et synchronisés avec la parole pour des agents conversationnels incarnés, en surmontant les limitations de rigidité et de latence des solutions existantes grâce à l'utilisation de codecs de gestes et d'une génération autoregressive conditionnée par des embeddings de langage.

M. Hamza Mughal, Rishabh Dabral, Vera Demberg + 1 more2026-03-04💻 cs

Utonia: Toward One Encoder for All Point Clouds

Le papier présente Utonia, un encodeur auto-supervisé unifié capable d'apprendre une représentation cohérente à partir de nuages de points provenant de domaines diversifiés, améliorant ainsi les capacités de perception et les performances dans des tâches de raisonnement multimodal et robotique.

Yujia Zhang, Xiaoyang Wu, Yunhan Yang + 6 more2026-03-04💻 cs

Towards Accurate One-Stage Object Detection with AP-Loss

Cet article propose un cadre novateur pour la détection d'objets en une étape qui remplace la tâche de classification par une tâche de classement optimisée via une perte de précision moyenne (AP-loss) et un nouvel algorithme d'optimisation, permettant d'améliorer significativement les performances sans modifier l'architecture du réseau.

Kean Chen, Jianguo Li, Weiyao Lin + 6 more2026-03-03💻 cs

AP-Loss for Accurate One-Stage Object Detection

Ce papier propose un cadre novateur pour la détection d'objets en une seule étape qui remplace la tâche de classification par une tâche de classement optimisée via une fonction de perte de précision moyenne (AP-loss), résolvant ainsi le problème du déséquilibre extrême entre les classes et améliorant les performances de l'état de l'art grâce à un algorithme d'optimisation hybride inédit.

Kean Chen, Weiyao Lin, Jianguo Li + 3 more2026-03-03💻 cs

OmniTracker: Unifying Object Tracking by Tracking-with-Detection

Le papier présente OmniTracker, un modèle unifié qui fusionne le suivi et la détection pour résoudre efficacement toutes les tâches de suivi d'objets visuels avec une seule architecture, éliminant ainsi la redondance des paramètres tout en obtenant des performances compétitives sur sept jeux de données.

Junke Wang, Zuxuan Wu, Dongdong Chen + 4 more2026-03-03💻 cs

RFAConv: Receptive-Field Attention Convolution for Improving Convolutional Neural Networks

Ce papier propose la RFAConv, une nouvelle convolution intégrant un mécanisme d'attention sur le champ récepteur qui, tout en ajoutant une charge computationnelle négligeable, améliore significativement les performances des réseaux de neurones convolutifs en surmontant les limites des mécanismes d'attention spatiale actuels concernant le partage des paramètres.

Xin Zhang, Chen Liu, Degang Yang + 4 more2026-03-03💻 cs

Task-Driven Lens Design

Cet article propose une nouvelle approche de conception optique « Task-Driven Lens Design » qui, en optimisant uniquement les lentilles autour d'un modèle de vision par ordinateur pré-entraîné et figé, permet de créer des systèmes optiques plus stables et performants pour des tâches spécifiques que les lentilles classiques, sans nécessiter d'intervention humaine.

Xinge Yang, Qiang Fu, Yunfeng Nie + 1 more2026-03-03🔬 physics.optics

Topological Inductive Bias fosters Multiple Instance Learning in Data-Scarce Scenarios

Pour pallier la baisse de performance du apprentissage multi-ensembles (MIL) en cas de pénurie de données, les auteurs proposent la méthode TG-MIL qui intègre des biais inductifs topologiques afin de préserver la structure des distributions d'instances, améliorant ainsi significativement la précision et la généralisation des modèles sur des tâches comme la classification de maladies rares.

Salome Kazeminia, Carsten Marr, Bastian Rieck2026-03-03⚡ eess

Velocity Disambiguation for Video Frame Interpolation

Ce papier propose une méthode d'interpolation vidéo améliorée qui remplace l'indexation temporelle par une indexation de distance explicite et une estimation itérative pour résoudre les ambiguïtés de vitesse, réduisant ainsi le flou et permettant un contrôle temporel indépendant des objets.

Zhihang Zhong, Yiming Zhang, Wei Wang + 5 more2026-03-03💻 cs

Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning

Cet article propose un nouveau modèle de causalité partielle latente pour l'apprentissage multimodal, démontrant théoriquement et expérimentalement que les représentations apprises par l'apprentissage contrastif multimodal (MMCL) correspondent à des variables couplées identifiables, permettant ainsi un meilleur dénouement des représentations et une généralisation accrue.

Yuhang Liu, Zhen Zhang, Dong Gong + 6 more2026-03-03🤖 cs.LG

Towards Precision Cardiovascular Analysis in Zebrafish: The ZACAF Paradigm

Les auteurs proposent le cadre ZACAF, qui intègre l'apprentissage par transfert et l'augmentation de données pour surmonter les limites des méthodes supervisées et permettre une quantification précise et généralisable de la fonction cardiovasculaire chez le poisson-zèbre, y compris dans des modèles de cardiomyopathie.

Amir Mohammad Naderi, Jennifer G. Casey, Mao-Hsiang Huang + 5 more2026-03-03⚡ eess

FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization

Le papier propose FiLo, une nouvelle méthode de détection d'anomalies en zéro-shot qui améliore la précision et la localisation grâce à des descriptions fines générées par des modèles de langage et une localisation de haute qualité assistée par Grounding DINO, atteignant ainsi des performances de pointe sur les ensembles de données MVTec et VisA.

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 4 more2026-03-03🤖 cs.LG

Changing the Training Data Distribution to Reduce Simplicity Bias Improves In-distribution Generalization

Cet article propose la méthode USEFUL, qui atténue le biais de simplicité en rééchantillonnant sélectivement les données d'entraînement pour améliorer la généralisation in-distribution, atteignant ainsi des performances de pointe sur plusieurs jeux de données standards.

Dang Nguyen, Paymon Haddad, Eric Gan + 1 more2026-03-03🤖 cs.AI

Towards Camera Open-set 3D Object Detection for Autonomous Driving Scenarios

Ce papier présente OS-Det3D, un cadre d'apprentissage en deux étapes qui améliore la détection 3D à base de caméras pour la conduite autonome en permettant la découverte et l'identification d'objets inconnus grâce à une combinaison de propositions géométriques LiDAR et d'un module de sélection conjointe.

Zhuolin He, Xinrun Li, Jiacheng Tang + 4 more2026-03-03🤖 cs.AI

PO-GUISE+: Pose and object guided transformer token selection for efficient driver action recognition

Le papier présente PO-GUISE+, un transformateur vidéo multi-tâches optimisé pour la reconnaissance efficace des actions de conduite distrayante en sélectionnant les tokens grâce aux informations de pose et d'objets, réduisant ainsi les coûts computationnels tout en surpassant les méthodes actuelles sur plusieurs jeux de données et plateformes embarquées.

Ricardo Pizarro, Roberto Valle, Rafael Barea + 3 more2026-03-03💻 cs

MSSPlace: Multi-Sensor Place Recognition with Visual and Text Semantics

Ce papier présente MSSPlace, une méthode de reconnaissance de lieu multimodale qui fusionne tardivement des données visuelles, LiDAR, sémantiques et textuelles issues de multiples capteurs pour atteindre des performances de pointe sur les jeux de données Oxford RobotCar et NCLT.

Alexander Melekhin, Dmitry Yudin, Ilia Petryashin + 1 more2026-03-03💻 cs

A Dataset for Crucial Object Recognition in Blind and Low-Vision Individuals' Navigation

Cet article présente un nouveau jeu de données public comprenant des vidéos et une taxonomie de 90 objets essentiels, conçu pour améliorer la reconnaissance d'objets en temps réel et soutenir la navigation des personnes aveugles ou malvoyantes.

Md Touhidul Islam, Imran Kabir, Elena Ariel Pearce + 2 more2026-03-03💻 cs

← Précédent Suivant →