UETrack: A Unified and Efficient Framework for Single Object Tracking

UETrack est un cadre de suivi d'objet unique unifié et efficace capable de traiter plusieurs modalités (RGB, profondeur, thermique, événementiel et langage) grâce à un mécanisme de mélange d'experts basé sur le regroupement de tokens et une stratégie de distillation adaptative, offrant ainsi un compromis optimal entre vitesse et précision sur diverses plateformes matérielles.

Ben Kang, Jie Zhao, Xin Chen + 5 more2026-03-04💻 cs

FACE: A Face-based Autoregressive Representation for High-Fidelity and Efficient Mesh Generation

Le papier présente FACE, un cadre d'autoencodeur autorégressif novateur qui génère des maillages 3D de haute fidélité et à faible coût en traitant chaque face triangulaire comme un token unique, réduisant ainsi drastiquement la longueur des séquences tout en surpassant l'état de l'art en matière de reconstruction et de génération à partir d'une seule image.

Hanxiao Wang, Yuan-Chen Guo, Ying-Tian Liu + 6 more2026-03-04💻 cs

PromptStereo: Zero-Shot Stereo Matching via Structure and Motion Prompts

Le papier présente PromptStereo, une méthode de stéréo matching zero-shot qui améliore la généralisation en intégrant des indices de structure monoculaire et de mouvement stéréo dans un module de raffinement itératif (PRU) basé sur les décodeurs de modèles de profondeur monoculaire, surpassant ainsi les méthodes existantes tout en maintenant une vitesse d'inférence compétitive.

Xianqi Wang, Hao Yang, Hangtian Wang + 4 more2026-03-04💻 cs

OnlineX: Unified Online 3D Reconstruction and Understanding with Active-to-Stable State Evolution

Ce papier présente OnlineX, un cadre feed-forward qui résout le problème de la dérive dans la reconstruction 3D en ligne en introduisant une évolution d'état découplée « actif-vers-stable » pour fusionner efficacement la géométrie locale à haute fréquence avec la structure globale à long terme, tout en reconstruisant simultanément l'apparence visuelle et les champs sémantiques.

Chong Xia, Fangfu Liu, Yule Wang + 2 more2026-03-04💻 cs

HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

Le papier présente HiFi-Inpaint, un cadre novateur d'inpainting basé sur une référence qui, grâce à une nouvelle attention d'amélioration partagée, une perte consciente des détails et un jeu de données HP-Image-40K, permet de générer des images humain-produit haute fidélité avec une préservation exceptionnelle des détails.

Yichen Liu, Donghao Zhou, Jie Wang + 9 more2026-03-04💻 cs

From Visual to Multimodal: Systematic Ablation of Encoders and Fusion Strategies in Animal Identification

Cette étude propose un cadre de vérification multimodal pour l'identification animale qui, grâce à un corpus massif de 1,9 million d'images et à l'intégration de descriptions textuelles synthétiques via un mécanisme de fusion adaptatif, améliore significativement la précision de réidentification des animaux par rapport aux méthodes unimodales.

Vasiliy Kudryavtsev, Kirill Borodin, German Berezin + 3 more2026-03-04💻 cs

Beyond Prompt Degradation: Prototype-guided Dual-pool Prompting for Incremental Object Detection

Ce papier propose PDP, un cadre novateur pour la détection d'objets incrémentielle qui surpasse les méthodes existantes en utilisant un découplage de prompts à double pool pour séparer les connaissances générales et spécifiques, ainsi qu'un module de génération de pseudo-étiquettes prototypiques pour corriger la dérive des prompts et atteindre des performances de pointe sur les benchmarks MS-COCO et PASCAL VOC.

Yaoteng Zhang, Zhou Qing, Junyu Gao + 1 more2026-03-04🤖 cs.AI

HAMMER: Harnessing MLLM via Cross-Modal Integration for Intention-Driven 3D Affordance Grounding

Le papier présente HAMMER, un cadre innovant exploitant les grands modèles de langage multimodaux (MLLM) pour la localisation d'affordances 3D guidée par l'intention d'interaction, en agrégeant les indices contextuels visuels dans des embeddings de contact et en intégrant des mécanismes hiérarchiques pour affiner les représentations 3D sans dépendre de descriptions d'attributs explicites ou de segmenteurs 2D préexistants.

Lei Yao, Yong Chen, Yuejiao Su + 3 more2026-03-04💻 cs