Rethinking Two-Stage Referring-by-Tracking in Referring Multi-Object Tracking: Make it Strong Again

Cet article propose FlexHook, un nouveau cadre de suivi d'objets référé en deux étapes qui surpasse les méthodes actuelles de l'état de l'art en résolvant les limitations des constructions de caractéristiques heuristiques et de la modélisation fragile des correspondances grâce à une stratégie d'injection de repères conditionnés par le langage et à un décodeur de correspondance par paires.

Weize Li, Yunhao Du, Qixiang Yin, Zhicheng Zhao, Fei Su2026-03-12💻 cs

SEGA: Drivable 3D Gaussian Head Avatar from a Single Image

Le papier présente SEGA, une méthode innovante permettant de créer des avatars de tête 3D photoréalistes et animables en temps réel à partir d'une seule image, en combinant des priors généralisés et un nouveau framework de splatting gaussien hiérarchique dans l'espace UV pour garantir une cohérence 3D et une fidélité d'identité supérieures.

Chen Guo, Zhuo Su, Liao Wang, Jian Wang, Shuang Li, Xu Chang, Zhaohu Li, Yang Zhao, Guidong Wang, Yebin Liu, Ruqi Huang2026-03-12💻 cs

Average Calibration Losses for Reliable Uncertainty in Medical Image Segmentation

Cette étude propose une nouvelle fonction de perte différentiable basée sur l'erreur d'étalonnage moyenne (mL1-ACE) pour améliorer la fiabilité des réseaux de neurones en segmentation d'images médicales, permettant aux praticiens de mieux contrôler le compromis entre la précision de la segmentation et la fiabilité des incertitudes prédites.

Theodore Barfoot, Luis C. Garcia-Peraza-Herrera, Samet Akcay, Ben Glocker, Tom Vercauteren2026-03-12💻 cs

Shiksha Copilot: Teacher-AI Collaboration for Curating and Customizing Lesson Plans in Low-Resource Schools

Cette étude présente Shiksha Copilot, un outil d'IA déployé dans les écoles gouvernementales du Karnataka, qui, en facilitant la co-création et la personnalisation de plans de leçons bilingues pour plus de 1 000 enseignants, réduit leur charge administrative et le stress tout en favorisant une transition vers des pédagogies actives, bien que des contraintes systémiques limitent l'ampleur du changement pédagogique.

Deepak Varuvel Dennison, Bakhtawar Ahtisham, Kavyansh Chourasia, Nirmit Arora, Rahul Singh, Rene F. Kizilcec, Akshay Nambi, Tanuja Ganu, Aditya Vashistha2026-03-12💻 cs

Recommender systems, representativeness, and online music: a psychosocial analysis of Italian listeners

Cette étude psychosociale menée auprès d'auditeurs italiens révèle que, bien qu'ils routinisent leur usage des plateformes musicales, ils manquent de compréhension critique des algorithmes et ont une conscience limitée des biais de genre, soulignant ainsi la nécessité d'intégrer des perspectives psychosociales dans la conception de systèmes de recommandation musicaux plus fiables et culturellement sensibles.

Lorenzo Porcaro, Chiara Monaldi2026-03-12💻 cs

Content-Aware Mamba for Learned Image Compression

Cet article présente le CMIC, un modèle de compression d'images appris basé sur le Mamba adaptatif au contenu (CAM), qui surpasse les performances de l'état de l'art (VTM-21.0) en surmontant les limitations des scans rigides grâce à une permutation dynamique des tokens et à l'injection de priors globaux spécifiques à l'échantillon.

Yunuo Chen, Zezheng Lyu, Bing He, Hongwei Hu, Qi Wang, Yuan Tian, Li Song, Wenjun Zhang, Guo Lu2026-03-12💻 cs

Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences

Cet article présente le premier jeu de données open-source à grande échelle et des modèles novateurs pour la conversion de la parole en LaTeX, couvrant des équations et des phrases mathématiques en anglais et en russe, et établissant de nouveaux benchmarks qui surpassent significativement les méthodes existantes.

Dmitrii Korzh, Dmitrii Tarasov, Artyom Iudin, Elvir Karimov, Matvey Skripkin, Nikita Kuzmin, Andrey Kuznetsov, Oleg Y. Rogov, Ivan Oseledets2026-03-12💻 cs