Average Calibration Losses for Reliable Uncertainty in Medical Image Segmentation

Cette étude propose une nouvelle fonction de perte différentiable basée sur l'erreur d'étalonnage moyenne (mL1-ACE) pour améliorer la fiabilité des réseaux de neurones en segmentation d'images médicales, permettant aux praticiens de mieux contrôler le compromis entre la précision de la segmentation et la fiabilité des incertitudes prédites.

Theodore Barfoot, Luis C. Garcia-Peraza-Herrera, Samet Akcay, Ben Glocker, Tom Vercauteren2026-03-12💻 cs

Shiksha Copilot: Teacher-AI Collaboration for Curating and Customizing Lesson Plans in Low-Resource Schools

Cette étude présente Shiksha Copilot, un outil d'IA déployé dans les écoles gouvernementales du Karnataka, qui, en facilitant la co-création et la personnalisation de plans de leçons bilingues pour plus de 1 000 enseignants, réduit leur charge administrative et le stress tout en favorisant une transition vers des pédagogies actives, bien que des contraintes systémiques limitent l'ampleur du changement pédagogique.

Deepak Varuvel Dennison, Bakhtawar Ahtisham, Kavyansh Chourasia, Nirmit Arora, Rahul Singh, Rene F. Kizilcec, Akshay Nambi, Tanuja Ganu, Aditya Vashistha2026-03-12💻 cs

Recommender systems, representativeness, and online music: a psychosocial analysis of Italian listeners

Cette étude psychosociale menée auprès d'auditeurs italiens révèle que, bien qu'ils routinisent leur usage des plateformes musicales, ils manquent de compréhension critique des algorithmes et ont une conscience limitée des biais de genre, soulignant ainsi la nécessité d'intégrer des perspectives psychosociales dans la conception de systèmes de recommandation musicaux plus fiables et culturellement sensibles.

Lorenzo Porcaro, Chiara Monaldi2026-03-12💻 cs

Content-Aware Mamba for Learned Image Compression

Cet article présente le CMIC, un modèle de compression d'images appris basé sur le Mamba adaptatif au contenu (CAM), qui surpasse les performances de l'état de l'art (VTM-21.0) en surmontant les limitations des scans rigides grâce à une permutation dynamique des tokens et à l'injection de priors globaux spécifiques à l'échantillon.

Yunuo Chen, Zezheng Lyu, Bing He, Hongwei Hu, Qi Wang, Yuan Tian, Li Song, Wenjun Zhang, Guo Lu2026-03-12💻 cs

Speech-to-LaTeX: New Models and Datasets for Converting Spoken Equations and Sentences

Cet article présente le premier jeu de données open-source à grande échelle et des modèles novateurs pour la conversion de la parole en LaTeX, couvrant des équations et des phrases mathématiques en anglais et en russe, et établissant de nouveaux benchmarks qui surpassent significativement les méthodes existantes.

Dmitrii Korzh, Dmitrii Tarasov, Artyom Iudin, Elvir Karimov, Matvey Skripkin, Nikita Kuzmin, Andrey Kuznetsov, Oleg Y. Rogov, Ivan Oseledets2026-03-12💻 cs

From Law to Gherkin: A Human-Centred Quasi-Experiment on the Quality of LLM-Generated Behavioural Specifications from Food-Safety Regulations

Cette étude quasi-expérimentale démontre que les modèles de langage peuvent générer avec une grande pertinence des spécifications comportementales Gherkin à partir de réglementations sur la sécurité alimentaire, tout en soulignant la nécessité d'une supervision humaine pour corriger les omissions et les hallucinations.

Shabnam Hassani, Mehrdad Sabetzadeh, Daniel Amyot2026-03-12💻 cs

Pixel Motion Diffusion is What We Need for Robot Control

Le papier présente DAWN, un cadre unifié de diffusion pour le contrôle robotique qui relie l'intention de mouvement de haut niveau aux actions de bas niveau via une représentation structurée du mouvement des pixels, atteignant des performances de pointe sur les benchmarks CALVIN et MetaWorld tout en démontrant une transférabilité fiable vers le monde réel avec un réglage fin minimal.

E-Ro Nguyen, Yichi Zhang, Kanchana Ranasinghe, Xiang Li, Michael S. Ryoo2026-03-12💻 cs

Efficient Audio-Visual Speech Separation with Discrete Lip Semantics and Multi-Scale Global-Local Attention

Le papier présente Dolphin, une méthode efficace de séparation de la parole audio-visuelle qui utilise un encodeur vidéo léger pour transformer les mouvements des lèvres en tokens sémantiques discrets et un séparateur avec une attention globale-locale multi-échelle, surpassant les modèles actuels en qualité de séparation tout en réduisant considérablement les paramètres et le temps d'inférence.

Kai Li, Kejun Gao, Xiaolin Hu2026-03-12💻 cs

PD-Diag-Net: Clinical-Priors guided Network on Brain MRI for Auxiliary Diagnosis of Parkinson's Disease

Le papier propose PD-Diag-Net, un réseau de neurones guidé par des connaissances cliniques qui intègre des prérequis sur les régions cérébrales et le vieillissement pour diagnostiquer la maladie de Parkinson à partir d'IRM brutes, atteignant une précision de 86 % sur des données externes et surpassant les méthodes existantes de plus de 20 %.

Shuai Shao, Yan Wang, Shu Jiang, Shiyuan Zhao, Di Yang, Jiangtao Wang, Yutong Bai, Jianguo Zhang2026-03-12💻 cs

Seeing Space and Motion: Enhancing Latent Actions with Geometric and Dynamic Awareness for Vision-Language-Action Models

Ce papier présente Farsighted-LAM et SSM-VLA, des cadres d'apprentissage qui améliorent la robustesse et l'interprétabilité des modèles Vision-Language-Action en intégrant une encodage spatial géométrique, une modélisation temporelle multi-échelle et un raisonnement explicite sur la dynamique de l'environnement.

Zhejia Cai, Yandan Yang, Xinyuan Chang, Shiyi Liang, Ronghan Chen, Feng Xiong, Mu Xu, Ruqi Huang2026-03-12💻 cs

Adaptive Event Stream Slicing for Open-Vocabulary Event-Based Object Detection via Vision-Language Knowledge Distillation

Cet article propose un cadre de distillation de connaissances vision-langage qui combine un réseau de neurones à impulsions adaptatif pour le découpage optimal des flux d'événements et un modèle étudiant basé sur CNN, permettant ainsi la détection d'objets à vocabulaire ouvert sur des données d'événements en exploitant la compréhension sémantique de CLIP via des images.

Jinchang Zhang, Zijun Li, Jiakai Lin, Guoyu Lu2026-03-12💻 cs

Equivariant Splitting: Self-supervised learning from incomplete data

Ce papier propose une nouvelle stratégie d'apprentissage auto-supervisé pour les problèmes inverses à partir de données incomplètes, qui combine une nouvelle définition d'équivariance et des pertes de séparation pour obtenir des estimations non biaisées et atteindre des performances de pointe dans des modèles fortement sous-déterminés.

Victor Sechaud, Jérémy Scanvic, Quentin Barthélemy, Patrice Abry, Julián Tachella2026-03-12💻 cs

Symskill: Symbol and Skill Co-Invention for Data-Efficient and Reactive Long-Horizon Manipulation

Le papier présente Symskill, un cadre unifié qui apprend conjointement des abstractions symboliques et des compétences à partir de démonstrations non étiquetées pour permettre à un robot d'exécuter et de composer des tâches de manipulation à long horizon de manière réactive et efficace en termes de données, tout en assurant une récupération en temps réel face aux échecs.

Yifei Simon Shao, Yuchen Zheng, Sunan Sun, Pratik Chaudhari, Vijay Kumar, Nadia Figueroa2026-03-12💻 cs