Fairness-Aware Fine-Tuning of Vision-Language Models for Medical Glaucoma Diagnosis

Cette étude propose une méthode de fine-tuning équitable et économe en paramètres pour les modèles vision-langage appliqués au diagnostic du glaucome, utilisant une nouvelle fonction de perte différentiable et des techniques d'adaptation de bas rang pour réduire significativement les disparités diagnostiques entre groupes démographiques tout en maintenant une précision globale élevée.

Zijian Gu, Yuxi Liu, Zhenhao Zhang + 1 more2026-03-06💻 cs

ViRC: Enhancing Visual Interleaved Mathematical CoT with Reason Chunking

Le papier présente ViRC, un cadre qui améliore le raisonnement mathématique multimodal en découplant le processus en unités critiques (CRUs) inspirées de la loi de Miller, soutenu par le jeu de données CRUX et une stratégie d'entraînement progressive, permettant au modèle ViRC-7B d'obtenir une amélioration moyenne de 18,8 % par rapport aux modèles de base.

Lihong Wang, Liangqi Li, Weiwei Feng + 6 more2026-03-06💻 cs

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

Ce papier présente PhyGDPO, un cadre d'optimisation directe des préférences de groupe conscient de la physique, soutenu par un pipeline de construction de données augmentées (PhyAugPipe) et un jeu de données à grande échelle (PhyVidGen-135K), conçu pour générer des vidéos texte-à-vidéo qui respectent fidèlement les lois physiques.

Yuanhao Cai, Kunpeng Li, Menglin Jia + 11 more2026-03-06💻 cs

EmboTeam: Grounding LLM Reasoning into Reactive Behavior Trees via PDDL for Embodied Multi-Robot Collaboration

Le papier présente EmboTeam, un cadre de planification pour des équipes de robots hétérogènes qui combine les capacités de raisonnement des grands modèles de langage avec la rigueur des planificateurs classiques et des arbres de comportement pour exécuter des tâches complexes, validé par une amélioration significative des taux de réussite sur le nouveau benchmark MACE-THOR.

Haishan Zeng, Mengna Wang, Peng Li2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

Cette étude révèle que les modèles fondationnels actuels peinent à identifier les moments clés dans des vidéos de football, car ils dépendent trop d'une seule modalité et échouent à synthétiser efficacement les informations croisées, soulignant ainsi le besoin d'architectures modulaires et de procédures d'entraînement complémentaires.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

DDP-WM: Disentangled Dynamics Prediction for Efficient World Models

Le papier présente DDP-WM, un modèle du monde innovant basé sur la prédiction de dynamiques désenchevêtrées qui améliore considérablement l'efficacité et les performances des robots autonomes en décomposant l'évolution de l'état latent en dynamiques primaires et mises à jour contextuelles, permettant ainsi un déploiement en temps réel avec une accélération d'inférence jusqu'à 9 fois par rapport aux modèles denses existants.

Shicheng Yin, Kaixuan Yin, Weixing Chen + 3 more2026-03-06💻 cs

Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion

Le papier présente Rolling Sink, une méthode sans entraînement qui comble l'écart entre l'entraînement à horizon limité et le test à durée illimitée dans les modèles de diffusion vidéo autoregressifs, permettant ainsi de générer des vidéos ultra-longues (de 5 à 30 minutes) avec une fidélité visuelle et une cohérence temporelle supérieures.

Haodong Li, Shaoteng Liu, Zhe Lin + 1 more2026-03-06💻 cs

Learning to Select Like Humans: Explainable Active Learning for Medical Imaging

Cet article propose un cadre d'apprentissage actif guidé par l'explicabilité qui sélectionne stratégiquement des échantillons médicaux en combinant l'incertitude de classification et l'inadéquation des cartes d'attention par rapport aux régions d'intérêt définies par les experts, améliorant ainsi à la fois la performance prédictive et l'interprétabilité clinique avec moins de données annotées.

Ifrat Ikhtear Uddin, Longwei Wang, Xiao Qin + 2 more2026-03-06💻 cs