CCSD: Cross-Modal Compositional Self-Distillation for Robust Brain Tumor Segmentation with Missing Modalities

Ce papier propose un cadre d'auto-distillation croisée et compositionnelle (CCSD) doté d'une architecture encodeur-décodeur partagée-spécifique et de mécanismes de distillation hiérarchique et progressive, permettant d'atteindre des performances de pointe pour la segmentation robuste des tumeurs cérébrales même en présence de modalités IRM manquantes.

Dongqing Xie, Yonghuang Wu, Zisheng Ai + 4 more2026-03-06💻 cs

STAvatar: Soft Binding and Temporal Density Control for Monocular 3D Head Avatars Reconstruction

STAvatar propose une méthode de reconstruction d'avatars 3D faciaux animables à partir de vidéos monoculaires qui surpasse l'état de l'art grâce à un cadre de liaison souple adaptatif aux UV et à une stratégie de contrôle de densité temporelle, permettant ainsi de capturer des détails fins et de reconstruire efficacement des régions fréquemment occluses.

Jiankuo Zhao, Xiangyu Zhu, Zidu Wang + 1 more2026-03-06💻 cs

Fairness-Aware Fine-Tuning of Vision-Language Models for Medical Glaucoma Diagnosis

Cette étude propose une méthode de fine-tuning équitable et économe en paramètres pour les modèles vision-langage appliqués au diagnostic du glaucome, utilisant une nouvelle fonction de perte différentiable et des techniques d'adaptation de bas rang pour réduire significativement les disparités diagnostiques entre groupes démographiques tout en maintenant une précision globale élevée.

Zijian Gu, Yuxi Liu, Zhenhao Zhang + 1 more2026-03-06💻 cs

ViRC: Enhancing Visual Interleaved Mathematical CoT with Reason Chunking

Le papier présente ViRC, un cadre qui améliore le raisonnement mathématique multimodal en découplant le processus en unités critiques (CRUs) inspirées de la loi de Miller, soutenu par le jeu de données CRUX et une stratégie d'entraînement progressive, permettant au modèle ViRC-7B d'obtenir une amélioration moyenne de 18,8 % par rapport aux modèles de base.

Lihong Wang, Liangqi Li, Weiwei Feng + 6 more2026-03-06💻 cs

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

Ce papier présente PhyGDPO, un cadre d'optimisation directe des préférences de groupe conscient de la physique, soutenu par un pipeline de construction de données augmentées (PhyAugPipe) et un jeu de données à grande échelle (PhyVidGen-135K), conçu pour générer des vidéos texte-à-vidéo qui respectent fidèlement les lois physiques.

Yuanhao Cai, Kunpeng Li, Menglin Jia + 11 more2026-03-06💻 cs

EmboTeam: Grounding LLM Reasoning into Reactive Behavior Trees via PDDL for Embodied Multi-Robot Collaboration

Le papier présente EmboTeam, un cadre de planification pour des équipes de robots hétérogènes qui combine les capacités de raisonnement des grands modèles de langage avec la rigueur des planificateurs classiques et des arbres de comportement pour exécuter des tâches complexes, validé par une amélioration significative des taux de réussite sur le nouveau benchmark MACE-THOR.

Haishan Zeng, Mengna Wang, Peng Li2026-03-06💻 cs