cs.CV articles | Gist.Science

CCSD: Cross-Modal Compositional Self-Distillation for Robust Brain Tumor Segmentation with Missing Modalities

Ce papier propose un cadre d'auto-distillation croisée et compositionnelle (CCSD) doté d'une architecture encodeur-décodeur partagée-spécifique et de mécanismes de distillation hiérarchique et progressive, permettant d'atteindre des performances de pointe pour la segmentation robuste des tumeurs cérébrales même en présence de modalités IRM manquantes.

Dongqing Xie, Yonghuang Wu, Zisheng Ai + 4 more2026-03-06💻 cs

Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach

Ce papier présente FlashCache, une méthode de compression de cache KV multimodal guidée par le domaine fréquentiel qui identifie et préserve les paires KV aberrantes essentielles, permettant ainsi d'accélérer le décodage et de réduire la consommation mémoire tout en maintenant les performances des modèles.

Yaoxin Yang, Peng Ye, Xudong Tan + 4 more2026-03-06💻 cs

MambaTAD: When State-Space Models Meet Long-Range Temporal Action Detection

Ce papier présente MambaTAD, un modèle de détection d'actions temporelles en un seul passage qui surmonte les limites des modèles d'espace d'état structurés grâce à un module DMBSS et une tête de fusion globale, permettant ainsi une détection précise et efficace des actions à longue portée sur plusieurs benchmarks publics.

Hui Lu, Yi Yu, Shijian Lu + 4 more2026-03-06💻 cs

Observer-Actor: Active Vision Imitation Learning with Sparse-View Gaussian Splatting

Le papier présente ObAct, un cadre novateur d'apprentissage par imitation avec vision active où un bras robotique mobile construit une représentation 3DGS pour identifier et se déplacer vers la meilleure vue, permettant ainsi à l'autre bras d'exécuter des politiques plus robustes et moins sujettes aux occlusions.

Yilong Wang, Cheng Qian, Ruomeng Fan + 1 more2026-03-06💻 cs

STAvatar: Soft Binding and Temporal Density Control for Monocular 3D Head Avatars Reconstruction

STAvatar propose une méthode de reconstruction d'avatars 3D faciaux animables à partir de vidéos monoculaires qui surpasse l'état de l'art grâce à un cadre de liaison souple adaptatif aux UV et à une stratégie de contrôle de densité temporelle, permettant ainsi de capturer des détails fins et de reconstruire efficacement des régions fréquemment occluses.

Jiankuo Zhao, Xiangyu Zhu, Zidu Wang + 1 more2026-03-06💻 cs

RadarVLM: A Vision-Language Model Approach for Radar Scene Understanding

Le papier présente RadarVLM, un modèle vision-langage unifié entraîné sur un vaste jeu de données simulées qui utilise une supervision spatiale structurée et un objectif SG-CLIP pour améliorer la compréhension des scènes radar et la précision de la localisation des véhicules, surpassant ainsi les approches traditionnelles.

Pushkal Mishra, Kshitiz Bansal, Dinesh Bharadia2026-03-06💻 cs

PowerCLIP: Powerset Alignment for Contrastive Pre-Training

PowerCLIP est un nouveau cadre de pré-entraînement contrastif qui améliore la compréhension compositionnelle en alignant les ensembles de régions d'images sur les phrases textuelles grâce à des agrégateurs non linéaires efficaces, surpassant ainsi les méthodes actuelles dans les tâches de classification et de recherche sans apprentissage préalable.

Masaki Kawamura, Nakamasa Inoue, Rintaro Yanagi + 2 more2026-03-06💻 cs

DPAC: Distribution-Preserving Adversarial Control for Diffusion Sampling

Ce papier propose DPAC, une méthode de guidage pour l'échantillonnage de diffusion qui projette les gradients adversariaux sur l'espace tangent défini par la géométrie du score génératif afin de minimiser la divergence KL dans l'espace des trajectoires et de préserver la qualité des échantillons tout en maintenant un taux de succès d'attaque élevé.

Han-Jin Lee, Han-Ju Lee, Jin-Seong Kim + 1 more2026-03-06💻 cs

Fairness-Aware Fine-Tuning of Vision-Language Models for Medical Glaucoma Diagnosis

Cette étude propose une méthode de fine-tuning équitable et économe en paramètres pour les modèles vision-langage appliqués au diagnostic du glaucome, utilisant une nouvelle fonction de perte différentiable et des techniques d'adaptation de bas rang pour réduire significativement les disparités diagnostiques entre groupes démographiques tout en maintenant une précision globale élevée.

Zijian Gu, Yuxi Liu, Zhenhao Zhang + 1 more2026-03-06💻 cs

UniComp: Rethinking Video Compression Through Informational Uniqueness

Le papier présente UniComp, un cadre de compression vidéo axé sur l'unicité informationnelle qui optimise la fidélité des représentations visuelles sous contraintes computationnelles en minimisant l'entropie conditionnelle via trois modules clés : fusion de groupes d'images, allocation de jetons et compression spatiale dynamique.

Chao Yuan, Shimin Chen, Minliang Lin + 3 more2026-03-06💻 cs

NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation

Le papier présente NeuralRemaster, une méthode de diffusion qui préserve la phase des signaux d'entrée tout en randomisant leur magnitude, permettant ainsi une génération alignée sur la structure sans coût d'inférence supplémentaire et en améliorant significativement le transfert sim-to-real pour les planificateurs de conduite.

Yu Zeng, Charles Ochoa, Mingyuan Zhou + 3 more2026-03-06💻 cs

Revolutionizing Mixed Precision Quantization: Towards Training-free Automatic Proxy Discovery via Large Language Models

Cet article propose TAP, un cadre novateur utilisant les grands modèles de langage et une stratégie d'optimisation préférentielle directe pour découvrir automatiquement et sans entraînement des proxies supérieurs afin d'optimiser la quantification de précision mixte des réseaux de neurones profonds.

Haidong Kang, Jun Du, Lihong Lin2026-03-06💻 cs

EgoCampus: Egocentric Pedestrian Eye Gaze Model and Dataset

Cet article présente EgoCampus, un nouveau jeu de données et un modèle (EgoCampusNet) pour prédire le regard des piétons en extérieur, collectés à l'aide de lunettes Project Aria sur un campus universitaire.

Ronan John, Aditya Kesari, Vincenzo DiMatteo + 1 more2026-03-06💻 cs

DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance

Ce papier présente DriverGaze360, un vaste jeu de données d'attention conducteur à 360° et la méthode DriverGaze360-Net qui, en intégrant une guidance par objets via une segmentation sémantique, permet une prédiction d'attention omnidirectionnelle performante pour les systèmes de conduite autonome.

Shreedhar Govil, Didier Stricker, Jason Rambach2026-03-06💻 cs

ViRC: Enhancing Visual Interleaved Mathematical CoT with Reason Chunking

Le papier présente ViRC, un cadre qui améliore le raisonnement mathématique multimodal en découplant le processus en unités critiques (CRUs) inspirées de la loi de Miller, soutenu par le jeu de données CRUX et une stratégie d'entraînement progressive, permettant au modèle ViRC-7B d'obtenir une amélioration moyenne de 18,8 % par rapport aux modèles de base.

Lihong Wang, Liangqi Li, Weiwei Feng + 6 more2026-03-06💻 cs

FluenceFormer: Transformer-Driven Multi-Beam Fluence Map Regression for Radiotherapy Planning

Le papier présente FluenceFormer, un cadre de régression fluence basé sur les transformateurs et guidé par la physique, qui améliore la planification radiothérapeutique automatisée en prédisant des cartes d'intensité de faisceau cohérentes et physiquement réalisables avec une erreur d'énergie réduite à 4,5 %.

Ujunwa Mgboh, Rafi Ibn Sultan, Joshua Kim + 2 more2026-03-06💻 cs

Parallel Diffusion Solver via Residual Dirichlet Policy Optimization

Cet article propose l'EPD-Solver, une méthode novatrice combinant un solveur d'EDP parallèle basé sur le théorème des accroissements finis et un affinage par apprentissage par renforcement efficace en paramètres, pour accélérer considérablement l'échantillonnage des modèles de diffusion tout en préservant la qualité de l'image.

Ruoyu Wang, Ziyu Li, Beier Zhu + 5 more2026-03-06💻 cs

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

Ce papier présente PhyGDPO, un cadre d'optimisation directe des préférences de groupe conscient de la physique, soutenu par un pipeline de construction de données augmentées (PhyAugPipe) et un jeu de données à grande échelle (PhyVidGen-135K), conçu pour générer des vidéos texte-à-vidéo qui respectent fidèlement les lois physiques.

Yuanhao Cai, Kunpeng Li, Menglin Jia + 11 more2026-03-06💻 cs

MorphAny3D: Unleashing the Power of Structured Latent in 3D Morphing

MorphAny3D est un cadre de morphing 3D sans entraînement qui exploite les représentations latentes structurées (SLAT) via des mécanismes d'attention innovants pour générer des séquences de déformation cohérentes et temporellement lisses, même entre des catégories d'objets différentes.

Xiaokun Sun, Zeyu Cai, Hao Tang + 3 more2026-03-06💻 cs

EmboTeam: Grounding LLM Reasoning into Reactive Behavior Trees via PDDL for Embodied Multi-Robot Collaboration

Le papier présente EmboTeam, un cadre de planification pour des équipes de robots hétérogènes qui combine les capacités de raisonnement des grands modèles de langage avec la rigueur des planificateurs classiques et des arbres de comportement pour exécuter des tâches complexes, validé par une amélioration significative des taux de réussite sur le nouveau benchmark MACE-THOR.

Haishan Zeng, Mengna Wang, Peng Li2026-03-06💻 cs

← Précédent Suivant →