cs.CV articles | Gist.Science

PowerCLIP: Powerset Alignment for Contrastive Pre-Training

PowerCLIP est un nouveau cadre de pré-entraînement contrastif qui améliore la compréhension compositionnelle en alignant les ensembles de régions d'images sur les phrases textuelles grâce à des agrégateurs non linéaires efficaces, surpassant ainsi les méthodes actuelles dans les tâches de classification et de recherche sans apprentissage préalable.

Masaki Kawamura, Nakamasa Inoue, Rintaro Yanagi + 2 more2026-03-06💻 cs

DPAC: Distribution-Preserving Adversarial Control for Diffusion Sampling

Ce papier propose DPAC, une méthode de guidage pour l'échantillonnage de diffusion qui projette les gradients adversariaux sur l'espace tangent défini par la géométrie du score génératif afin de minimiser la divergence KL dans l'espace des trajectoires et de préserver la qualité des échantillons tout en maintenant un taux de succès d'attaque élevé.

Han-Jin Lee, Han-Ju Lee, Jin-Seong Kim + 1 more2026-03-06💻 cs

Fairness-Aware Fine-Tuning of Vision-Language Models for Medical Glaucoma Diagnosis

Cette étude propose une méthode de fine-tuning équitable et économe en paramètres pour les modèles vision-langage appliqués au diagnostic du glaucome, utilisant une nouvelle fonction de perte différentiable et des techniques d'adaptation de bas rang pour réduire significativement les disparités diagnostiques entre groupes démographiques tout en maintenant une précision globale élevée.

Zijian Gu, Yuxi Liu, Zhenhao Zhang + 1 more2026-03-06💻 cs

UniComp: Rethinking Video Compression Through Informational Uniqueness

Le papier présente UniComp, un cadre de compression vidéo axé sur l'unicité informationnelle qui optimise la fidélité des représentations visuelles sous contraintes computationnelles en minimisant l'entropie conditionnelle via trois modules clés : fusion de groupes d'images, allocation de jetons et compression spatiale dynamique.

Chao Yuan, Shimin Chen, Minliang Lin + 3 more2026-03-06💻 cs

NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation

Le papier présente NeuralRemaster, une méthode de diffusion qui préserve la phase des signaux d'entrée tout en randomisant leur magnitude, permettant ainsi une génération alignée sur la structure sans coût d'inférence supplémentaire et en améliorant significativement le transfert sim-to-real pour les planificateurs de conduite.

Yu Zeng, Charles Ochoa, Mingyuan Zhou + 3 more2026-03-06💻 cs

Revolutionizing Mixed Precision Quantization: Towards Training-free Automatic Proxy Discovery via Large Language Models

Cet article propose TAP, un cadre novateur utilisant les grands modèles de langage et une stratégie d'optimisation préférentielle directe pour découvrir automatiquement et sans entraînement des proxies supérieurs afin d'optimiser la quantification de précision mixte des réseaux de neurones profonds.

Haidong Kang, Jun Du, Lihong Lin2026-03-06💻 cs

EgoCampus: Egocentric Pedestrian Eye Gaze Model and Dataset

Cet article présente EgoCampus, un nouveau jeu de données et un modèle (EgoCampusNet) pour prédire le regard des piétons en extérieur, collectés à l'aide de lunettes Project Aria sur un campus universitaire.

Ronan John, Aditya Kesari, Vincenzo DiMatteo + 1 more2026-03-06💻 cs

DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance

Ce papier présente DriverGaze360, un vaste jeu de données d'attention conducteur à 360° et la méthode DriverGaze360-Net qui, en intégrant une guidance par objets via une segmentation sémantique, permet une prédiction d'attention omnidirectionnelle performante pour les systèmes de conduite autonome.

Shreedhar Govil, Didier Stricker, Jason Rambach2026-03-06💻 cs

ViRC: Enhancing Visual Interleaved Mathematical CoT with Reason Chunking

Le papier présente ViRC, un cadre qui améliore le raisonnement mathématique multimodal en découplant le processus en unités critiques (CRUs) inspirées de la loi de Miller, soutenu par le jeu de données CRUX et une stratégie d'entraînement progressive, permettant au modèle ViRC-7B d'obtenir une amélioration moyenne de 18,8 % par rapport aux modèles de base.

Lihong Wang, Liangqi Li, Weiwei Feng + 6 more2026-03-06💻 cs

FluenceFormer: Transformer-Driven Multi-Beam Fluence Map Regression for Radiotherapy Planning

Le papier présente FluenceFormer, un cadre de régression fluence basé sur les transformateurs et guidé par la physique, qui améliore la planification radiothérapeutique automatisée en prédisant des cartes d'intensité de faisceau cohérentes et physiquement réalisables avec une erreur d'énergie réduite à 4,5 %.

Ujunwa Mgboh, Rafi Ibn Sultan, Joshua Kim + 2 more2026-03-06💻 cs

Parallel Diffusion Solver via Residual Dirichlet Policy Optimization

Cet article propose l'EPD-Solver, une méthode novatrice combinant un solveur d'EDP parallèle basé sur le théorème des accroissements finis et un affinage par apprentissage par renforcement efficace en paramètres, pour accélérer considérablement l'échantillonnage des modèles de diffusion tout en préservant la qualité de l'image.

Ruoyu Wang, Ziyu Li, Beier Zhu + 5 more2026-03-06💻 cs

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

Ce papier présente PhyGDPO, un cadre d'optimisation directe des préférences de groupe conscient de la physique, soutenu par un pipeline de construction de données augmentées (PhyAugPipe) et un jeu de données à grande échelle (PhyVidGen-135K), conçu pour générer des vidéos texte-à-vidéo qui respectent fidèlement les lois physiques.

Yuanhao Cai, Kunpeng Li, Menglin Jia + 11 more2026-03-06💻 cs

MorphAny3D: Unleashing the Power of Structured Latent in 3D Morphing

MorphAny3D est un cadre de morphing 3D sans entraînement qui exploite les représentations latentes structurées (SLAT) via des mécanismes d'attention innovants pour générer des séquences de déformation cohérentes et temporellement lisses, même entre des catégories d'objets différentes.

Xiaokun Sun, Zeyu Cai, Hao Tang + 3 more2026-03-06💻 cs

EmboTeam: Grounding LLM Reasoning into Reactive Behavior Trees via PDDL for Embodied Multi-Robot Collaboration

Le papier présente EmboTeam, un cadre de planification pour des équipes de robots hétérogènes qui combine les capacités de raisonnement des grands modèles de langage avec la rigueur des planificateurs classiques et des arbres de comportement pour exécuter des tâches complexes, validé par une amélioration significative des taux de réussite sur le nouveau benchmark MACE-THOR.

Haishan Zeng, Mengna Wang, Peng Li2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

Cette étude révèle que les modèles fondationnels actuels peinent à identifier les moments clés dans des vidéos de football, car ils dépendent trop d'une seule modalité et échouent à synthétiser efficacement les informations croisées, soulignant ainsi le besoin d'architectures modulaires et de procédures d'entraînement complémentaires.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

Agentic Very Long Video Understanding

Ce travail présente EGAgent, un cadre agentique innovant basé sur des graphes de scènes d'entités qui permet une compréhension vidéo longitudinale avancée et un raisonnement multi-modal sur des flux vidéo continus de plusieurs jours, surpassant les méthodes existantes sur des tâches complexes d'assistance personnelle.

Aniket Rege, Arka Sadhu, Yuliang Li + 5 more2026-03-06💻 cs

MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations

Ce papier propose MiTA, une nouvelle méthode d'attention efficace qui unifie les approches existantes et améliore l'évolutivité des séquences longues en compressant les poids rapides via une stratégie de routage et de sélection des k meilleures activations.

Qishuai Wen, Zhiyuan Huang, Xianghan Meng + 2 more2026-03-06💻 cs

DDP-WM: Disentangled Dynamics Prediction for Efficient World Models

Le papier présente DDP-WM, un modèle du monde innovant basé sur la prédiction de dynamiques désenchevêtrées qui améliore considérablement l'efficacité et les performances des robots autonomes en décomposant l'évolution de l'état latent en dynamiques primaires et mises à jour contextuelles, permettant ainsi un déploiement en temps réel avec une accélération d'inférence jusqu'à 9 fois par rapport aux modèles denses existants.

Shicheng Yin, Kaixuan Yin, Weixing Chen + 3 more2026-03-06💻 cs

Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion

Le papier présente Rolling Sink, une méthode sans entraînement qui comble l'écart entre l'entraînement à horizon limité et le test à durée illimitée dans les modèles de diffusion vidéo autoregressifs, permettant ainsi de générer des vidéos ultra-longues (de 5 à 30 minutes) avec une fidélité visuelle et une cohérence temporelle supérieures.

Haodong Li, Shaoteng Liu, Zhe Lin + 1 more2026-03-06💻 cs

Learning to Select Like Humans: Explainable Active Learning for Medical Imaging

Cet article propose un cadre d'apprentissage actif guidé par l'explicabilité qui sélectionne stratégiquement des échantillons médicaux en combinant l'incertitude de classification et l'inadéquation des cartes d'attention par rapport aux régions d'intérêt définies par les experts, améliorant ainsi à la fois la performance prédictive et l'interprétabilité clinique avec moins de données annotées.

Ifrat Ikhtear Uddin, Longwei Wang, Xiao Qin + 2 more2026-03-06💻 cs

← Précédent Suivant →