cs.CV articles | Gist.Science

Cycle-Consistent Multi-Graph Matching for Self-Supervised Annotation of C.Elegans

Cet article présente une méthode d'apprentissage non supervisé basée sur la cohérence cyclique et l'optimisation bayésienne pour la correspondance de graphes multiples, permettant d'atteindre la précision des approches supervisées dans l'annotation sémantique des cellules de *C. elegans* et de construire le premier atlas cellulaire non supervisé de cet organisme.

Christoph Karg, Sebastian Stricker, Lisa Hutschenreiter + 2 more2026-03-04💻 cs

GAN-Based Single-Stage Defense for Traffic Sign Classification Under Adversarial Patch

Cette étude propose une stratégie de défense unique et efficace basée sur les réseaux antagonistes génératifs (GAN) pour protéger la classification des panneaux de signalisation contre les attaques par patch adverses, améliorant ainsi considérablement la précision et la sécurité des systèmes de conduite autonome en temps réel.

Abyad Enan, Mashrur Chowdhury2026-03-04💻 cs

Language-guided Open-world Video Anomaly Detection under Weak Supervision

Ce papier présente LaGoVAD, un nouveau détecteur d'anomalies vidéo en monde ouvert guidé par le langage naturel qui s'adapte dynamiquement aux définitions variables des anomalies sous supervision faible, en s'appuyant sur un nouveau jeu de données pré-entraîné nommé PreVAD pour atteindre des performances de pointe.

Zihao Liu, Xiaoyu Wu, Jianqin Wu + 2 more2026-03-04💻 cs

Scale-wise Distillation of Diffusion Models

Ce papier présente SwD, un cadre de distillation de modèles de diffusion qui améliore l'efficacité de l'échantillonnage grâce à une génération progressive et un objectif de distillation basé sur la divergence MMD, permettant d'atteindre des vitesses d'échantillonnage équivalentes à deux étapes complètes tout en surpassant les méthodes existantes.

Nikita Starodubcev, Ilya Drobyshevskiy, Denis Kuznedelev + 2 more2026-03-04💻 cs

Differentially Private 2D Human Pose Estimation

Cet article présente le premier cadre complet pour l'estimation de pose humaine 2D différentiellement privée, combinant des méthodes de projection de gradients et de privatisation des caractéristiques pour atteindre un équilibre optimal entre confidentialité et précision sur le jeu de données MPII.

Kaushik Bhargav Sivangi, Paul Henderson, Fani Deligianni2026-03-04💻 cs

Model Already Knows the Best Noise: Bayesian Active Noise Selection via Attention in Video Diffusion Model

Ce papier présente ANSE, un cadre d'inférence qui sélectionne automatiquement les meilleurs bruits initiaux pour la génération de vidéos en quantifiant l'incertitude via l'attention du modèle, améliorant ainsi la qualité et la cohérence temporelle sans coût computationnel significatif.

Kwanyoung Kim, Sanghyun Kim2026-03-04🤖 cs.AI

SABER: Spatially Consistent 3D Universal Adversarial Objects for BEV Detectors

Ce papier présente SABER, un cadre innovant générant des objets adversariaux 3D universels et spatialement cohérents placés dans l'environnement pour évaluer et exploiter les vulnérabilités des détecteurs d'objets 3D en vue aérienne (BEV) sans modifier les véhicules cibles.

Aixuan Li, Mochu Xiang, Bosen Hou + 3 more2026-03-04💻 cs

Interaction Field Matching: Overcoming Limitations of Electrostatic Models

Cet article propose l'Interaction Field Matching (IFM), une généralisation du champ électrostatique qui surmonte ses limitations en utilisant un champ d'interaction inspiré des interactions fortes entre quarks pour améliorer la génération et le transfert de données.

Stepan I. Manukhov, Alexander Kolesov, Vladimir V. Palyulin + 1 more2026-03-04🤖 cs.AI

HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models

Cet article présente HSSBench, un benchmark multilingue de plus de 13 000 échantillons conçu pour évaluer et stimuler les capacités de raisonnement interdisciplinaire des modèles de langage multimodaux dans le domaine des sciences humaines et sociales, comblant ainsi une lacune majeure des évaluations actuelles axées sur les STEM.

Zhaolu Kang, Junhao Gong, Jiaxu Yan + 15 more2026-03-04🤖 cs.AI

Frame Guidance: Training-Free Guidance for Frame-Level Control in Video Diffusion Models

Ce papier présente Frame Guidance, une méthode d'entraînement gratuit qui permet un contrôle précis au niveau des images dans la génération de vidéos par diffusion en utilisant des signaux tels que des images clés ou des croquis, tout en optimisant l'utilisation de la mémoire et en assurant une cohérence globale sans nécessiter de fine-tuning.

Sangwon Jang, Taekyung Ki, Jaehyeong Jo + 4 more2026-03-04🤖 cs.AI

Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward

Le papier présente Perception-R1, une méthode qui améliore les capacités de raisonnement multimodal des grands modèles de langage en introduisant une récompense de perception visuelle basée sur la cohérence avec des annotations textuelles, comblant ainsi une lacune des approches RLVR existantes.

Tong Xiao, Xin Xu, Zhenya Huang + 4 more2026-03-04🤖 cs.AI

StreamSplat: Towards Online Dynamic 3D Reconstruction from Uncalibrated Video Streams

Le papier présente StreamSplat, un cadre entièrement feed-forward capable de reconstruire instantanément des scènes 3D dynamiques à partir de flux vidéo non calibrés en temps réel grâce à trois innovations techniques clés, offrant ainsi une accélération de 1200 fois par rapport aux méthodes d'optimisation traditionnelles.

Zike Wu, Qi Yan, Xuanyu Yi + 2 more2026-03-04🤖 cs.LG

Evolutionary Caching to Accelerate Your Off-the-Shelf Diffusion Model

Ce papier présente ECAD, une méthode basée sur un algorithme génétique qui optimise dynamiquement les stratégies de cache pour accélérer l'inférence des modèles de diffusion sans modifier leurs paramètres, tout en garantissant une généralisation efficace à différentes architectures et résolutions.

Anirud Aggarwal, Abhinav Shrivastava, Matthew Gwilliam2026-03-04💻 cs

Synthetic Perception: Can Generated Images Unlock Latent Visual Prior for Text-Centric Reasoning?

Cette étude démontre que l'utilisation d'images générées par des modèles texte-vers-image permet de débloquer des priors visuels latents pour améliorer le raisonnement centré sur le texte, à condition que l'alignement sémantique et la fidélité de génération soient optimaux.

Yuesheng Huang, Peng Zhang, Xiaoxin Wu + 2 more2026-03-04💻 cs

SceneStreamer: Continuous Scenario Generation as Next Token Group Prediction

Le papier présente SceneStreamer, un cadre unifié de génération autoregressive qui modélise les scénarios de trafic continus comme une séquence de tokens pour permettre une simulation dynamique et à long horizon, essentielle pour entraîner et évaluer des systèmes de conduite autonome plus robustes.

Zhenghao Peng, Yuxin Liu, Bolei Zhou2026-03-04💻 cs

Navigating with Annealing Guidance Scale in Diffusion Space

Cet article propose un nouveau planificateur de guidance par recuit qui ajuste dynamiquement l'échelle de guidance dans les modèles de diffusion pour améliorer la qualité des images et leur alignement avec le texte, sans coût supplémentaire en mémoire ni en activations.

Shai Yehezkel, Omer Dahary, Andrey Voynov + 1 more2026-03-04🤖 cs.AI

MC-INR: Efficient Encoding of Multivariate Scientific Simulation Data using Meta-Learning and Clustered Implicit Neural Representations

Cet article présente MC-INR, un cadre novateur basé sur l'apprentissage par méta-entraînement et le regroupement dynamique pour encoder efficacement des données de simulation scientifique multivariées sur des grilles non structurées, surmontant ainsi les limitations des représentations neuronales implicites existantes.

Hyunsoo Son, Jeonghyun Noh, Suemin Jeon + 2 more2026-03-04🤖 cs.LG

CoBELa: Steering Transparent Generation via Concept Bottlenecks on Energy Landscapes

Le papier présente CoBELa, un cadre basé sur l'énergie sans décodeur qui améliore la transparence de la génération en conditionnant entièrement la synthèse via des fonctions d'énergie par concept, permettant ainsi des interventions compositionnelles fiables et une interprétation post-hoc sans nécessiter de réentraînement du générateur.

Sangwon Kim, Kyoungoh Lee, Jeyoun Dong + 1 more2026-03-04🤖 cs.AI

InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation

Le papier présente InstructVLA, un modèle vision-langage-action qui, grâce à un nouveau paradigme d'ajustement par instructions (VLA-IT) et à une adaptation par mélange d'experts, préserve les capacités de raisonnement des grands modèles tout en atteignant des performances de manipulation de pointe et une forte généralisation sur des tâches complexes.

Shuai Yang, Hao Li, Bin Wang + 7 more2026-03-04💻 cs

DMTrack: Spatio-Temporal Multimodal Tracking via Dual-Adapter

Ce papier présente DMTrack, une nouvelle architecture d'adaptateurs duaux pour le suivi multimodal spatio-temporel qui, grâce à des modules d'adaptation modale innovants, atteint des performances de pointe avec seulement 0,93 million de paramètres entraînables.

Weihong Li, Shaohua Dong, Haonan Lu + 3 more2026-03-04🤖 cs.AI

← Précédent Suivant →