cs.CV articles | Gist.Science

Leveraging Foundation Models for Content-Based Image Retrieval in Radiology

Cette étude démontre que les modèles de fondation visuels, en particulier BiomedCLIP, peuvent servir d'extracteurs de caractéristiques polyvalents et performants pour la recherche d'images médicales par le contenu en radiologie, surpassant les systèmes spécialisés sans nécessiter d'entraînement supplémentaire sur un vaste ensemble de données de 1,6 million d'images.

Stefan Denner, David Zimmerer, Dimitrios Bounias + 8 more2026-03-04💻 cs

Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes

Cet article présente Implicit-Zoo, un jeu de données à grande échelle de fonctions implicites neuronales pour images 2D et scènes 3D, conçu pour surmonter les limitations de ressources et de données, et qui démontre des améliorations significatives dans des tâches telles que la classification d'images, la segmentation sémantique et la régression de pose 3D.

Qi Ma, Danda Pani Paudel, Ender Konukoglu + 1 more2026-03-04💻 cs

WAFFLE: Finetuning Multi-Modal Models for Automated Front-End Development

L'article présente Waffle, une nouvelle stratégie d'affinement de modèles multimodaux qui améliore la génération de code HTML à partir de designs d'interface utilisateur en utilisant un mécanisme d'attention conscient de la structure et un apprentissage contrastif, surpassant ainsi les méthodes actuelles sur les benchmarks WebSight-Test et Design2Code.

Shanchao Liang, Nan Jiang, Shangshu Qian + 1 more2026-03-04💬 cs.CL

RealOSR: Latent Guidance Boosts Diffusion-based Real-world Omnidirectional Image Super-Resolutions

Le papier présente RealOSR, un cadre de super-résolution d'images omnidirectionnelles basé sur la diffusion qui utilise un module de guidage latent appelé LaGAR pour surmonter les limitations des dégradations réelles et offrir une accélération d'inférence de plus de 200 fois par rapport aux méthodes existantes.

Xuhan Sheng, Runyi Li, Bin Chen + 3 more2026-03-04⚡ eess

Slot-BERT: Self-supervised Object Discovery in Surgical Video

Le papier présente Slot-BERT, un modèle bidirectionnel auto-supervisé conçu pour découvrir des objets dans les vidéos chirurgicales longues en assurant une cohérence temporelle robuste et une désentanglement efficace des représentations, surpassant ainsi les méthodes existantes tout en permettant une adaptation zéro-shot à divers domaines chirurgicaux.

Guiqiu Liao, Matjaz Jogan, Marcel Hussing + 5 more2026-03-04⚡ eess

Weight Space Representation Learning on Diverse NeRF Architectures

Cet article présente le premier cadre capable d'apprendre des représentations agnostiques de l'architecture pour des NeRFs diversifiés, y compris ceux non vus lors de l'entraînement, en utilisant un réseau méta-graphe et un objectif contrastif pour surpasser les méthodes existantes limitées à des architectures uniques.

Francesco Ballerini, Pierluigi Zama Ramirez, Luigi Di Stefano + 1 more2026-03-04💻 cs

Cycle-Consistent Multi-Graph Matching for Self-Supervised Annotation of C.Elegans

Cet article présente une méthode d'apprentissage non supervisé basée sur la cohérence cyclique et l'optimisation bayésienne pour la correspondance de graphes multiples, permettant d'atteindre la précision des approches supervisées dans l'annotation sémantique des cellules de *C. elegans* et de construire le premier atlas cellulaire non supervisé de cet organisme.

Christoph Karg, Sebastian Stricker, Lisa Hutschenreiter + 2 more2026-03-04💻 cs

GAN-Based Single-Stage Defense for Traffic Sign Classification Under Adversarial Patch

Cette étude propose une stratégie de défense unique et efficace basée sur les réseaux antagonistes génératifs (GAN) pour protéger la classification des panneaux de signalisation contre les attaques par patch adverses, améliorant ainsi considérablement la précision et la sécurité des systèmes de conduite autonome en temps réel.

Abyad Enan, Mashrur Chowdhury2026-03-04💻 cs

Language-guided Open-world Video Anomaly Detection under Weak Supervision

Ce papier présente LaGoVAD, un nouveau détecteur d'anomalies vidéo en monde ouvert guidé par le langage naturel qui s'adapte dynamiquement aux définitions variables des anomalies sous supervision faible, en s'appuyant sur un nouveau jeu de données pré-entraîné nommé PreVAD pour atteindre des performances de pointe.

Zihao Liu, Xiaoyu Wu, Jianqin Wu + 2 more2026-03-04💻 cs

Scale-wise Distillation of Diffusion Models

Ce papier présente SwD, un cadre de distillation de modèles de diffusion qui améliore l'efficacité de l'échantillonnage grâce à une génération progressive et un objectif de distillation basé sur la divergence MMD, permettant d'atteindre des vitesses d'échantillonnage équivalentes à deux étapes complètes tout en surpassant les méthodes existantes.

Nikita Starodubcev, Ilya Drobyshevskiy, Denis Kuznedelev + 2 more2026-03-04💻 cs

Differentially Private 2D Human Pose Estimation

Cet article présente le premier cadre complet pour l'estimation de pose humaine 2D différentiellement privée, combinant des méthodes de projection de gradients et de privatisation des caractéristiques pour atteindre un équilibre optimal entre confidentialité et précision sur le jeu de données MPII.

Kaushik Bhargav Sivangi, Paul Henderson, Fani Deligianni2026-03-04💻 cs

Model Already Knows the Best Noise: Bayesian Active Noise Selection via Attention in Video Diffusion Model

Ce papier présente ANSE, un cadre d'inférence qui sélectionne automatiquement les meilleurs bruits initiaux pour la génération de vidéos en quantifiant l'incertitude via l'attention du modèle, améliorant ainsi la qualité et la cohérence temporelle sans coût computationnel significatif.

Kwanyoung Kim, Sanghyun Kim2026-03-04🤖 cs.AI

SABER: Spatially Consistent 3D Universal Adversarial Objects for BEV Detectors

Ce papier présente SABER, un cadre innovant générant des objets adversariaux 3D universels et spatialement cohérents placés dans l'environnement pour évaluer et exploiter les vulnérabilités des détecteurs d'objets 3D en vue aérienne (BEV) sans modifier les véhicules cibles.

Aixuan Li, Mochu Xiang, Bosen Hou + 3 more2026-03-04💻 cs

Interaction Field Matching: Overcoming Limitations of Electrostatic Models

Cet article propose l'Interaction Field Matching (IFM), une généralisation du champ électrostatique qui surmonte ses limitations en utilisant un champ d'interaction inspiré des interactions fortes entre quarks pour améliorer la génération et le transfert de données.

Stepan I. Manukhov, Alexander Kolesov, Vladimir V. Palyulin + 1 more2026-03-04🤖 cs.AI

HSSBench: Benchmarking Humanities and Social Sciences Ability for Multimodal Large Language Models

Cet article présente HSSBench, un benchmark multilingue de plus de 13 000 échantillons conçu pour évaluer et stimuler les capacités de raisonnement interdisciplinaire des modèles de langage multimodaux dans le domaine des sciences humaines et sociales, comblant ainsi une lacune majeure des évaluations actuelles axées sur les STEM.

Zhaolu Kang, Junhao Gong, Jiaxu Yan + 15 more2026-03-04🤖 cs.AI

Frame Guidance: Training-Free Guidance for Frame-Level Control in Video Diffusion Models

Ce papier présente Frame Guidance, une méthode d'entraînement gratuit qui permet un contrôle précis au niveau des images dans la génération de vidéos par diffusion en utilisant des signaux tels que des images clés ou des croquis, tout en optimisant l'utilisation de la mémoire et en assurant une cohérence globale sans nécessiter de fine-tuning.

Sangwon Jang, Taekyung Ki, Jaehyeong Jo + 4 more2026-03-04🤖 cs.AI

Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward

Le papier présente Perception-R1, une méthode qui améliore les capacités de raisonnement multimodal des grands modèles de langage en introduisant une récompense de perception visuelle basée sur la cohérence avec des annotations textuelles, comblant ainsi une lacune des approches RLVR existantes.

Tong Xiao, Xin Xu, Zhenya Huang + 4 more2026-03-04🤖 cs.AI

StreamSplat: Towards Online Dynamic 3D Reconstruction from Uncalibrated Video Streams

Le papier présente StreamSplat, un cadre entièrement feed-forward capable de reconstruire instantanément des scènes 3D dynamiques à partir de flux vidéo non calibrés en temps réel grâce à trois innovations techniques clés, offrant ainsi une accélération de 1200 fois par rapport aux méthodes d'optimisation traditionnelles.

Zike Wu, Qi Yan, Xuanyu Yi + 2 more2026-03-04🤖 cs.LG

Evolutionary Caching to Accelerate Your Off-the-Shelf Diffusion Model

Ce papier présente ECAD, une méthode basée sur un algorithme génétique qui optimise dynamiquement les stratégies de cache pour accélérer l'inférence des modèles de diffusion sans modifier leurs paramètres, tout en garantissant une généralisation efficace à différentes architectures et résolutions.

Anirud Aggarwal, Abhinav Shrivastava, Matthew Gwilliam2026-03-04💻 cs

Synthetic Perception: Can Generated Images Unlock Latent Visual Prior for Text-Centric Reasoning?

Cette étude démontre que l'utilisation d'images générées par des modèles texte-vers-image permet de débloquer des priors visuels latents pour améliorer le raisonnement centré sur le texte, à condition que l'alignement sémantique et la fidélité de génération soient optimaux.

Yuesheng Huang, Peng Zhang, Xiaoxin Wu + 2 more2026-03-04💻 cs

← Précédent Suivant →