cs.CV articles | Gist.Science

RANGER: Sparsely-Gated Mixture-of-Experts with Adaptive Retrieval Re-ranking for Pathology Report Generation

Le papier présente RANGER, un cadre innovant de génération de rapports de pathologie qui combine un mélange d'experts à portes clairsemées pour une spécialisation dynamique et un module de réordonnancement adaptatif pour affiner la récupération de connaissances, démontrant ainsi des performances supérieures sur le jeu de données PathText-BRCA.

Yixin Chen, Ziyu Su, Hikmat Khan + 1 more2026-03-05🤖 cs.AI

FocusGraph: Graph-Structured Frame Selection for Embodied Long Video Question Answering

Le papier présente FocusGraph, un cadre innovant pour la sélection de trames clés dans les vidéos longues en première personne, qui combine un sélecteur basé sur des légendes graphiques et une méthode d'inférence sans entraînement pour améliorer la précision des réponses tout en réduisant le temps de calcul.

Tatiana Zemskova, Solomon Andryushenko, Ilya Obrubov + 4 more2026-03-05💻 cs

Helios: Real Real-Time Long Video Generation Model

Le papier présente Helios, un modèle de génération vidéo autoregressif de 14 milliards de paramètres capable de produire des vidéos à l'échelle de la minute en temps réel sur une seule carte graphique H100, tout en éliminant le dérive temporelle et en réduisant considérablement les coûts computationnels grâce à des stratégies d'entraînement innovantes et des optimisations d'infrastructure.

Shenghai Yuan, Yuanyang Yin, Zongjian Li + 3 more2026-03-05💻 cs

TaxonRL: Reinforcement Learning with Intermediate Rewards for Interpretable Fine-Grained Visual Reasoning

Le papier présente TaxonRL, une approche d'apprentissage par renforcement utilisant des récompenses intermédiaires pour décomposer le raisonnement visuel en prédictions taxonomiques hiérarchiques, permettant ainsi d'atteindre une précision supérieure à celle des humains sur la tâche de discrimination fine d'espèces tout en garantissant l'interprétabilité des décisions.

Maximilian von Klinski, Maximilian Schall2026-03-05💬 cs.CL

ZipMap: Linear-Time Stateful 3D Reconstruction with Test-Time Training

Le papier présente ZipMap, un modèle feed-forward étatique qui réalise une reconstruction 3D bidirectionnelle en temps linéaire grâce à un entraînement au moment du test, surpassant ainsi l'efficacité des méthodes quadratiques actuelles tout en préservant, voire en améliorant, la qualité de reconstruction.

Haian Jin, Rundi Wu, Tianyuan Zhang + 4 more2026-03-05🤖 cs.AI

SimpliHuMoN: Simplifying Human Motion Prediction

Le papier présente SimpliHuMoN, un modèle transformer simple et efficace capable de prédire simultanément les trajectoires et les poses humaines avec des performances de pointe sur plusieurs benchmarks, sans nécessiter de modifications spécifiques à chaque tâche.

Aadya Agrawal, Alexander Schwing2026-03-05🤖 cs.LG

Thought Flow Nets: From Single Predictions to Trains of Model Thought

Cet article propose les « Thought Flow Nets », une méthode inspirée de la dialectique hégélienne permettant aux modèles d'affiner leurs réponses par des itérations d'auto-correction, ce qui améliore non seulement leurs performances mais aussi la perception et les résultats des utilisateurs humains.

Hendrik Schuff, Heike Adel, Ngoc Thang Vu2026-03-04🤖 cs.LG

VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering

Cet article présente VQA-MHUG, un nouveau jeu de données de regards humains sur les images et les questions, et démontre pour la première fois que la corrélation entre l'attention textuelle des modèles de VQA et celle des humains est un prédicteur significatif de leurs performances, soulignant ainsi le besoin d'améliorer les mécanismes d'attention textuelle dans les architectures multimodales.

Ekta Sood, Fabian Kögel, Florian Strohm + 2 more2026-03-04💬 cs.CL

Multimodal Integration of Human-Like Attention in Visual Question Answering

Ce papier présente MULAN, une méthode novatrice qui intègre l'attention humaine multimodale (image et texte) dans un modèle de réponse aux questions visuelles (VQA) basé sur les transformers, permettant d'atteindre des performances de pointe sur le jeu de données VQAv2 avec environ 80 % de paramètres en moins que les travaux antérieurs.

Ekta Sood, Fabian Kögel, Philipp Müller + 3 more2026-03-04💬 cs.CL

Leveraging Foundation Models for Content-Based Image Retrieval in Radiology

Cette étude démontre que les modèles de fondation visuels, en particulier BiomedCLIP, peuvent servir d'extracteurs de caractéristiques polyvalents et performants pour la recherche d'images médicales par le contenu en radiologie, surpassant les systèmes spécialisés sans nécessiter d'entraînement supplémentaire sur un vaste ensemble de données de 1,6 million d'images.

Stefan Denner, David Zimmerer, Dimitrios Bounias + 8 more2026-03-04💻 cs

Implicit-Zoo: A Large-Scale Dataset of Neural Implicit Functions for 2D Images and 3D Scenes

Cet article présente Implicit-Zoo, un jeu de données à grande échelle de fonctions implicites neuronales pour images 2D et scènes 3D, conçu pour surmonter les limitations de ressources et de données, et qui démontre des améliorations significatives dans des tâches telles que la classification d'images, la segmentation sémantique et la régression de pose 3D.

Qi Ma, Danda Pani Paudel, Ender Konukoglu + 1 more2026-03-04💻 cs

WAFFLE: Finetuning Multi-Modal Models for Automated Front-End Development

L'article présente Waffle, une nouvelle stratégie d'affinement de modèles multimodaux qui améliore la génération de code HTML à partir de designs d'interface utilisateur en utilisant un mécanisme d'attention conscient de la structure et un apprentissage contrastif, surpassant ainsi les méthodes actuelles sur les benchmarks WebSight-Test et Design2Code.

Shanchao Liang, Nan Jiang, Shangshu Qian + 1 more2026-03-04💬 cs.CL

RealOSR: Latent Guidance Boosts Diffusion-based Real-world Omnidirectional Image Super-Resolutions

Le papier présente RealOSR, un cadre de super-résolution d'images omnidirectionnelles basé sur la diffusion qui utilise un module de guidage latent appelé LaGAR pour surmonter les limitations des dégradations réelles et offrir une accélération d'inférence de plus de 200 fois par rapport aux méthodes existantes.

Xuhan Sheng, Runyi Li, Bin Chen + 3 more2026-03-04⚡ eess

Slot-BERT: Self-supervised Object Discovery in Surgical Video

Le papier présente Slot-BERT, un modèle bidirectionnel auto-supervisé conçu pour découvrir des objets dans les vidéos chirurgicales longues en assurant une cohérence temporelle robuste et une désentanglement efficace des représentations, surpassant ainsi les méthodes existantes tout en permettant une adaptation zéro-shot à divers domaines chirurgicaux.

Guiqiu Liao, Matjaz Jogan, Marcel Hussing + 5 more2026-03-04⚡ eess

Weight Space Representation Learning on Diverse NeRF Architectures

Cet article présente le premier cadre capable d'apprendre des représentations agnostiques de l'architecture pour des NeRFs diversifiés, y compris ceux non vus lors de l'entraînement, en utilisant un réseau méta-graphe et un objectif contrastif pour surpasser les méthodes existantes limitées à des architectures uniques.

Francesco Ballerini, Pierluigi Zama Ramirez, Luigi Di Stefano + 1 more2026-03-04💻 cs

Cycle-Consistent Multi-Graph Matching for Self-Supervised Annotation of C.Elegans

Cet article présente une méthode d'apprentissage non supervisé basée sur la cohérence cyclique et l'optimisation bayésienne pour la correspondance de graphes multiples, permettant d'atteindre la précision des approches supervisées dans l'annotation sémantique des cellules de *C. elegans* et de construire le premier atlas cellulaire non supervisé de cet organisme.

Christoph Karg, Sebastian Stricker, Lisa Hutschenreiter + 2 more2026-03-04💻 cs

GAN-Based Single-Stage Defense for Traffic Sign Classification Under Adversarial Patch

Cette étude propose une stratégie de défense unique et efficace basée sur les réseaux antagonistes génératifs (GAN) pour protéger la classification des panneaux de signalisation contre les attaques par patch adverses, améliorant ainsi considérablement la précision et la sécurité des systèmes de conduite autonome en temps réel.

Abyad Enan, Mashrur Chowdhury2026-03-04💻 cs

Language-guided Open-world Video Anomaly Detection under Weak Supervision

Ce papier présente LaGoVAD, un nouveau détecteur d'anomalies vidéo en monde ouvert guidé par le langage naturel qui s'adapte dynamiquement aux définitions variables des anomalies sous supervision faible, en s'appuyant sur un nouveau jeu de données pré-entraîné nommé PreVAD pour atteindre des performances de pointe.

Zihao Liu, Xiaoyu Wu, Jianqin Wu + 2 more2026-03-04💻 cs

Scale-wise Distillation of Diffusion Models

Ce papier présente SwD, un cadre de distillation de modèles de diffusion qui améliore l'efficacité de l'échantillonnage grâce à une génération progressive et un objectif de distillation basé sur la divergence MMD, permettant d'atteindre des vitesses d'échantillonnage équivalentes à deux étapes complètes tout en surpassant les méthodes existantes.

Nikita Starodubcev, Ilya Drobyshevskiy, Denis Kuznedelev + 2 more2026-03-04💻 cs

Differentially Private 2D Human Pose Estimation

Cet article présente le premier cadre complet pour l'estimation de pose humaine 2D différentiellement privée, combinant des méthodes de projection de gradients et de privatisation des caractéristiques pour atteindre un équilibre optimal entre confidentialité et précision sur le jeu de données MPII.

Kaushik Bhargav Sivangi, Paul Henderson, Fani Deligianni2026-03-04💻 cs

← Précédent Suivant →