cs.CV articles | Gist.Science

Towards Precision Cardiovascular Analysis in Zebrafish: The ZACAF Paradigm

Les auteurs proposent le cadre ZACAF, qui intègre l'apprentissage par transfert et l'augmentation de données pour surmonter les limites des méthodes supervisées et permettre une quantification précise et généralisable de la fonction cardiovasculaire chez le poisson-zèbre, y compris dans des modèles de cardiomyopathie.

Amir Mohammad Naderi, Jennifer G. Casey, Mao-Hsiang Huang + 5 more2026-03-03⚡ eess

FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization

Le papier propose FiLo, une nouvelle méthode de détection d'anomalies en zéro-shot qui améliore la précision et la localisation grâce à des descriptions fines générées par des modèles de langage et une localisation de haute qualité assistée par Grounding DINO, atteignant ainsi des performances de pointe sur les ensembles de données MVTec et VisA.

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 4 more2026-03-03🤖 cs.LG

Changing the Training Data Distribution to Reduce Simplicity Bias Improves In-distribution Generalization

Cet article propose la méthode USEFUL, qui atténue le biais de simplicité en rééchantillonnant sélectivement les données d'entraînement pour améliorer la généralisation in-distribution, atteignant ainsi des performances de pointe sur plusieurs jeux de données standards.

Dang Nguyen, Paymon Haddad, Eric Gan + 1 more2026-03-03🤖 cs.AI

Towards Camera Open-set 3D Object Detection for Autonomous Driving Scenarios

Ce papier présente OS-Det3D, un cadre d'apprentissage en deux étapes qui améliore la détection 3D à base de caméras pour la conduite autonome en permettant la découverte et l'identification d'objets inconnus grâce à une combinaison de propositions géométriques LiDAR et d'un module de sélection conjointe.

Zhuolin He, Xinrun Li, Jiacheng Tang + 4 more2026-03-03🤖 cs.AI

PO-GUISE+: Pose and object guided transformer token selection for efficient driver action recognition

Le papier présente PO-GUISE+, un transformateur vidéo multi-tâches optimisé pour la reconnaissance efficace des actions de conduite distrayante en sélectionnant les tokens grâce aux informations de pose et d'objets, réduisant ainsi les coûts computationnels tout en surpassant les méthodes actuelles sur plusieurs jeux de données et plateformes embarquées.

Ricardo Pizarro, Roberto Valle, Rafael Barea + 3 more2026-03-03💻 cs

MSSPlace: Multi-Sensor Place Recognition with Visual and Text Semantics

Ce papier présente MSSPlace, une méthode de reconnaissance de lieu multimodale qui fusionne tardivement des données visuelles, LiDAR, sémantiques et textuelles issues de multiples capteurs pour atteindre des performances de pointe sur les jeux de données Oxford RobotCar et NCLT.

Alexander Melekhin, Dmitry Yudin, Ilia Petryashin + 1 more2026-03-03💻 cs

A Dataset for Crucial Object Recognition in Blind and Low-Vision Individuals' Navigation

Cet article présente un nouveau jeu de données public comprenant des vidéos et une taxonomie de 90 objets essentiels, conçu pour améliorer la reconnaissance d'objets en temps réel et soutenir la navigation des personnes aveugles ou malvoyantes.

Md Touhidul Islam, Imran Kabir, Elena Ariel Pearce + 2 more2026-03-03💻 cs

Latent 3D Brain MRI Counterfactual

Cet article propose une méthode en deux étapes utilisant un VQ-VAE et un modèle causal dans l'espace latent pour générer des IRM cérébrales 3D de haute qualité et diversifiées, surmontant ainsi les limitations des modèles génératifs et causaux existants face aux données médicales de petite taille.

Wei Peng, Tian Xia, Fabio De Sousa Ribeiro + 5 more2026-03-03🤖 cs.AI

MV-Adapter: Enhancing Underwater Instance Segmentation via Adaptive Channel Attention

Ce papier propose le MV-Adapter, un module d'attention canal adaptatif intégré à l'architecture USIS-SAM, qui améliore significativement la segmentation d'instances sous-marine en compensant dynamiquement les défis environnementaux tels que l'atténuation lumineuse et la distorsion des couleurs.

Lianjun Liu2026-03-03💻 cs

XPoint: A Self-Supervised Visual-State-Space based Architecture for Multispectral Image Registration

L'article présente XPoint, une architecture auto-supervisée et modulaire basée sur le modèle VMamba, conçue pour surmonter les défis de l'appariement d'images multispectrales en s'adaptant rapidement à divers couples de modalités sans nécessiter de données étiquetées coûteuses.

Ismail Can Yagmur, Hasan F. Ates, Bahadir K. Gunturk2026-03-03💻 cs

EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation

Le papier présente EchoMimicV2, une méthode d'animation humaine mi-corps qui, grâce à une harmonisation dynamique audio-poser, une attention partielle sur la tête et une perte de débruitage spécifique aux phases, génère des animations expressives et détaillées tout en simplifiant les conditions d'entrée et en surpassant les méthodes existantes.

Rang Meng, Xingyu Zhang, Yuming Li + 1 more2026-03-03💻 cs

MFP3D: Monocular Food Portion Estimation Leveraging 3D Point Clouds

Ce papier présente MFP3D, un nouveau cadre utilisant une seule image monoculaire pour estimer avec précision les portions alimentaires en reconstruisant un nuage de points 3D et en combinant ces données avec des caractéristiques d'image 2D pour prédire le volume et l'énergie.

Jinge Ma, Xiaoyan Zhang, Gautham Vinod + 3 more2026-03-03⚡ eess

Grounding-IQA: Grounding Multimodal Language Model for Image Quality Assessment

Ce papier propose le paradigme « Grounding-IQA », qui intègre la localisation visuelle aux modèles de langage multimodaux pour améliorer l'évaluation de la qualité d'image, en s'appuyant sur un nouveau jeu de données annoté automatiquement (GIQA-160K) et un benchmark dédié (GIQA-Bench) pour évaluer la description, la réponse aux questions et la précision de la localisation.

Zheng Chen, Xun Zhang, Wenbo Li + 7 more2026-03-03💻 cs

DAWN-FM: Data-Aware and Noise-Informed Flow Matching for Solving Inverse Problems

Ce papier présente DAWN-FM, une méthode de Flow Matching intégrant des embeddings de données et de bruit pour résoudre de manière robuste les problèmes inverses mal posés tout en permettant une quantification de l'incertitude.

Shadab Ahamed, Eldad Haber2026-03-03⚡ eess

FiLo++: Zero-/Few-Shot Anomaly Detection by Fused Fine-Grained Descriptions and Deformable Localization

Le papier propose FiLo++, une méthode de détection d'anomalies en contexte zéro ou peu-shot qui améliore la précision et la localisation grâce à des descriptions textuelles fines générées par des modèles de langage et à un module de localisation déformable basé sur Grounding DINO.

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 3 more2026-03-03💻 cs

Polynomial, trigonometric, and tropical activations

Cet article présente des fonctions d'activation basées sur des bases orthogonales (polynomiales, trigonométriques et tropicales) qui, grâce à une initialisation préservant la variance, permettent d'entraîner efficacement des modèles profonds comme GPT-2 et ConvNeXt tout en évitant les problèmes d'explosion ou de disparition des gradients et en facilitant le fine-tuning via l'interpolation d'Hermite.

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

Deep generative computed perfusion-deficit mapping of ischaemic stroke

Cette étude démontre que l'inférence générative profonde appliquée aux cartes de perfusion calculées à partir d'angiographies CT permet de localiser les substrats neuraux des déficits liés à l'AVC ischémique avec une grande fidélité anatomique, offrant ainsi un outil clinique et scientifique prometteur pour la caractérisation précoce des lésions sans nécessiter la connaissance préalable de la lésion parenchymateuse.

Chayanin Tangwiriyasakul, Pedro Borges, Guilherme Pombo + 8 more2026-03-03🧬 q-bio

CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally

Cette étude démontre que le modèle CLIP encode bien les relations d'attribution objet-qualité de manière unimodale, mais que cette information est perdue lors de l'alignement intermodal, un problème que l'on peut résoudre efficacement par une simple transformation linéaire sans réentraînement coûteux.

Darina Koishigarina, Arnas Uselis, Seong Joon Oh2026-03-03🤖 cs.LG

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

Le papier présente WorldSense, le premier benchmark omnimodal évaluant la compréhension vidéo intégrée (visuel, audio, texte) à travers 1 662 vidéos annotées par des experts et 3 172 questions, révélant que les modèles actuels peinent encore à maîtriser les scénarios réels complexes.

Jack Hong, Shilin Yan, Jiayin Cai + 3 more2026-03-03🤖 cs.AI

Precise Parameter Localization for Textual Generation in Diffusion Models

Cette étude démontre que moins de 1 % des paramètres d'un modèle de diffusion, localisés exclusivement dans ses couches d'attention, suffisent à générer du texte dans les images, permettant ainsi d'améliorer l'efficacité du fine-tuning, d'éditer le contenu textuel et de prévenir la génération de textes toxiques de manière universelle et économique.

Łukasz Staniszewski, Bartosz Cywiński, Franziska Boenisch + 2 more2026-03-03💻 cs

← Précédent Suivant →