cs.CV articles | Gist.Science

Latent 3D Brain MRI Counterfactual

Cet article propose une méthode en deux étapes utilisant un VQ-VAE et un modèle causal dans l'espace latent pour générer des IRM cérébrales 3D de haute qualité et diversifiées, surmontant ainsi les limitations des modèles génératifs et causaux existants face aux données médicales de petite taille.

Wei Peng, Tian Xia, Fabio De Sousa Ribeiro + 5 more2026-03-03🤖 cs.AI

MV-Adapter: Enhancing Underwater Instance Segmentation via Adaptive Channel Attention

Ce papier propose le MV-Adapter, un module d'attention canal adaptatif intégré à l'architecture USIS-SAM, qui améliore significativement la segmentation d'instances sous-marine en compensant dynamiquement les défis environnementaux tels que l'atténuation lumineuse et la distorsion des couleurs.

Lianjun Liu2026-03-03💻 cs

XPoint: A Self-Supervised Visual-State-Space based Architecture for Multispectral Image Registration

L'article présente XPoint, une architecture auto-supervisée et modulaire basée sur le modèle VMamba, conçue pour surmonter les défis de l'appariement d'images multispectrales en s'adaptant rapidement à divers couples de modalités sans nécessiter de données étiquetées coûteuses.

Ismail Can Yagmur, Hasan F. Ates, Bahadir K. Gunturk2026-03-03💻 cs

EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation

Le papier présente EchoMimicV2, une méthode d'animation humaine mi-corps qui, grâce à une harmonisation dynamique audio-poser, une attention partielle sur la tête et une perte de débruitage spécifique aux phases, génère des animations expressives et détaillées tout en simplifiant les conditions d'entrée et en surpassant les méthodes existantes.

Rang Meng, Xingyu Zhang, Yuming Li + 1 more2026-03-03💻 cs

MFP3D: Monocular Food Portion Estimation Leveraging 3D Point Clouds

Ce papier présente MFP3D, un nouveau cadre utilisant une seule image monoculaire pour estimer avec précision les portions alimentaires en reconstruisant un nuage de points 3D et en combinant ces données avec des caractéristiques d'image 2D pour prédire le volume et l'énergie.

Jinge Ma, Xiaoyan Zhang, Gautham Vinod + 3 more2026-03-03⚡ eess

Grounding-IQA: Grounding Multimodal Language Model for Image Quality Assessment

Ce papier propose le paradigme « Grounding-IQA », qui intègre la localisation visuelle aux modèles de langage multimodaux pour améliorer l'évaluation de la qualité d'image, en s'appuyant sur un nouveau jeu de données annoté automatiquement (GIQA-160K) et un benchmark dédié (GIQA-Bench) pour évaluer la description, la réponse aux questions et la précision de la localisation.

Zheng Chen, Xun Zhang, Wenbo Li + 7 more2026-03-03💻 cs

DAWN-FM: Data-Aware and Noise-Informed Flow Matching for Solving Inverse Problems

Ce papier présente DAWN-FM, une méthode de Flow Matching intégrant des embeddings de données et de bruit pour résoudre de manière robuste les problèmes inverses mal posés tout en permettant une quantification de l'incertitude.

Shadab Ahamed, Eldad Haber2026-03-03⚡ eess

FiLo++: Zero-/Few-Shot Anomaly Detection by Fused Fine-Grained Descriptions and Deformable Localization

Le papier propose FiLo++, une méthode de détection d'anomalies en contexte zéro ou peu-shot qui améliore la précision et la localisation grâce à des descriptions textuelles fines générées par des modèles de langage et à un module de localisation déformable basé sur Grounding DINO.

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 3 more2026-03-03💻 cs

Polynomial, trigonometric, and tropical activations

Cet article présente des fonctions d'activation basées sur des bases orthogonales (polynomiales, trigonométriques et tropicales) qui, grâce à une initialisation préservant la variance, permettent d'entraîner efficacement des modèles profonds comme GPT-2 et ConvNeXt tout en évitant les problèmes d'explosion ou de disparition des gradients et en facilitant le fine-tuning via l'interpolation d'Hermite.

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

Deep generative computed perfusion-deficit mapping of ischaemic stroke

Cette étude démontre que l'inférence générative profonde appliquée aux cartes de perfusion calculées à partir d'angiographies CT permet de localiser les substrats neuraux des déficits liés à l'AVC ischémique avec une grande fidélité anatomique, offrant ainsi un outil clinique et scientifique prometteur pour la caractérisation précoce des lésions sans nécessiter la connaissance préalable de la lésion parenchymateuse.

Chayanin Tangwiriyasakul, Pedro Borges, Guilherme Pombo + 8 more2026-03-03🧬 q-bio

CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally

Cette étude démontre que le modèle CLIP encode bien les relations d'attribution objet-qualité de manière unimodale, mais que cette information est perdue lors de l'alignement intermodal, un problème que l'on peut résoudre efficacement par une simple transformation linéaire sans réentraînement coûteux.

Darina Koishigarina, Arnas Uselis, Seong Joon Oh2026-03-03🤖 cs.LG

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

Le papier présente WorldSense, le premier benchmark omnimodal évaluant la compréhension vidéo intégrée (visuel, audio, texte) à travers 1 662 vidéos annotées par des experts et 3 172 questions, révélant que les modèles actuels peinent encore à maîtriser les scénarios réels complexes.

Jack Hong, Shilin Yan, Jiayin Cai + 3 more2026-03-03🤖 cs.AI

Precise Parameter Localization for Textual Generation in Diffusion Models

Cette étude démontre que moins de 1 % des paramètres d'un modèle de diffusion, localisés exclusivement dans ses couches d'attention, suffisent à générer du texte dans les images, permettant ainsi d'améliorer l'efficacité du fine-tuning, d'éditer le contenu textuel et de prévenir la génération de textes toxiques de manière universelle et économique.

Łukasz Staniszewski, Bartosz Cywiński, Franziska Boenisch + 2 more2026-03-03💻 cs

Robust Adaptation of Large Multimodal Models for Retrieval Augmented Hateful Meme Detection

Cet article présente un cadre d'adaptation robuste pour les grands modèles multimodaux qui améliore la détection des mèmes haineux en augmentant la précision intra-domaine, la généralisation inter-domaines et la résilience aux attaques adverses, tout en surpassant les systèmes existants et en fournissant des justifications plus interprétables.

Jingbiao Mei, Jinghong Chen, Guangyu Yang + 2 more2026-03-03💬 cs.CL

Thicker and Quicker: A Jumbo Token for Fast Plain Vision Transformers

Ce papier présente Jumbo, une architecture de Vision Transformer (ViT) qui accélère le traitement en réduisant la largeur des tokens de patchs tout en ajoutant un token global « Jumbo » plus large et efficace, permettant d'améliorer la précision et l'adaptabilité sur diverses tâches sans sacrifier la compatibilité ni la simplicité des ViT standards.

Anthony Fuller, Yousef Yassin, Daniel G. Kyrollos + 2 more2026-03-03💻 cs

MemeIntel: Explainable Detection of Propagandistic and Hateful Memes

Ce papier présente MemeIntel, une approche qui améliore la détection des memes propagandistes et haineux en introduisant le jeu de données MemeXplain et une optimisation multi-étape pour les modèles vision-langage, permettant ainsi de générer simultanément des prédictions précises et des explications rationnelles.

Mohamed Bayan Kmainasi, Abul Hasnat, Md Arid Hasan + 2 more2026-03-03💬 cs.CL

Openfly: A comprehensive platform for aerial vision-language navigation

Le papier présente OpenFly, une plateforme complète pour la navigation aérienne vision-langage qui intègre des moteurs de rendu avancés, un outil automatisé de collecte de données et un vaste benchmark de 100 000 trajectoires pour combler le manque d'études dans ce domaine.

Yunpeng Gao, Chenhui Li, Zhongrui You + 20 more2026-03-03💻 cs

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

Le papier présente LLaVE, un cadre d'apprentissage contrastif pondéré par la difficulté qui améliore l'entraînement des modèles d'encodage multimodaux pour mieux distinguer les paires négatives difficiles, permettant ainsi d'atteindre des performances de pointe sur le benchmark MMEB avec une meilleure efficacité que les modèles précédents.

Zhibin Lan, Liqiang Niu, Fandong Meng + 2 more2026-03-03💬 cs.CL

Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

Le papier présente Vision-R1, un modèle multimodal de langage qui améliore les capacités de raisonnement grâce à une stratégie d'entraînement par apprentissage par renforcement combinant un jeu de données de chaîne de pensée initialisé automatiquement et une suppression progressive de la sur-réflexion, atteignant ainsi des performances compétitives sur les benchmarks de raisonnement mathématique.

Wenxuan Huang, Bohan Jia, Zijie Zhai + 7 more2026-03-03💬 cs.CL

SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation

Ce papier présente SemHiTok, un décodeur d'images unifié innovant qui utilise un codebook hiérarchique guidé par la sémantique pour concilier efficacement les exigences contradictoires de la compréhension et de la génération multimodales.

Zisheng Chen, Chunwei Wang, Runhui Huang + 6 more2026-03-03🤖 cs.AI

← Précédent Suivant →