cs.CV articles | Gist.Science

Towards an Incremental Unified Multimodal Anomaly Detection: Augmenting Multimodal Denoising From an Information Bottleneck Perspective

Cet article propose IB-IUMAD, un nouveau cadre de détection d'anomalies multimodales incrémentielles qui résout le problème de l'oubli catastrophique en éliminant les caractéristiques redondantes et spuriaires grâce à une fusion par goulot d'étranglement de l'information et à un décodeur Mamba.

Kaifang Long, Lianbo Ma, Jiaqi Liu + 2 more2026-03-04💻 cs

SEP-YOLO: Fourier-Domain Feature Representation for Transparent Object Instance Segmentation

Le papier présente SEP-YOLO, un cadre novateur intégrant un mécanisme de collaboration dual-domaine et des annotations de haute qualité pour le dataset Trans10K, afin de surmonter les défis de la segmentation d'instances d'objets transparents et d'atteindre des performances de pointe.

Fengming Zhang, Tao Yan, Jianchao Huang2026-03-04💻 cs

OmniFashion: Towards Generalist Fashion Intelligence via Multi-Task Vision-Language Learning

L'article présente OmniFashion, un cadre unifié vision-langage reposant sur le jeu de données à grande échelle FashionX, qui permet de surmonter la fragmentation des tâches de l'intelligence mode en établissant un paradigme de dialogue interactif pour le raisonnement et la compréhension multi-tâches.

Zhengwei Yang, Andi Long, Hao Li + 3 more2026-03-04💻 cs

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

Ce papier présente M3IRT, un cadre d'analyse basé sur la théorie de réponse à l'item multidimensionnelle et multimodale qui décompose les capacités des modèles et la difficulté des questions en composantes visuelles, textuelles et croisées, permettant ainsi d'identifier et de prioriser les questions véritablement multimodales pour améliorer la fiabilité et l'efficacité des évaluations des grands modèles de langage multimodaux.

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL

DREAM: Where Visual Understanding Meets Text-to-Image Generation

Le papier présente DREAM, un cadre unifié qui combine l'apprentissage de représentations visuelles et la génération d'images à partir de texte grâce à des techniques innovantes comme le réchauffement du masquage et le décodage aligné sémantiquement, permettant d'obtenir des performances supérieures à la fois en compréhension visuelle et en génération sans nécessiter de réordonnanceurs externes.

Chao Li, Tianhong Li, Sai Vidyaranya Nuthalapati + 8 more2026-03-04🤖 cs.LG

VisionCreator: A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation

L'article présente VisionCreator, un modèle agent natif de génération visuelle unifiant compréhension, réflexion, planification et création, qui surpasse les modèles propriétaires plus grands grâce à des données d'entraînement spécialisées, une formation progressive et une évaluation rigoureuse sur un nouveau benchmark.

Jinxiang Lai, Zexin Lu, Jiajun He + 11 more2026-03-04💻 cs

ReCo-Diff: Residual-Conditioned Deterministic Sampling for Cold Diffusion in Sparse-View CT

L'article présente ReCo-Diff, un cadre de diffusion déterministe conditionné par les résidus d'observation qui améliore la reconstruction des tomodensitométries à vues espacées en corrigeant continuellement les prédictions sans recourir à des interventions heuristiques.

Yong Eun Choi, Hyoung Suk Park, Kiwan Jeon + 2 more2026-03-04💻 cs

FiDeSR: High-Fidelity and Detail-Preserving One-Step Diffusion Super-Resolution

Le papier présente FiDeSR, un cadre de super-résolution d'images en une seule étape basé sur la diffusion qui combine une pondération attentive aux détails, des enhanceurs adaptatifs et un raffinement de bruit résiduel pour surmonter les compromis entre fidélité et préservation des détails fins dans les méthodes existantes.

Aro Kim, Myeongjin Jang, Chaewon Moon + 3 more2026-03-04💻 cs

ShareVerse: Multi-Agent Consistent Video Generation for Shared World Modeling

Le papier présente ShareVerse, un cadre de génération vidéo multi-agent qui, grâce à un nouveau jeu de données CARLA, une stratégie de concaténation spatiale et des mécanismes d'attention croisée, permet la modélisation cohérente d'un monde partagé avec des interactions spatiales et temporelles synchronisées entre plusieurs agents.

Jiayi Zhu, Jianing Zhang, Yiying Yang + 2 more2026-03-04🤖 cs.AI

Intelligent Pathological Diagnosis of Gestational Trophoblastic Diseases via Visual-Language Deep Learning Model

Les auteurs ont développé GTDoctor, un modèle d'apprentissage profond visuel-langagier intégré au système GTDiagnosis, qui améliore considérablement la précision, la rapidité et la cohérence du diagnostic pathologique des maladies trophoblastiques gestationnelles.

Yuhang Liu, Yueyang Cang, Wenge Que + 12 more2026-03-04🤖 cs.AI

MiM-DiT: MoE in MoE with Diffusion Transformers for All-in-One Image Restoration

Ce papier propose MiM-DiT, un cadre unifié de restauration d'images qui combine une architecture à double niveau de mélange d'experts (MoE) avec des transformateurs de diffusion préentraînés pour gérer efficacement une variété de dégradations, des types majeurs aux variations fines.

Lingshun Kong, Jiawei Zhang, Zhengpeng Duan + 6 more2026-03-04💻 cs

From "What" to "How": Constrained Reasoning for Autoregressive Image Generation

Le papier présente CoR-Painter, un cadre novateur qui améliore la génération d'images autoregressive en introduisant un raisonnement contraint pour définir d'abord « comment » structurer l'image via des contraintes visuelles, avant de spécifier « quoi » dessiner, surpassant ainsi les méthodes actuelles dans la résolution des ambiguïtés spatiales.

Ruxue Yan, Xubo Liu, Wenya Guo + 3 more2026-03-04⚡ eess

TenExp: Mixture-of-Experts-Based Tensor Decomposition Structure Search Framework

Ce papier présente TenExp, un cadre de recherche de structure de décomposition tensorielle basé sur un mélange d'experts qui permet de sélectionner dynamiquement et de manière non supervisée des décompositions uniques ou mixtes adaptées, surpassant ainsi les méthodes existantes en termes de flexibilité et de précision d'approximation.

Ting-Wei Zhou, Xi-Le Zhao, Sheng Liu + 3 more2026-03-04💻 cs

Cross-view geo-localization, Image retrieval, Multiscale geometric modeling, Frequency domain enhancement

Cet article présente SFDE, un réseau d'apprentissage profond innovant qui améliore la géolocalisation cross-view en fusionnant des représentations complémentaires des domaines spatial et fréquentiel au sein d'une architecture à trois branches pour surmonter les asymétries géométriques et les incohérences de texture.

Hongying Zhang, ShuaiShuai Ma2026-03-04💻 cs

Seeing Clearly without Training: Mitigating Hallucinations in Multimodal LLMs for Remote Sensing

Cet article présente RSHBench, un nouveau protocole d'évaluation pour diagnostiquer les hallucinations dans les modèles multimodaux appliqués à la télédétection, ainsi que RADAR, une méthode d'inférence sans entraînement qui exploite l'attention intrinsèque pour améliorer la précision du raisonnement local et réduire ces hallucinations.

Yi Liu, Jing Zhang, Di Wang + 3 more2026-03-04💻 cs

HiLoRA: Hierarchical Low-Rank Adaptation for Personalized Federated Learning

Ce papier propose HiLoRA, un cadre d'adaptation hiérarchique à faible rang qui améliore l'apprentissage fédéré personnalisé sur les Vision Transformers en intégrant des adaptateurs à trois niveaux et un mécanisme de clustering adaptatif pour capturer efficacement les structures latentes des clients.

Zihao Peng, Nan Zou, Jiandian Zeng + 4 more2026-03-04💻 cs

Designing UNICORN: a Unified Benchmark for Imaging in Computational Pathology, Radiology, and Natural Language

Le papier présente UNICORN, un benchmark public et unifié conçu pour évaluer systématiquement les modèles de fondation médicaux à travers diverses modalités, tâches et régions anatomiques en utilisant un protocole standardisé de few-shot learning et une métrique agrégée appelée UNICORN Score.

Michelle Stegeman, Lena Philipp, Fennie van der Graaf + 19 more2026-03-04💻 cs

R3GW: Relightable 3D Gaussians for Outdoor Scenes in the Wild

L'article présente R3GW, une méthode novatrice qui reconstruit des scènes extérieures non contraintes en séparant le premier plan relightable du fond (ciel) pour permettre un rendu photoréaliste sous un éclairage arbitraire grâce à l'intégration du rendu basé sur la physique avec les Gaussiens 3D.

Margherita Lea Corona, Wieland Morgenstern, Peter Eisert + 1 more2026-03-04💻 cs

NOVA: Sparse Control, Dense Synthesis for Pair-Free Video Editing

Le papier présente NOVA, un cadre d'édition vidéo sans données appariées qui combine une branche de contrôle sparse pour la sémantique et une branche de synthèse dense pour la fidélité temporelle, le tout entraîné via une stratégie de simulation de dégradation pour surmonter le manque de données appariées.

Tianlin Pan, Jiayi Dai, Chenpu Yuan + 7 more2026-03-04💻 cs

Structure-Aware Text Recognition for Ancient Greek Critical Editions

Cet article présente une nouvelle approche de reconnaissance textuelle structurée pour les éditions critiques du grec ancien, basée sur un corpus synthétique et un benchmark réel, démontrant que le modèle Qwen3VL-8B atteint des performances de pointe avec un taux d'erreur de caractères médian de 1,0 % sur des scans historiques.

Nicolas Angleraud, Antonia Karamolegkou, Benoît Sagot + 1 more2026-03-04💻 cs

← Précédent Suivant →