cs.CV articles | Gist.Science

SOLAR: SVD-Optimized Lifelong Attention for Recommendation

Le papier présente SOLAR, un cadre de modélisation séquentielle pour les systèmes de recommandation qui utilise une attention optimisée par SVD pour réduire la complexité computationnelle tout en préservant la fonction softmax, permettant ainsi de gérer des séquences de comportement massives et d'améliorer significativement les performances en ligne chez Kuaishou.

Chenghao Zhang, Chao Feng, Yuanhao Pu + 8 more2026-03-04🤖 cs.LG

ATD: Improved Transformer with Adaptive Token Dictionary for Image Restoration

Cet article propose ATD, une nouvelle architecture de transformateur pour la restauration d'images qui utilise un dictionnaire de tokens adaptatif et un mécanisme d'attention croisée pour modéliser les dépendances globales avec une complexité linéaire, atteignant ainsi des performances de pointe sur diverses tâches de restauration.

Leheng Zhang, Wei Long, Yawei Li + 3 more2026-03-04💻 cs

Neural Electromagnetic Fields for High-Resolution Material Parameter Reconstruction

Ce papier présente NEMF, un cadre novateur qui transforme le problème inverse physique mal posé de la reconstruction des paramètres matériels en une tâche d'apprentissage bien posée en découplant la géométrie et le champ ambiant, permettant ainsi de créer des jumeaux numériques fonctionnels et simulables à partir de données non invasives.

Zhe Chen, Peilin Zheng, Wenshuo Chen + 3 more2026-03-04⚡ eess

Maximizing Generalization: The Effect of Different Augmentation Techniques on Lightweight Vision Transformer for Bengali Character Classification

Cette étude démontre que la combinaison de techniques d'augmentation de données, notamment les transformations affines aléatoires et les variations de couleur, optimise les performances d'un modèle Vision Transformer léger pour la reconnaissance de caractères bengalis manuscrits en palliant le manque de données.

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha2026-03-04💻 cs

Synthetic-Child: An AIGC-Based Synthetic Data Pipeline for Privacy-Preserving Child Posture Estimation

Ce papier présente « Synthetic-Child », un pipeline de données synthétiques basé sur l'IA générative qui permet d'entraîner un modèle de détection de posture pour enfants avec une précision élevée et une confidentialité totale, en éliminant le besoin de photographies réelles d'enfants tout en garantissant un déploiement temps réel sur des dispositifs embarqués.

Taowen Zeng2026-03-04💻 cs

VLMFusionOcc3D: VLM Assisted Multi-Modal 3D Semantic Occupancy Prediction

Ce papier présente VLMFusionOcc3D, un cadre multimodal robuste pour la prédiction d'occupation sémantique 3D dense qui améliore la précision et la fiabilité par temps défavorable en intégrant des priors linguistiques de modèles vision-langage et des mécanismes d'adaptation dynamique aux conditions météorologiques.

A. Enes Doruk, Hasan F. Ates2026-03-04💻 cs

Direct Reward Fine-Tuning on Poses for Single Image to 3D Human in the Wild

Ce papier présente DrPose, un algorithme de fine-tuning par récompense directe qui améliore la reconstruction 3D de humains à partir d'une seule image en entraînant un modèle de diffusion multi-vues sur un large éventail de poses sans nécessiter d'actifs 3D coûteux.

Seunguk Do, Minwoo Huh, Joonghyuk Shin + 1 more2026-03-04💻 cs

Towards an Incremental Unified Multimodal Anomaly Detection: Augmenting Multimodal Denoising From an Information Bottleneck Perspective

Cet article propose IB-IUMAD, un nouveau cadre de détection d'anomalies multimodales incrémentielles qui résout le problème de l'oubli catastrophique en éliminant les caractéristiques redondantes et spuriaires grâce à une fusion par goulot d'étranglement de l'information et à un décodeur Mamba.

Kaifang Long, Lianbo Ma, Jiaqi Liu + 2 more2026-03-04💻 cs

SEP-YOLO: Fourier-Domain Feature Representation for Transparent Object Instance Segmentation

Le papier présente SEP-YOLO, un cadre novateur intégrant un mécanisme de collaboration dual-domaine et des annotations de haute qualité pour le dataset Trans10K, afin de surmonter les défis de la segmentation d'instances d'objets transparents et d'atteindre des performances de pointe.

Fengming Zhang, Tao Yan, Jianchao Huang2026-03-04💻 cs

OmniFashion: Towards Generalist Fashion Intelligence via Multi-Task Vision-Language Learning

L'article présente OmniFashion, un cadre unifié vision-langage reposant sur le jeu de données à grande échelle FashionX, qui permet de surmonter la fragmentation des tâches de l'intelligence mode en établissant un paradigme de dialogue interactif pour le raisonnement et la compréhension multi-tâches.

Zhengwei Yang, Andi Long, Hao Li + 3 more2026-03-04💻 cs

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

Ce papier présente M3IRT, un cadre d'analyse basé sur la théorie de réponse à l'item multidimensionnelle et multimodale qui décompose les capacités des modèles et la difficulté des questions en composantes visuelles, textuelles et croisées, permettant ainsi d'identifier et de prioriser les questions véritablement multimodales pour améliorer la fiabilité et l'efficacité des évaluations des grands modèles de langage multimodaux.

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL

DREAM: Where Visual Understanding Meets Text-to-Image Generation

Le papier présente DREAM, un cadre unifié qui combine l'apprentissage de représentations visuelles et la génération d'images à partir de texte grâce à des techniques innovantes comme le réchauffement du masquage et le décodage aligné sémantiquement, permettant d'obtenir des performances supérieures à la fois en compréhension visuelle et en génération sans nécessiter de réordonnanceurs externes.

Chao Li, Tianhong Li, Sai Vidyaranya Nuthalapati + 8 more2026-03-04🤖 cs.LG

VisionCreator: A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation

L'article présente VisionCreator, un modèle agent natif de génération visuelle unifiant compréhension, réflexion, planification et création, qui surpasse les modèles propriétaires plus grands grâce à des données d'entraînement spécialisées, une formation progressive et une évaluation rigoureuse sur un nouveau benchmark.

Jinxiang Lai, Zexin Lu, Jiajun He + 11 more2026-03-04💻 cs

ReCo-Diff: Residual-Conditioned Deterministic Sampling for Cold Diffusion in Sparse-View CT

L'article présente ReCo-Diff, un cadre de diffusion déterministe conditionné par les résidus d'observation qui améliore la reconstruction des tomodensitométries à vues espacées en corrigeant continuellement les prédictions sans recourir à des interventions heuristiques.

Yong Eun Choi, Hyoung Suk Park, Kiwan Jeon + 2 more2026-03-04💻 cs

FiDeSR: High-Fidelity and Detail-Preserving One-Step Diffusion Super-Resolution

Le papier présente FiDeSR, un cadre de super-résolution d'images en une seule étape basé sur la diffusion qui combine une pondération attentive aux détails, des enhanceurs adaptatifs et un raffinement de bruit résiduel pour surmonter les compromis entre fidélité et préservation des détails fins dans les méthodes existantes.

Aro Kim, Myeongjin Jang, Chaewon Moon + 3 more2026-03-04💻 cs

ShareVerse: Multi-Agent Consistent Video Generation for Shared World Modeling

Le papier présente ShareVerse, un cadre de génération vidéo multi-agent qui, grâce à un nouveau jeu de données CARLA, une stratégie de concaténation spatiale et des mécanismes d'attention croisée, permet la modélisation cohérente d'un monde partagé avec des interactions spatiales et temporelles synchronisées entre plusieurs agents.

Jiayi Zhu, Jianing Zhang, Yiying Yang + 2 more2026-03-04🤖 cs.AI

Intelligent Pathological Diagnosis of Gestational Trophoblastic Diseases via Visual-Language Deep Learning Model

Les auteurs ont développé GTDoctor, un modèle d'apprentissage profond visuel-langagier intégré au système GTDiagnosis, qui améliore considérablement la précision, la rapidité et la cohérence du diagnostic pathologique des maladies trophoblastiques gestationnelles.

Yuhang Liu, Yueyang Cang, Wenge Que + 12 more2026-03-04🤖 cs.AI

MiM-DiT: MoE in MoE with Diffusion Transformers for All-in-One Image Restoration

Ce papier propose MiM-DiT, un cadre unifié de restauration d'images qui combine une architecture à double niveau de mélange d'experts (MoE) avec des transformateurs de diffusion préentraînés pour gérer efficacement une variété de dégradations, des types majeurs aux variations fines.

Lingshun Kong, Jiawei Zhang, Zhengpeng Duan + 6 more2026-03-04💻 cs

From "What" to "How": Constrained Reasoning for Autoregressive Image Generation

Le papier présente CoR-Painter, un cadre novateur qui améliore la génération d'images autoregressive en introduisant un raisonnement contraint pour définir d'abord « comment » structurer l'image via des contraintes visuelles, avant de spécifier « quoi » dessiner, surpassant ainsi les méthodes actuelles dans la résolution des ambiguïtés spatiales.

Ruxue Yan, Xubo Liu, Wenya Guo + 3 more2026-03-04⚡ eess

TenExp: Mixture-of-Experts-Based Tensor Decomposition Structure Search Framework

Ce papier présente TenExp, un cadre de recherche de structure de décomposition tensorielle basé sur un mélange d'experts qui permet de sélectionner dynamiquement et de manière non supervisée des décompositions uniques ou mixtes adaptées, surpassant ainsi les méthodes existantes en termes de flexibilité et de précision d'approximation.

Ting-Wei Zhou, Xi-Le Zhao, Sheng Liu + 3 more2026-03-04💻 cs

← Précédent Suivant →