cs.CV articles | Gist.Science

FastAvatar: Towards Unified and Fast 3D Avatar Reconstruction with Large Gaussian Reconstruction Transformers

FastAvatar est un cadre de reconstruction d'avatars 3D unifié et rapide qui utilise un grand transformateur de reconstruction gaussienne (LGRT) pour générer en quelques secondes des modèles 3DGS de haute qualité à partir de diverses sources d'images ou vidéos quotidiennes, tout en permettant une reconstruction incrémentielle et une qualité ajustable.

Yue Wu, Xuanhong Chen, Yufan Wu + 3 more2026-03-03💻 cs

Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

Cet article propose GACD, une méthode d'inférence basée sur les gradients qui atténue les hallucinations des modèles multimodaux en estimant et en rééquilibrant les biais textuels et visuels sans nécessiter de fine-tuning.

Shan Wang, Maying Shen, Nadine Chang + 3 more2026-03-03💬 cs.CL

RTGMFF: Enhanced fMRI-based Brain Disorder Diagnosis via ROI-driven Text Generation and Multimodal Feature Fusion

Le papier présente RTGMFF, un cadre innovant qui améliore le diagnostic des troubles cérébraux à partir de l'IRMf en générant automatiquement des descriptions textuelles des régions d'intérêt et en fusionnant ces informations avec des caractéristiques multimodales via un encodeur hybride et un module d'alignement sémantique.

Junhao Jia, Yifei Sun, Yunyou Liu + 5 more2026-03-03💻 cs

Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

Cet article présente T2I-CoReBench, un benchmark complet et complexe évaluant les capacités de composition et de raisonnement des modèles de génération d'images à partir de texte, révélant que si la composition reste limitée dans des scénarios denses, le raisonnement constitue un goulot d'étranglement critique où les modèles échouent à inférer des éléments implicites.

Ouxiang Li, Yuan Wang, Xinting Hu + 7 more2026-03-03💻 cs

UniView: Enhancing Novel View Synthesis From A Single Image By Unifying Reference Features

Le papier présente UniView, un modèle novateur qui améliore la synthèse de vues nouvelles à partir d'une seule image en unifiant les caractéristiques d'images de référence sélectionnées via un MLLM et en utilisant un mécanisme d'attention découplé pour préserver les détails tout en réduisant les distorsions.

Haowang Cui, Rui Chen, Jiaze Wang + 2 more2026-03-03💻 cs

Improved 3D Scene Stylization via Text-Guided Generative Image Editing with Region-Based Control

Cet article propose une méthode améliorée de stylisation 3D guidée par le texte qui garantit la cohérence des vues et permet un transfert de style contrôlé par région en combinant une génération de vues basée sur la profondeur et une attention partagée avec une nouvelle fonction de perte pour la correspondance sémantique.

Haruo Fujiwara, Yusuke Mukuta, Tatsuya Harada2026-03-03💻 cs

LADB: Latent Aligned Diffusion Bridges for Semi-Supervised Domain Translation

L'article propose LADB, un cadre semi-supervisé qui aligne les distributions de source et de cible dans un espace latent partagé pour permettre une traduction de domaine efficace et contrôlable avec des données partiellement appariées, surpassant les méthodes non appariées et évitant le besoin de jeux de données entièrement annotés.

Xuqin Wang, Tao Wu, Yanfeng Zhang + 6 more2026-03-03💻 cs

TrueSkin: Towards Fair and Accurate Skin Tone Recognition and Generation

Ce papier présente TrueSkin, un jeu de données de 7299 images étalonnées sur six classes de teintes de peau, conçu pour évaluer et améliorer la reconnaissance et la génération équitables et précises de ces teintes en comblant les lacunes des modèles multimodaux et génératifs actuels.

Haoming Lu2026-03-03💻 cs

BWCache: Accelerating Video Diffusion Transformers through Block-Wise Caching

Ce papier présente BWCache, une méthode sans entraînement qui accélère la génération vidéo par des Transformers de diffusion en réutilisant dynamiquement les caractéristiques des blocs lors des étapes intermédiaires grâce à un indicateur de similarité, permettant ainsi une accélération jusqu'à 6 fois sans compromettre la qualité visuelle.

Hanshuai Cui, Zhiqing Tang, Zhifei Xu + 3 more2026-03-03🤖 cs.AI

Brain-HGCN: A Hyperbolic Graph Convolutional Network for Brain Functional Network Analysis

Le papier présente Brain-HGCN, un cadre d'apprentissage profond géométrique basé sur la géométrie hyperbolique qui modélise avec fidélité la hiérarchie des réseaux fonctionnels cérébraux pour améliorer la classification des troubles psychiatriques par rapport aux méthodes euclidiennes.

Junhao Jia, Yunyou Liu, Cheng Yang + 4 more2026-03-03💻 cs

Person Identification from Egocentric Human-Object Interactions using 3D Hand Pose

Ce papier présente I2S, un cadre léger et rapide pour l'identification d'utilisateurs en temps réel dans les systèmes de réalité augmentée, qui exploite l'analyse de la pose 3D de la main et une nouvelle descripteur d'enveloppe spatiale inter-mains (IHSE) pour atteindre une précision exceptionnelle de 97,52 % lors de l'interaction humain-objet.

Muhammad Hamza, Danish Hamid, Muhammad Tahir Akram2026-03-03🤖 cs.LG

Geodesic Prototype Matching via Diffusion Maps for Interpretable Fine-Grained Recognition

Cet article présente GeoProto, une méthode de reconnaissance fine interprétable qui améliore la similarité des prototypes en s'appuyant sur la géométrie intrinsèque des caractéristiques visuelles via des cartes de diffusion et une interpolation de Nyström différentiable, surpassant ainsi les approches basées sur la distance euclidienne.

Junhao Jia, Yunyou Liu, Yifei Sun + 4 more2026-03-03💻 cs

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

Ce papier présente SHINE, un cadre d'insertion d'images sans entraînement qui exploite les priors physiques des modèles de diffusion modernes pour réaliser des compositions réalistes avec des ombres et des réflexions précises, tout en introduisant le nouveau benchmark ComplexCompo pour évaluer ces capacités.

Shilin Lu, Zhuming Lian, Zihan Zhou + 3 more2026-03-03🤖 cs.AI

QuadGPT: Native Quadrilateral Mesh Generation with Autoregressive Models

Ce papier présente QuadGPT, le premier cadre autoregressif capable de générer directement des maillages quadrangulaires de haute qualité en end-to-end, surpassant les méthodes traditionnelles de conversion triangle-quadrilatère grâce à une tokenisation unifiée et un affinage par apprentissage par renforcement.

Jian Liu, Chunshi Wang, Song Guo + 9 more2026-03-03💻 cs

DistillKac: Few-Step Image Generation via Damped Wave Equations

Le papier présente DistillKac, un générateur d'images rapide qui utilise l'équation d'onde amortie et sa représentation stochastique de Kac pour déplacer la masse de probabilité à vitesse finie, permettant ainsi une génération de haute qualité en très peu d'évaluations tout en garantissant une stabilité numérique supérieure à celle des modèles de diffusion.

Weiqiao Han, Chenlin Meng, Christopher D. Manning + 1 more2026-03-03📊 stat

Customizing Visual Emotion Evaluation for MLLMs: An Open-vocabulary, Multifaceted, and Scalable Approach

Cet article propose un cadre d'évaluation ouvert et évolutif pour les modèles de langage multimodaux (MLLM) afin d'évaluer leur compréhension des émotions visuelles via une tâche de jugement d'énoncés automatisée, révélant ainsi des progrès significatifs tout en mettant en lumière un écart persistant par rapport à la subjectivité humaine.

Daiqing Wu, Dongbao Yang, Sicheng Zhao + 2 more2026-03-03💻 cs

COMPASS: Robust Feature Conformal Prediction for Medical Segmentation Metrics

Le papier présente COMPASS, un cadre pratique qui améliore l'efficacité et la précision de la prédiction conformale pour les métriques de segmentation médicale en effectuant une calibration directe dans l'espace des représentations des réseaux de neurones, produisant ainsi des intervalles d'incertitude plus étroits et robustes face aux décalages de covariables.

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan2026-03-03⚡ eess

CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

Le papier présente CircuitSense, une nouvelle norme de référence hiérarchique évaluant la capacité des grands modèles multimodaux à passer de la compréhension visuelle de schémas de circuits à la dérivation de modèles mathématiques symboliques, révélant ainsi un écart critique entre la reconnaissance visuelle et le raisonnement analytique dans les modèles actuels.

Arman Akbari, Jian Gao, Yifei Zou + 6 more2026-03-03💻 cs

Towards Interpretable Visual Decoding with Attention to Brain Representations

Cet article présente NeuroAdapter, un cadre de décodage visuel qui conditionne directement un modèle de diffusion latent sur des représentations cérébrales pour améliorer la qualité de reconstruction et l'interprétabilité des contributions corticales via un nouveau cadre bidirectionnel IBBI.

Pinyuan Feng, Hossein Adeli, Wenxuan Guo + 3 more2026-03-03💻 cs

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

Le papier présente DiffInk, un cadre innovant combinant un auto-encodeur variationnel (InkVAE) et un transformateur de diffusion latente (InkDiT) pour générer des lignes d'écriture manuscrite en ligne complètes avec une haute fidélité stylistique et une précision des glyphes, surpassant les méthodes actuelles en efficacité et en cohérence structurelle.

Wei Pan, Huiguo He, Hiuyi Cheng + 2 more2026-03-03💻 cs

← Précédent Suivant →