cs.CV articles | Gist.Science

Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

L'article présente Uni-CoT, un cadre de raisonnement en chaîne de pensée unifié qui combine la compréhension et la génération d'images pour effectuer un raisonnement multimodal cohérent et évolutif grâce à une nouvelle paradigme de raisonnement à deux niveaux, atteignant des performances de pointe sur des benchmarks d'édition et de génération d'images tout en étant entraîné efficacement sur seulement 8 GPU A100.

Luozheng Qin, Jia Gong, Yuqing Sun + 6 more2026-03-03💬 cs.CL

ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving

Le papier présente ImagiDrive, un cadre unifié d'imagination et de planification pour la conduite autonome qui intègre un agent de conduite basé sur des modèles vision-langage et un imaginateur de scènes fondé sur des modèles mondiaux de conduite pour affiner itérativement les décisions de trajectoire et améliorer la sécurité dans des environnements dynamiques.

Jingyu Li, Bozhou Zhang, Xin Jin + 3 more2026-03-03💻 cs

CineTrans: Learning to Generate Videos with Cinematic Transitions via Masked Diffusion Models

CineTrans est un cadre novateur qui génère des vidéos multi-plans cohérentes avec des transitions cinématographiques fluides en exploitant une nouvelle base de données annotée et un mécanisme de contrôle basé sur des masques dérivé des cartes d'attention des modèles de diffusion.

Xiaoxue Wu, Bingjie Gao, Yu Qiao + 2 more2026-03-03💻 cs

MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding

Ce papier présente MOON, le premier modèle génératif basé sur un grand modèle de langage multimodal (MLLM) conçu pour l'apprentissage de représentations produits dans le commerce électronique, qui surmonte les limites des architectures discriminatives existantes grâce à un module MoE guidé, une détection de régions sémantiques clés et une stratégie d'échantillonnage négatif, tout en introduisant un nouveau benchmark multimodal à grande échelle nommé MBE.

Daoze Zhang, Chenghan Fu, Zhanheng Nie + 7 more2026-03-03🤖 cs.AI

Next Visual Granularity Generation

Les auteurs proposent un nouveau cadre de génération d'images, NVG, qui décompose la création visuelle en une séquence hiérarchique de granularités croissantes, permettant un contrôle fin et surpassant les performances de l'état de l'art VAR sur le dataset ImageNet.

Yikai Wang, Zhouxia Wang, Zhonghua Wu + 3 more2026-03-03🤖 cs.AI

Adaptive Reinforcement for Open-ended Medical Reasoning via Semantic-Guided Reward Collapse Mitigation

Ce papier présente ARMed, un cadre d'apprentissage par renforcement adaptatif qui surmonte l'effondrement des récompenses sémantiques pour améliorer le raisonnement médical ouvert et la généralisation des modèles vision-langage.

Yizhou Liu, Dingkang Yang, Zizhi Chen + 5 more2026-03-03💻 cs

Disentangled Multi-modal Learning of Histology and Transcriptomics for Cancer Characterization

Cet article propose un cadre d'apprentissage multi-modal désintriqué qui améliore la caractérisation du cancer en surmontant l'hétérogénéité des modalités et la dépendance aux données appariées grâce à une fusion désintriquée, une intégration multi-échelle et une distillation de connaissances.

Yupei Zhang, Xiaofei Wang, Anran Liu + 2 more2026-03-03⚡ eess

Time-Aware One Step Diffusion Network for Real-World Image Super-Resolution

L'article propose TADSR, un réseau de diffusion en une seule étape pour la super-résolution d'images réelles qui améliore les performances et permet un compromis contrôlable entre fidélité et réalisme en exploitant dynamiquement les priors génératifs du modèle Stable Diffusion à différents pas de temps grâce à un encodeur VAE et une fonction de perte adaptés au temps.

Tianyi Zhang, Zheng-Peng Duan, Peng-Tao Jiang + 4 more2026-03-03⚡ eess

FastAvatar: Towards Unified and Fast 3D Avatar Reconstruction with Large Gaussian Reconstruction Transformers

FastAvatar est un cadre de reconstruction d'avatars 3D unifié et rapide qui utilise un grand transformateur de reconstruction gaussienne (LGRT) pour générer en quelques secondes des modèles 3DGS de haute qualité à partir de diverses sources d'images ou vidéos quotidiennes, tout en permettant une reconstruction incrémentielle et une qualité ajustable.

Yue Wu, Xuanhong Chen, Yufan Wu + 3 more2026-03-03💻 cs

Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

Cet article propose GACD, une méthode d'inférence basée sur les gradients qui atténue les hallucinations des modèles multimodaux en estimant et en rééquilibrant les biais textuels et visuels sans nécessiter de fine-tuning.

Shan Wang, Maying Shen, Nadine Chang + 3 more2026-03-03💬 cs.CL

RTGMFF: Enhanced fMRI-based Brain Disorder Diagnosis via ROI-driven Text Generation and Multimodal Feature Fusion

Le papier présente RTGMFF, un cadre innovant qui améliore le diagnostic des troubles cérébraux à partir de l'IRMf en générant automatiquement des descriptions textuelles des régions d'intérêt et en fusionnant ces informations avec des caractéristiques multimodales via un encodeur hybride et un module d'alignement sémantique.

Junhao Jia, Yifei Sun, Yunyou Liu + 5 more2026-03-03💻 cs

Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

Cet article présente T2I-CoReBench, un benchmark complet et complexe évaluant les capacités de composition et de raisonnement des modèles de génération d'images à partir de texte, révélant que si la composition reste limitée dans des scénarios denses, le raisonnement constitue un goulot d'étranglement critique où les modèles échouent à inférer des éléments implicites.

Ouxiang Li, Yuan Wang, Xinting Hu + 7 more2026-03-03💻 cs

UniView: Enhancing Novel View Synthesis From A Single Image By Unifying Reference Features

Le papier présente UniView, un modèle novateur qui améliore la synthèse de vues nouvelles à partir d'une seule image en unifiant les caractéristiques d'images de référence sélectionnées via un MLLM et en utilisant un mécanisme d'attention découplé pour préserver les détails tout en réduisant les distorsions.

Haowang Cui, Rui Chen, Jiaze Wang + 2 more2026-03-03💻 cs

Improved 3D Scene Stylization via Text-Guided Generative Image Editing with Region-Based Control

Cet article propose une méthode améliorée de stylisation 3D guidée par le texte qui garantit la cohérence des vues et permet un transfert de style contrôlé par région en combinant une génération de vues basée sur la profondeur et une attention partagée avec une nouvelle fonction de perte pour la correspondance sémantique.

Haruo Fujiwara, Yusuke Mukuta, Tatsuya Harada2026-03-03💻 cs

LADB: Latent Aligned Diffusion Bridges for Semi-Supervised Domain Translation

L'article propose LADB, un cadre semi-supervisé qui aligne les distributions de source et de cible dans un espace latent partagé pour permettre une traduction de domaine efficace et contrôlable avec des données partiellement appariées, surpassant les méthodes non appariées et évitant le besoin de jeux de données entièrement annotés.

Xuqin Wang, Tao Wu, Yanfeng Zhang + 6 more2026-03-03💻 cs

TrueSkin: Towards Fair and Accurate Skin Tone Recognition and Generation

Ce papier présente TrueSkin, un jeu de données de 7299 images étalonnées sur six classes de teintes de peau, conçu pour évaluer et améliorer la reconnaissance et la génération équitables et précises de ces teintes en comblant les lacunes des modèles multimodaux et génératifs actuels.

Haoming Lu2026-03-03💻 cs

BWCache: Accelerating Video Diffusion Transformers through Block-Wise Caching

Ce papier présente BWCache, une méthode sans entraînement qui accélère la génération vidéo par des Transformers de diffusion en réutilisant dynamiquement les caractéristiques des blocs lors des étapes intermédiaires grâce à un indicateur de similarité, permettant ainsi une accélération jusqu'à 6 fois sans compromettre la qualité visuelle.

Hanshuai Cui, Zhiqing Tang, Zhifei Xu + 3 more2026-03-03🤖 cs.AI

Brain-HGCN: A Hyperbolic Graph Convolutional Network for Brain Functional Network Analysis

Le papier présente Brain-HGCN, un cadre d'apprentissage profond géométrique basé sur la géométrie hyperbolique qui modélise avec fidélité la hiérarchie des réseaux fonctionnels cérébraux pour améliorer la classification des troubles psychiatriques par rapport aux méthodes euclidiennes.

Junhao Jia, Yunyou Liu, Cheng Yang + 4 more2026-03-03💻 cs

Person Identification from Egocentric Human-Object Interactions using 3D Hand Pose

Ce papier présente I2S, un cadre léger et rapide pour l'identification d'utilisateurs en temps réel dans les systèmes de réalité augmentée, qui exploite l'analyse de la pose 3D de la main et une nouvelle descripteur d'enveloppe spatiale inter-mains (IHSE) pour atteindre une précision exceptionnelle de 97,52 % lors de l'interaction humain-objet.

Muhammad Hamza, Danish Hamid, Muhammad Tahir Akram2026-03-03🤖 cs.LG

Geodesic Prototype Matching via Diffusion Maps for Interpretable Fine-Grained Recognition

Cet article présente GeoProto, une méthode de reconnaissance fine interprétable qui améliore la similarité des prototypes en s'appuyant sur la géométrie intrinsèque des caractéristiques visuelles via des cartes de diffusion et une interpolation de Nyström différentiable, surpassant ainsi les approches basées sur la distance euclidienne.

Junhao Jia, Yunyou Liu, Yifei Sun + 4 more2026-03-03💻 cs

← Précédent Suivant →