cs.CV articles | Gist.Science

Rethinking Visual Token Reduction in LVLMs Under Cross-Modal Misalignment

Cet article présente VisionDrop, un cadre d'élagage visuel sans entraînement qui surmonte les désalignements intermodaux en sélectionnant des tokens visuels informatifs via une attention intra-modale, réduisant ainsi considérablement la latence et le coût computationnel des modèles vision-langage tout en préservant leurs performances.

Rui Xu, Yunke Wang, Yong Luo + 1 more2026-03-03💻 cs

EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation

EchoMimicV3 est un cadre efficace de 1,3 milliard de paramètres qui unifie l'animation humaine multi-tâches et multi-modale grâce à des paradigmes innovants et des stratégies d'entraînement avancées, permettant d'obtenir des performances compétitives tout en réduisant les coûts computationnels.

Rang Meng, Yan Wang, Weipeng Wu + 3 more2026-03-03💻 cs

CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering

Ce papier propose CLiFT, une méthode de rendu neuronal adaptatif qui représente les scènes sous forme de « jetons de champ lumineux compressés » pour offrir un compromis efficace entre la taille des données, la qualité du rendu et la vitesse de calcul tout en permettant de moduler dynamiquement le nombre de jetons utilisés.

Zhengqing Wang, Yuefan Wu, Jiacheng Chen + 2 more2026-03-03💻 cs

Advancing Complex Video Object Segmentation via Progressive Concept Construction

Ce papier présente SeC, un cadre de segmentation d'objets vidéo basé sur la construction progressive de concepts via des modèles vision-langage, qui établit un nouvel état de l'art en surpassant SAM 2 de 11,8 points sur le nouveau benchmark SeCVOS dédié aux scénarios sémantiquement complexes.

Zhixiong Zhang, Shuangrui Ding, Xiaoyi Dong + 7 more2026-03-03🤖 cs.AI

Digital and Robotic Twinning for Validation of Proximity Operations and Formation Flying

Cet article présente un cadre unifié de jumeaux numériques et robotiques, intégrant des environnements de simulation et des bancs d'essai robotisés du laboratoire SLAB de Stanford, pour valider de manière fiable et modulaire les systèmes de guidage, de navigation et de contrôle (GNC) des opérations de rendez-vous spatial et de vol en formation.

Z. Ahmed, E. Bates, P. Francesch Huc + 5 more2026-03-03💻 cs

MonoFusion: Sparse-View 4D Reconstruction via Monocular Fusion

Le papier MonoFusion propose une méthode pour reconstruire des scènes dynamiques à partir d'un petit nombre de vues monoculaires en alignant soigneusement les reconstructions indépendantes de chaque caméra, surpassant ainsi les approches précédentes qui nécessitent des captures multi-vues denses et coûteuses.

Zihan Wang, Jeff Tan, Tarasha Khurana + 2 more2026-03-03💻 cs

HGTS-Former: Hierarchical HyperGraph Transformer for Multivariate Time Series Analysis

Cet article propose HGTS-Former, un nouveau modèle Transformer basé sur des hypergraphes hiérarchiques conçu pour améliorer l'analyse des séries temporelles multivariées en capturant les interactions complexes entre les variables, tout en présentant le nouveau jeu de données à grande échelle EAST-ELM640 pour la reconnaissance des modes localisés de bord (ELM) dans la fusion nucléaire.

Hao Si, Xiao Wang, Fan Zhang + 5 more2026-03-03🤖 cs.AI

Fast Magnetic Resonance Simulation Using Combined Update with Grouped Isochromats

Cet article propose une nouvelle méthode de simulation IRM rapide qui regroupe les isochromates partageant des propriétés communes pour réduire considérablement les temps de calcul, offrant un gain de vitesse de 3 à 72 fois par rapport aux approches conventionnelles.

Hidenori Takeshima2026-03-03⚡ eess

Learning Robust Intervention Representations with Delta Embeddings

Cet article propose d'améliorer la robustesse hors distribution en représentant les interventions par des « Causal Delta Embeddings » invariants visuellement et parcimonieux, permettant d'apprendre des représentations causales à partir de paires d'images sans supervision supplémentaire.

Panagiotis Alimisis, Christos Diou2026-03-03🤖 cs.AI

Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

L'article présente Uni-CoT, un cadre de raisonnement en chaîne de pensée unifié qui combine la compréhension et la génération d'images pour effectuer un raisonnement multimodal cohérent et évolutif grâce à une nouvelle paradigme de raisonnement à deux niveaux, atteignant des performances de pointe sur des benchmarks d'édition et de génération d'images tout en étant entraîné efficacement sur seulement 8 GPU A100.

Luozheng Qin, Jia Gong, Yuqing Sun + 6 more2026-03-03💬 cs.CL

ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving

Le papier présente ImagiDrive, un cadre unifié d'imagination et de planification pour la conduite autonome qui intègre un agent de conduite basé sur des modèles vision-langage et un imaginateur de scènes fondé sur des modèles mondiaux de conduite pour affiner itérativement les décisions de trajectoire et améliorer la sécurité dans des environnements dynamiques.

Jingyu Li, Bozhou Zhang, Xin Jin + 3 more2026-03-03💻 cs

CineTrans: Learning to Generate Videos with Cinematic Transitions via Masked Diffusion Models

CineTrans est un cadre novateur qui génère des vidéos multi-plans cohérentes avec des transitions cinématographiques fluides en exploitant une nouvelle base de données annotée et un mécanisme de contrôle basé sur des masques dérivé des cartes d'attention des modèles de diffusion.

Xiaoxue Wu, Bingjie Gao, Yu Qiao + 2 more2026-03-03💻 cs

MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding

Ce papier présente MOON, le premier modèle génératif basé sur un grand modèle de langage multimodal (MLLM) conçu pour l'apprentissage de représentations produits dans le commerce électronique, qui surmonte les limites des architectures discriminatives existantes grâce à un module MoE guidé, une détection de régions sémantiques clés et une stratégie d'échantillonnage négatif, tout en introduisant un nouveau benchmark multimodal à grande échelle nommé MBE.

Daoze Zhang, Chenghan Fu, Zhanheng Nie + 7 more2026-03-03🤖 cs.AI

Next Visual Granularity Generation

Les auteurs proposent un nouveau cadre de génération d'images, NVG, qui décompose la création visuelle en une séquence hiérarchique de granularités croissantes, permettant un contrôle fin et surpassant les performances de l'état de l'art VAR sur le dataset ImageNet.

Yikai Wang, Zhouxia Wang, Zhonghua Wu + 3 more2026-03-03🤖 cs.AI

Adaptive Reinforcement for Open-ended Medical Reasoning via Semantic-Guided Reward Collapse Mitigation

Ce papier présente ARMed, un cadre d'apprentissage par renforcement adaptatif qui surmonte l'effondrement des récompenses sémantiques pour améliorer le raisonnement médical ouvert et la généralisation des modèles vision-langage.

Yizhou Liu, Dingkang Yang, Zizhi Chen + 5 more2026-03-03💻 cs

Disentangled Multi-modal Learning of Histology and Transcriptomics for Cancer Characterization

Cet article propose un cadre d'apprentissage multi-modal désintriqué qui améliore la caractérisation du cancer en surmontant l'hétérogénéité des modalités et la dépendance aux données appariées grâce à une fusion désintriquée, une intégration multi-échelle et une distillation de connaissances.

Yupei Zhang, Xiaofei Wang, Anran Liu + 2 more2026-03-03⚡ eess

Time-Aware One Step Diffusion Network for Real-World Image Super-Resolution

L'article propose TADSR, un réseau de diffusion en une seule étape pour la super-résolution d'images réelles qui améliore les performances et permet un compromis contrôlable entre fidélité et réalisme en exploitant dynamiquement les priors génératifs du modèle Stable Diffusion à différents pas de temps grâce à un encodeur VAE et une fonction de perte adaptés au temps.

Tianyi Zhang, Zheng-Peng Duan, Peng-Tao Jiang + 4 more2026-03-03⚡ eess

FastAvatar: Towards Unified and Fast 3D Avatar Reconstruction with Large Gaussian Reconstruction Transformers

FastAvatar est un cadre de reconstruction d'avatars 3D unifié et rapide qui utilise un grand transformateur de reconstruction gaussienne (LGRT) pour générer en quelques secondes des modèles 3DGS de haute qualité à partir de diverses sources d'images ou vidéos quotidiennes, tout en permettant une reconstruction incrémentielle et une qualité ajustable.

Yue Wu, Xuanhong Chen, Yufan Wu + 3 more2026-03-03💻 cs

Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

Cet article propose GACD, une méthode d'inférence basée sur les gradients qui atténue les hallucinations des modèles multimodaux en estimant et en rééquilibrant les biais textuels et visuels sans nécessiter de fine-tuning.

Shan Wang, Maying Shen, Nadine Chang + 3 more2026-03-03💬 cs.CL

RTGMFF: Enhanced fMRI-based Brain Disorder Diagnosis via ROI-driven Text Generation and Multimodal Feature Fusion

Le papier présente RTGMFF, un cadre innovant qui améliore le diagnostic des troubles cérébraux à partir de l'IRMf en générant automatiquement des descriptions textuelles des régions d'intérêt et en fusionnant ces informations avec des caractéristiques multimodales via un encodeur hybride et un module d'alignement sémantique.

Junhao Jia, Yifei Sun, Yunyou Liu + 5 more2026-03-03💻 cs

← Précédent Suivant →