cs.CV articles | Gist.Science

Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration

Cet article présente IGAR, une méthode d'inférence sans réentraînement qui corrige la « cécité linguistique » des modèles VLA en recalibrant leur attention pour rétablir la primauté des instructions textuelles sur les biais visuels lors de la génération d'actions robotiques.

Ninghao Zhang, Bin Zhu, Shijie Zhou, Jingjing Chen2026-03-09🤖 cs.AI

Demystifying KAN for Vision Tasks: The RepKAN Approach

Le papier propose RepKAN, une architecture innovante intégrant l'efficacité des CNN et la puissance non linéaire des KAN pour la classification d'images de télédétection, offrant ainsi des résultats performants et une interprétabilité physique supérieure sur des jeux de données comme EuroSAT et NWPU-RESISC45.

Minjong Cheon2026-03-09🤖 cs.AI

EffectMaker: Unifying Reasoning and Generation for Customized Visual Effect Creation

Le papier présente EffectMaker, un cadre unifié de raisonnement et de génération qui, grâce à un modèle de langage multimodal et un transformateur de diffusion, permet la création personnalisée d'effets visuels vidéo sans fine-tuning par effet, soutenu par un nouveau jeu de données synthétiques nommé EffectData.

Shiyuan Yang, Ruihuang Li, Jiale Tao, Shuai Shao, Qinglin Lu, Jing Liao2026-03-09💻 cs

MOSIV: Multi-Object System Identification from Videos

Ce papier présente MOSIV, un nouveau cadre qui identifie les paramètres matériels continus de multiples objets à partir de vidéos en optimisant directement via un simulateur différentiable guidé par des objectifs géométriques, surpassant ainsi les méthodes existantes sur un nouveau benchmark synthétique d'interactions riches.

Chunjiang Liu, Xiaoyuan Wang, Qingran Lin, Albert Xiao, Haoyu Chen, Shizheng Wen, Hao Zhang, Lu Qi, Ming-Hsuan Yang, Laszlo A. Jeni, Min Xu, Yizhou Zhao2026-03-09💻 cs

ViewFusion: Structured Spatial Thinking Chains for Multi-View Reasoning

Le papier présente ViewFusion, un cadre en deux étapes qui améliore le raisonnement spatial multi-vues en séparant explicitement l'alignement spatial préalable de la réponse aux questions, permettant ainsi aux modèles de vision-langage de mieux exploiter les relations inter-vues et d'obtenir des performances supérieures sur les tâches d'occlusion et de transformation de point de vue.

Xingjian Tao, Yiwei Wang, Yujun Cai, Yifan Song, Jing Tang2026-03-09💬 cs.CL

StruVis: Enhancing Reasoning-based Text-to-Image Generation via Thinking with Structured Vision

Le papier présente StruVis, un cadre novateur qui améliore la génération d'images à partir de texte basée sur le raisonnement en utilisant des représentations visuelles structurées textuelles comme états intermédiaires, permettant ainsi aux modèles de langage multimodaux de mieux percevoir la structure visuelle sans générer d'images intermédiaires coûteuses.

Yuanhuiyi Lyu, Kaiyu Lei, Ziqiao Weng, Xu Zheng, Lutao Jiang, Teng Li, Yangfu Li, Ziyuan Huang, Linfeng Zhang, Xuming Hu2026-03-09💻 cs

Occlusion-Aware SORT: Observing Occlusion for Robust Multi-Object Tracking

Ce papier présente OA-SORT, un cadre de suivi multi-objets sans entraînement et plug-and-play qui améliore la robustesse face aux occlusions grâce à un module d'analyse d'occlusion, un décalage et une impulsion adaptatifs, démontrant des performances accrues sur plusieurs jeux de données de référence.

Chunjiang Li, Jianbo Ma, Li Shen, Yanru Chen, Liangyin Chen2026-03-09💻 cs

Ensemble Learning with Sparse Hypercolumns

Cet article propose une méthode d'apprentissage ensembliste sur des hypercolonnes éparses, obtenues par sous-échantillonnage stratifié, qui surpasse significativement la baseline UNet pour la segmentation de tumeurs cérébrales, en particulier dans des scénarios à très peu d'exemples.

Julia Dietlmeier, Vayangi Ganepola, Oluwabukola G. Adegboro, Mayug Maniparambil, Claudia Mazo, Noel E. O'Connor2026-03-09💻 cs

FontUse: A Data-Centric Approach to Style- and Use-Case-Conditioned In-Image Typography

Le papier présente FontUse, une approche centrée sur les données qui améliore la génération de typographie dans les images en entraînant des modèles sur un jeu de données structuré de 70 000 images annotées avec des styles de police et des cas d'usage, permettant ainsi un contrôle précis et intuitif sans modification architecturale.

Xia Xin, Yuki Endo, Yoshihiro Kanamori2026-03-09💻 cs

Learning to Generate via Understanding: Understanding-Driven Intrinsic Rewarding for Unified Multimodal Models

Cette proposition de recherche introduit GvU, un mécanisme de récompense intrinsèque auto-supervisé qui exploite la capacité de compréhension d'un modèle multimodal unifié pour guider et améliorer sa génération d'images, réduisant ainsi l'écart de performance entre ces deux tâches.

Jiadong Pan, Liang Li, Yuxin Peng, Yu-Ming Tang, Shuohuan Wang, Yu Sun, Hua Wu, Qingming Huang, Haifeng Wang2026-03-09💻 cs

GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection

Le papier présente GenHOI, une méthode légère qui améliore la cohérence des interactions main-objet dans la synthèse vidéo en injectant des informations de référence de manière temporellement équilibrée et spatialement sélective, surpassant ainsi les méthodes actuelles dans des scénarios complexes non vus.

Xuan Huang, Mochu Xiang, Zhelun Shen, Jinbo Wu, Chenming Wu, Chen Zhao, Kaisiyuan Wang, Hang Zhou, Shanshan Liu, Haocheng Feng, Wei He, Jingdong Wang2026-03-09💻 cs

Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models

Le papier propose Curious-VLA, un cadre en deux étapes intégrant l'expansion de trajectoires faisables et un échantillonnage adaptatif pour surmonter les limitations des politiques étroites dans les modèles VLA de conduite autonome et atteindre des performances record sur le benchmark Navsim.

Canyu Chen, Yuguang Yang, Zhewen Tan, Yizhi Wang, Ruiyi Zhan, Haiyan Liu, Xuanyao Mao, Jason Bao, Xinyue Tang, Linlin Yang, Bingchuan Sun, Yan Wang, Baochang Zhang2026-03-09💻 cs

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

Cette étude analyse les défaillances des modèles vision-langage légers dans la conduite automatisée en révélant que les concepts visuels spatiaux sont souvent mal encodés et en identifiant deux modes d'échec distincts : une défaillance perceptive liée à l'absence d'encodage linéaire de l'information visuelle, et une défaillance cognitive due à un mauvais alignement entre cette information et la sémantique du langage.

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

Ce papier présente TempoSyncDiff, un cadre de diffusion latente conditionné par la référence qui utilise une distillation enseignant-élève pour générer des têtes parlantes pilotées par l'audio avec une faible latence et une stabilité temporelle accrue, visant ainsi à rendre cette technologie viable pour un déploiement sur des dispositifs aux ressources limitées.

Soumya Mazumdar, Vineet Kumar Rakesh2026-03-09🤖 cs.AI

Transforming Omnidirectional RGB-LiDAR data into 3D Gaussian Splatting

Cet article présente un pipeline innovant qui transforme des logs archivés de capteurs omnidirectionnels RGB-LiDAR en initialisations robustes pour le 3D Gaussian Splatting, permettant ainsi de générer des jumeaux numériques de haute qualité sans nécessiter de collecte de données coûteuse.

Semin Bae, Hansol Lim, Jongseong Brad Choi2026-03-09💻 cs

Text-Driven Emotionally Continuous Talking Face Generation

Cet article propose une nouvelle tâche de génération de visages parlants émotionnellement continus (EC-TFG) et un modèle dédié, TIE-TFG, capables de synthétiser des vidéos réalistes où les expressions faciales évoluent de manière fluide et naturelle en suivant les variations émotionnelles décrites dans un texte.

Hao Yang, Yanyan Zhao, Tian Zheng, Hongbo Zhang, Bichen Wang, Di Wu, Xing Fu, Xuda Zhi, Yongbo Huang, Hao He2026-03-09🤖 cs.AI

Lyapunov Probes for Hallucination Detection in Large Foundation Models

Cet article propose des « Lyapunov Probes », des réseaux légers fondés sur la théorie de la stabilité des systèmes dynamiques, pour détecter les hallucinations dans les grands modèles de langage en identifiant les régions instables de l'espace de représentation où la confiance décroît de manière monotone sous perturbation.

Bozhi Luan, Gen Li, Yalan Qin, Jifeng Guo, Yun Zhou, Faguo Wu, Hongwei Zheng, Wenjun Wu, Zhaoxin Fan2026-03-09💻 cs

DeepSight: Bridging Depth Maps and Language with a Depth-Driven Multimodal Model

DeepSight est le premier modèle multimodal dédié à la compréhension des scènes en 3D qui améliore le raisonnement spatial en exploitant les caractéristiques uniques des cartes de profondeur et en s'appuyant sur un nouveau jeu de données et une architecture de vision modifiée.

Hao Yang, Hongbo Zhang, Yanyan Zhao, Bing Qin2026-03-09💬 cs.CL

Enhancing Neural Video Compression of Static Scenes with Positive-Incentive Noise

Cet article propose une méthode de compression vidéo neuronale pour les scènes statiques qui intègre un bruit à incitation positive pour distinguer les variations transitoires du fond persistant, permettant ainsi de réduire considérablement le débit de données tout en préservant la fidélité pixelique.

Cheng Yuan, Zhenyu Jia, Jiawei Shao, Xuelong Li2026-03-09💻 cs

FedARKS: Federated Aggregation via Robust and Discriminative Knowledge Selection and Integration for Person Re-identification

Le papier propose FedARKS, un cadre d'apprentissage fédéré innovant pour la réidentification de personnes qui améliore la généralisation de domaine en sélectionnant et intégrant des connaissances robustes et discriminatives pour surmonter les limites des méthodes d'agrégation traditionnelles.

Xin Xu, Binchang Ma, Zhixi Yu, Wei Liu2026-03-09💻 cs

← Précédent Suivant →