cs.CV articles | Gist.Science

Occlusion-Aware SORT: Observing Occlusion for Robust Multi-Object Tracking

Ce papier présente OA-SORT, un cadre de suivi multi-objets sans entraînement et plug-and-play qui améliore la robustesse face aux occlusions grâce à un module d'analyse d'occlusion, un décalage et une impulsion adaptatifs, démontrant des performances accrues sur plusieurs jeux de données de référence.

Chunjiang Li, Jianbo Ma, Li Shen, Yanru Chen, Liangyin Chen2026-03-09💻 cs

Ensemble Learning with Sparse Hypercolumns

Cet article propose une méthode d'apprentissage ensembliste sur des hypercolonnes éparses, obtenues par sous-échantillonnage stratifié, qui surpasse significativement la baseline UNet pour la segmentation de tumeurs cérébrales, en particulier dans des scénarios à très peu d'exemples.

Julia Dietlmeier, Vayangi Ganepola, Oluwabukola G. Adegboro, Mayug Maniparambil, Claudia Mazo, Noel E. O'Connor2026-03-09💻 cs

FontUse: A Data-Centric Approach to Style- and Use-Case-Conditioned In-Image Typography

Le papier présente FontUse, une approche centrée sur les données qui améliore la génération de typographie dans les images en entraînant des modèles sur un jeu de données structuré de 70 000 images annotées avec des styles de police et des cas d'usage, permettant ainsi un contrôle précis et intuitif sans modification architecturale.

Xia Xin, Yuki Endo, Yoshihiro Kanamori2026-03-09💻 cs

Learning to Generate via Understanding: Understanding-Driven Intrinsic Rewarding for Unified Multimodal Models

Cette proposition de recherche introduit GvU, un mécanisme de récompense intrinsèque auto-supervisé qui exploite la capacité de compréhension d'un modèle multimodal unifié pour guider et améliorer sa génération d'images, réduisant ainsi l'écart de performance entre ces deux tâches.

Jiadong Pan, Liang Li, Yuxin Peng, Yu-Ming Tang, Shuohuan Wang, Yu Sun, Hua Wu, Qingming Huang, Haifeng Wang2026-03-09💻 cs

GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection

Le papier présente GenHOI, une méthode légère qui améliore la cohérence des interactions main-objet dans la synthèse vidéo en injectant des informations de référence de manière temporellement équilibrée et spatialement sélective, surpassant ainsi les méthodes actuelles dans des scénarios complexes non vus.

Xuan Huang, Mochu Xiang, Zhelun Shen, Jinbo Wu, Chenming Wu, Chen Zhao, Kaisiyuan Wang, Hang Zhou, Shanshan Liu, Haocheng Feng, Wei He, Jingdong Wang2026-03-09💻 cs

Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models

Le papier propose Curious-VLA, un cadre en deux étapes intégrant l'expansion de trajectoires faisables et un échantillonnage adaptatif pour surmonter les limitations des politiques étroites dans les modèles VLA de conduite autonome et atteindre des performances record sur le benchmark Navsim.

Canyu Chen, Yuguang Yang, Zhewen Tan, Yizhi Wang, Ruiyi Zhan, Haiyan Liu, Xuanyao Mao, Jason Bao, Xinyue Tang, Linlin Yang, Bingchuan Sun, Yan Wang, Baochang Zhang2026-03-09💻 cs

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

Cette étude analyse les défaillances des modèles vision-langage légers dans la conduite automatisée en révélant que les concepts visuels spatiaux sont souvent mal encodés et en identifiant deux modes d'échec distincts : une défaillance perceptive liée à l'absence d'encodage linéaire de l'information visuelle, et une défaillance cognitive due à un mauvais alignement entre cette information et la sémantique du langage.

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

Ce papier présente TempoSyncDiff, un cadre de diffusion latente conditionné par la référence qui utilise une distillation enseignant-élève pour générer des têtes parlantes pilotées par l'audio avec une faible latence et une stabilité temporelle accrue, visant ainsi à rendre cette technologie viable pour un déploiement sur des dispositifs aux ressources limitées.

Soumya Mazumdar, Vineet Kumar Rakesh2026-03-09🤖 cs.AI

Transforming Omnidirectional RGB-LiDAR data into 3D Gaussian Splatting

Cet article présente un pipeline innovant qui transforme des logs archivés de capteurs omnidirectionnels RGB-LiDAR en initialisations robustes pour le 3D Gaussian Splatting, permettant ainsi de générer des jumeaux numériques de haute qualité sans nécessiter de collecte de données coûteuse.

Semin Bae, Hansol Lim, Jongseong Brad Choi2026-03-09💻 cs

Text-Driven Emotionally Continuous Talking Face Generation

Cet article propose une nouvelle tâche de génération de visages parlants émotionnellement continus (EC-TFG) et un modèle dédié, TIE-TFG, capables de synthétiser des vidéos réalistes où les expressions faciales évoluent de manière fluide et naturelle en suivant les variations émotionnelles décrites dans un texte.

Hao Yang, Yanyan Zhao, Tian Zheng, Hongbo Zhang, Bichen Wang, Di Wu, Xing Fu, Xuda Zhi, Yongbo Huang, Hao He2026-03-09🤖 cs.AI

Lyapunov Probes for Hallucination Detection in Large Foundation Models

Cet article propose des « Lyapunov Probes », des réseaux légers fondés sur la théorie de la stabilité des systèmes dynamiques, pour détecter les hallucinations dans les grands modèles de langage en identifiant les régions instables de l'espace de représentation où la confiance décroît de manière monotone sous perturbation.

Bozhi Luan, Gen Li, Yalan Qin, Jifeng Guo, Yun Zhou, Faguo Wu, Hongwei Zheng, Wenjun Wu, Zhaoxin Fan2026-03-09💻 cs

DeepSight: Bridging Depth Maps and Language with a Depth-Driven Multimodal Model

DeepSight est le premier modèle multimodal dédié à la compréhension des scènes en 3D qui améliore le raisonnement spatial en exploitant les caractéristiques uniques des cartes de profondeur et en s'appuyant sur un nouveau jeu de données et une architecture de vision modifiée.

Hao Yang, Hongbo Zhang, Yanyan Zhao, Bing Qin2026-03-09💬 cs.CL

Enhancing Neural Video Compression of Static Scenes with Positive-Incentive Noise

Cet article propose une méthode de compression vidéo neuronale pour les scènes statiques qui intègre un bruit à incitation positive pour distinguer les variations transitoires du fond persistant, permettant ainsi de réduire considérablement le débit de données tout en préservant la fidélité pixelique.

Cheng Yuan, Zhenyu Jia, Jiawei Shao, Xuelong Li2026-03-09💻 cs

FedARKS: Federated Aggregation via Robust and Discriminative Knowledge Selection and Integration for Person Re-identification

Le papier propose FedARKS, un cadre d'apprentissage fédéré innovant pour la réidentification de personnes qui améliore la généralisation de domaine en sélectionnant et intégrant des connaissances robustes et discriminatives pour surmonter les limites des méthodes d'agrégation traditionnelles.

Xin Xu, Binchang Ma, Zhixi Yu, Wei Liu2026-03-09💻 cs

Cross-Resolution Distribution Matching for Diffusion Distillation

L'article propose RMD, un nouveau cadre de distillation qui comble les écarts de distribution entre résolutions grâce à une correspondance logarithmique du rapport signal-sur-bruit et à une réinjection de bruit, permettant ainsi d'accélérer considérablement la génération d'images et de vidéos tout en préservant une haute fidélité visuelle.

Feiyang Chen, Hongpeng Pan, Haonan Xu, Xinyu Duan, Yang Yang, Zhefeng Wang2026-03-09💻 cs

Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion

Le papier présente Place-it-R1, un cadre end-to-end qui exploite le raisonnement de type « chaîne de pensée » des modèles de langage multimodaux pour orchestrer l'insertion d'objets dans des vidéos, garantissant ainsi une cohérence physique et causale avec l'environnement grâce à une boucle de rétroaction itérative et à des modes de contrôle adaptatifs.

Bohai Gu, Taiyi Wu, Dazhao Du, Jian Liu, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo2026-03-09🤖 cs.AI

Spatial Colour Mixing Illusions as a Perception Stress Test for Vision-Language Models

Cette étude révèle que les modèles vision-langage échouent systématiquement face à des distorsions chromatiques spatiales qui ne perturbent pas la perception humaine, démontrant ainsi la nécessité d'intégrer des prétraitements inspirés de la perception pour améliorer leur robustesse.

Nicoleta-Nina Basoc, Adrian Cosma, Emilian Radoi2026-03-09💻 cs

Longitudinal NSCLC Treatment Progression via Multimodal Generative Models

Cette étude propose un cadre de traitement virtuel basé sur des modèles génératifs multimodaux pour prédire l'évolution des tumeurs du cancer du poumon non à petites cellules sous radiothérapie, démontrant que les modèles de diffusion surpassent les GAN en produisant des trajectoires d'évolution tumorale plus stables et anatomiquement plausibles grâce à une conditionnement sensible à la dose.

Massimiliano Mantegna, Elena Mulero Ayllón, Alice Natalina Caragliano, Francesco Di Feola, Claudia Tacconi, Michele Fiore, Edy Ippolito, Carlo Greco, Sara Ramella, Philippe C. Cattin, Paolo Soda, Matteo Tortora, Valerio Guarrasi2026-03-09💻 cs

VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models

Le papier présente VLM-RobustBench, un benchmark complet évaluant la robustesse des modèles vision-langage face à 133 types de perturbations, révélant que ces modèles, bien que sémantiquement puissants, sont spatialement fragiles et que les déformations géométriques et de rééchantillonnage dégradent leurs performances bien plus que les corruptions photométriques sévères.

Rohit Saxena, Alessandro Suglia, Pasquale Minervini2026-03-09🤖 cs.AI

Reflective Flow Sampling Enhancement

Cet article propose RF-Sampling, une méthode d'amélioration de l'inférence sans entraînement et théoriquement fondée, conçue spécifiquement pour optimiser la qualité de génération et l'alignement avec le texte des modèles de flux comme FLUX en effectuant une ascension de gradient implicite sur le score d'alignement.

Zikai Zhou, Muyao Wang, Shitong Shao, Lichen Bai, Haoyi Xiong, Bo Han, Zeke Xie2026-03-09🤖 cs.AI

← Précédent Suivant →