Learning to Generate via Understanding: Understanding-Driven Intrinsic Rewarding for Unified Multimodal Models

Cette proposition de recherche introduit GvU, un mécanisme de récompense intrinsèque auto-supervisé qui exploite la capacité de compréhension d'un modèle multimodal unifié pour guider et améliorer sa génération d'images, réduisant ainsi l'écart de performance entre ces deux tâches.

Jiadong Pan, Liang Li, Yuxin Peng, Yu-Ming Tang, Shuohuan Wang, Yu Sun, Hua Wu, Qingming Huang, Haifeng Wang2026-03-09💻 cs

GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection

Le papier présente GenHOI, une méthode légère qui améliore la cohérence des interactions main-objet dans la synthèse vidéo en injectant des informations de référence de manière temporellement équilibrée et spatialement sélective, surpassant ainsi les méthodes actuelles dans des scénarios complexes non vus.

Xuan Huang, Mochu Xiang, Zhelun Shen, Jinbo Wu, Chenming Wu, Chen Zhao, Kaisiyuan Wang, Hang Zhou, Shanshan Liu, Haocheng Feng, Wei He, Jingdong Wang2026-03-09💻 cs

Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models

Le papier propose Curious-VLA, un cadre en deux étapes intégrant l'expansion de trajectoires faisables et un échantillonnage adaptatif pour surmonter les limitations des politiques étroites dans les modèles VLA de conduite autonome et atteindre des performances record sur le benchmark Navsim.

Canyu Chen, Yuguang Yang, Zhewen Tan, Yizhi Wang, Ruiyi Zhan, Haiyan Liu, Xuanyao Mao, Jason Bao, Xinyue Tang, Linlin Yang, Bingchuan Sun, Yan Wang, Baochang Zhang2026-03-09💻 cs

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

Cette étude analyse les défaillances des modèles vision-langage légers dans la conduite automatisée en révélant que les concepts visuels spatiaux sont souvent mal encodés et en identifiant deux modes d'échec distincts : une défaillance perceptive liée à l'absence d'encodage linéaire de l'information visuelle, et une défaillance cognitive due à un mauvais alignement entre cette information et la sémantique du langage.

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

Ce papier présente TempoSyncDiff, un cadre de diffusion latente conditionné par la référence qui utilise une distillation enseignant-élève pour générer des têtes parlantes pilotées par l'audio avec une faible latence et une stabilité temporelle accrue, visant ainsi à rendre cette technologie viable pour un déploiement sur des dispositifs aux ressources limitées.

Soumya Mazumdar, Vineet Kumar Rakesh2026-03-09🤖 cs.AI

Text-Driven Emotionally Continuous Talking Face Generation

Cet article propose une nouvelle tâche de génération de visages parlants émotionnellement continus (EC-TFG) et un modèle dédié, TIE-TFG, capables de synthétiser des vidéos réalistes où les expressions faciales évoluent de manière fluide et naturelle en suivant les variations émotionnelles décrites dans un texte.

Hao Yang, Yanyan Zhao, Tian Zheng, Hongbo Zhang, Bichen Wang, Di Wu, Xing Fu, Xuda Zhi, Yongbo Huang, Hao He2026-03-09🤖 cs.AI

Lyapunov Probes for Hallucination Detection in Large Foundation Models

Cet article propose des « Lyapunov Probes », des réseaux légers fondés sur la théorie de la stabilité des systèmes dynamiques, pour détecter les hallucinations dans les grands modèles de langage en identifiant les régions instables de l'espace de représentation où la confiance décroît de manière monotone sous perturbation.

Bozhi Luan, Gen Li, Yalan Qin, Jifeng Guo, Yun Zhou, Faguo Wu, Hongwei Zheng, Wenjun Wu, Zhaoxin Fan2026-03-09💻 cs

Cross-Resolution Distribution Matching for Diffusion Distillation

L'article propose RMD, un nouveau cadre de distillation qui comble les écarts de distribution entre résolutions grâce à une correspondance logarithmique du rapport signal-sur-bruit et à une réinjection de bruit, permettant ainsi d'accélérer considérablement la génération d'images et de vidéos tout en préservant une haute fidélité visuelle.

Feiyang Chen, Hongpeng Pan, Haonan Xu, Xinyu Duan, Yang Yang, Zhefeng Wang2026-03-09💻 cs

Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion

Le papier présente Place-it-R1, un cadre end-to-end qui exploite le raisonnement de type « chaîne de pensée » des modèles de langage multimodaux pour orchestrer l'insertion d'objets dans des vidéos, garantissant ainsi une cohérence physique et causale avec l'environnement grâce à une boucle de rétroaction itérative et à des modes de contrôle adaptatifs.

Bohai Gu, Taiyi Wu, Dazhao Du, Jian Liu, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo2026-03-09🤖 cs.AI

Longitudinal NSCLC Treatment Progression via Multimodal Generative Models

Cette étude propose un cadre de traitement virtuel basé sur des modèles génératifs multimodaux pour prédire l'évolution des tumeurs du cancer du poumon non à petites cellules sous radiothérapie, démontrant que les modèles de diffusion surpassent les GAN en produisant des trajectoires d'évolution tumorale plus stables et anatomiquement plausibles grâce à une conditionnement sensible à la dose.

Massimiliano Mantegna, Elena Mulero Ayllón, Alice Natalina Caragliano, Francesco Di Feola, Claudia Tacconi, Michele Fiore, Edy Ippolito, Carlo Greco, Sara Ramella, Philippe C. Cattin, Paolo Soda, Matteo Tortora, Valerio Guarrasi2026-03-09💻 cs

VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models

Le papier présente VLM-RobustBench, un benchmark complet évaluant la robustesse des modèles vision-langage face à 133 types de perturbations, révélant que ces modèles, bien que sémantiquement puissants, sont spatialement fragiles et que les déformations géométriques et de rééchantillonnage dégradent leurs performances bien plus que les corruptions photométriques sévères.

Rohit Saxena, Alessandro Suglia, Pasquale Minervini2026-03-09🤖 cs.AI