MOSIV: Multi-Object System Identification from Videos

Ce papier présente MOSIV, un nouveau cadre qui identifie les paramètres matériels continus de multiples objets à partir de vidéos en optimisant directement via un simulateur différentiable guidé par des objectifs géométriques, surpassant ainsi les méthodes existantes sur un nouveau benchmark synthétique d'interactions riches.

Chunjiang Liu, Xiaoyuan Wang, Qingran Lin, Albert Xiao, Haoyu Chen, Shizheng Wen, Hao Zhang, Lu Qi, Ming-Hsuan Yang, Laszlo A. Jeni, Min Xu, Yizhou Zhao2026-03-09💻 cs

ViewFusion: Structured Spatial Thinking Chains for Multi-View Reasoning

Le papier présente ViewFusion, un cadre en deux étapes qui améliore le raisonnement spatial multi-vues en séparant explicitement l'alignement spatial préalable de la réponse aux questions, permettant ainsi aux modèles de vision-langage de mieux exploiter les relations inter-vues et d'obtenir des performances supérieures sur les tâches d'occlusion et de transformation de point de vue.

Xingjian Tao, Yiwei Wang, Yujun Cai, Yifan Song, Jing Tang2026-03-09💬 cs.CL

StruVis: Enhancing Reasoning-based Text-to-Image Generation via Thinking with Structured Vision

Le papier présente StruVis, un cadre novateur qui améliore la génération d'images à partir de texte basée sur le raisonnement en utilisant des représentations visuelles structurées textuelles comme états intermédiaires, permettant ainsi aux modèles de langage multimodaux de mieux percevoir la structure visuelle sans générer d'images intermédiaires coûteuses.

Yuanhuiyi Lyu, Kaiyu Lei, Ziqiao Weng, Xu Zheng, Lutao Jiang, Teng Li, Yangfu Li, Ziyuan Huang, Linfeng Zhang, Xuming Hu2026-03-09💻 cs

Learning to Generate via Understanding: Understanding-Driven Intrinsic Rewarding for Unified Multimodal Models

Cette proposition de recherche introduit GvU, un mécanisme de récompense intrinsèque auto-supervisé qui exploite la capacité de compréhension d'un modèle multimodal unifié pour guider et améliorer sa génération d'images, réduisant ainsi l'écart de performance entre ces deux tâches.

Jiadong Pan, Liang Li, Yuxin Peng, Yu-Ming Tang, Shuohuan Wang, Yu Sun, Hua Wu, Qingming Huang, Haifeng Wang2026-03-09💻 cs

GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection

Le papier présente GenHOI, une méthode légère qui améliore la cohérence des interactions main-objet dans la synthèse vidéo en injectant des informations de référence de manière temporellement équilibrée et spatialement sélective, surpassant ainsi les méthodes actuelles dans des scénarios complexes non vus.

Xuan Huang, Mochu Xiang, Zhelun Shen, Jinbo Wu, Chenming Wu, Chen Zhao, Kaisiyuan Wang, Hang Zhou, Shanshan Liu, Haocheng Feng, Wei He, Jingdong Wang2026-03-09💻 cs

Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models

Le papier propose Curious-VLA, un cadre en deux étapes intégrant l'expansion de trajectoires faisables et un échantillonnage adaptatif pour surmonter les limitations des politiques étroites dans les modèles VLA de conduite autonome et atteindre des performances record sur le benchmark Navsim.

Canyu Chen, Yuguang Yang, Zhewen Tan, Yizhi Wang, Ruiyi Zhan, Haiyan Liu, Xuanyao Mao, Jason Bao, Xinyue Tang, Linlin Yang, Bingchuan Sun, Yan Wang, Baochang Zhang2026-03-09💻 cs

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

Cette étude analyse les défaillances des modèles vision-langage légers dans la conduite automatisée en révélant que les concepts visuels spatiaux sont souvent mal encodés et en identifiant deux modes d'échec distincts : une défaillance perceptive liée à l'absence d'encodage linéaire de l'information visuelle, et une défaillance cognitive due à un mauvais alignement entre cette information et la sémantique du langage.

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI

TempoSyncDiff: Distilled Temporally-Consistent Diffusion for Low-Latency Audio-Driven Talking Head Generation

Ce papier présente TempoSyncDiff, un cadre de diffusion latente conditionné par la référence qui utilise une distillation enseignant-élève pour générer des têtes parlantes pilotées par l'audio avec une faible latence et une stabilité temporelle accrue, visant ainsi à rendre cette technologie viable pour un déploiement sur des dispositifs aux ressources limitées.

Soumya Mazumdar, Vineet Kumar Rakesh2026-03-09🤖 cs.AI

Text-Driven Emotionally Continuous Talking Face Generation

Cet article propose une nouvelle tâche de génération de visages parlants émotionnellement continus (EC-TFG) et un modèle dédié, TIE-TFG, capables de synthétiser des vidéos réalistes où les expressions faciales évoluent de manière fluide et naturelle en suivant les variations émotionnelles décrites dans un texte.

Hao Yang, Yanyan Zhao, Tian Zheng, Hongbo Zhang, Bichen Wang, Di Wu, Xing Fu, Xuda Zhi, Yongbo Huang, Hao He2026-03-09🤖 cs.AI

Lyapunov Probes for Hallucination Detection in Large Foundation Models

Cet article propose des « Lyapunov Probes », des réseaux légers fondés sur la théorie de la stabilité des systèmes dynamiques, pour détecter les hallucinations dans les grands modèles de langage en identifiant les régions instables de l'espace de représentation où la confiance décroît de manière monotone sous perturbation.

Bozhi Luan, Gen Li, Yalan Qin, Jifeng Guo, Yun Zhou, Faguo Wu, Hongwei Zheng, Wenjun Wu, Zhaoxin Fan2026-03-09💻 cs