How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

Ce papier présente UniLongGen, une stratégie d'inférence sans entraînement qui améliore la fiabilité de la génération d'images intercalées à long terme en curant dynamiquement le contexte pour éliminer les signaux visuels polluants qui dégradent la qualité de la synthèse.

Haoyu Chen, Qing Liu, Yuqian Zhou, He Zhang, Zhaowen Wang, Mengwei Ren, Jingjing Ren, Xiang Wang, Zhe Lin, Lei Zhu2026-03-10💻 cs

CONSTANT: Towards High-Quality One-Shot Handwriting Generation with Patch Contrastive Enhancement and Style-Aware Quantization

Le papier présente CONSTANT, une nouvelle méthode de génération d'écriture manuscrite en un seul coup d'essai basée sur les modèles de diffusion, qui améliore la qualité et l'adaptation aux styles grâce à une quantification consciente du style et à une amélioration par contraste de patchs.

Anh-Duy Le, Van-Linh Pham, Thanh-Nam Vo, Xuan Toan Mai, Tuan-Anh Tran2026-03-10💻 cs

ReconDrive: Fast Feed-Forward 4D Gaussian Splatting for Autonomous Driving Scene Reconstruction

Le papier présente ReconDrive, un cadre prédictif en une seule passe qui améliore la reconstruction 4D de scènes de conduite autonome en adaptant le modèle de fondation VGGT via des têtes de prédiction hybrides et une composition statique-dynamique, offrant ainsi une qualité compétitive avec les méthodes d'optimisation itérative mais avec une vitesse de traitement bien supérieure.

Haibao Yu, Kuntao Xiao, Jiahang Wang, Ruiyang Hao, Yuxin Huang, Guoran Hu, Haifang Qin, Bowen Jing, Yuntian Bo, Ping Luo2026-03-10💻 cs

AgentRaft: Automated Detection of Data Over-Exposure in LLM Agents

Le papier présente AgentRaft, un cadre automatisé innovant qui combine l'analyse de programme et le raisonnement sémantique pour détecter efficacement les risques de surexposition des données dans les agents LLM en modélisant les interactions entre outils, en synthétisant des prompts de test et en appliquant un suivi de contamination runtime conforme aux réglementations sur la protection des données.

Yixi Lin (Sun Yat-sen University, Zhuhai, Guangdong, China), Jiangrong Wu (Sun Yat-sen University, Zhuhai, Guangdong, China), Yuhong Nan (Sun Yat-sen University, Zhuhai, Guangdong, China), Xueqiang Wang (University of Central Florida, Orlando, Florida, USA), Xinyuan Zhang (Sun Yat-sen University, Zhuhai, Guangdong, China), Zibin Zheng (Sun Yat-sen University, Zhuhai, Guangdong, China)2026-03-10💻 cs

Active Inference for Micro-Gesture Recognition: EFE-Guided Temporal Sampling and Adaptive Learning

Cet article propose un cadre d'inférence active pour la reconnaissance de micro-gestes, combinant un échantillonnage temporel guidé par l'énergie libre attendue et un apprentissage adaptatif incertain, afin de surmonter les défis de variabilité inter-sujet et de bruit dans des conditions à faible échantillonnage.

Weijia Feng, Jingyu Yang, Ruojia Zhang, Fengtao Sun, Qian Gao, Chenyang Wang, Tongtong Su, Jia Guo, Xiaobai Li, Minglai Shao2026-03-10💻 cs

PureCC: Pure Learning for Text-to-Image Concept Customization

Le papier présente PureCC, une méthode d'apprentissage pur pour la personnalisation de concepts text-to-image qui, grâce à un objectif d'apprentissage découplé et une pipeline d'entraînement à double branche, permet de générer des concepts personnalisés de haute fidélité tout en préservant les capacités et le comportement d'origine du modèle.

Zhichao Liao, Xiaole Xian, Qingyu Li, Wenyu Qin, Meng Wang, Weicheng Xie, Siyang Song, Pingfa Feng, Long Zeng, Liang Pan2026-03-10💻 cs

Brain-WM: Brain Glioblastoma World Model

Le papier présente Brain-WM, un modèle de monde pionnier pour le glioblastome qui unifie la prédiction des traitements et la génération d'IRM futures via une architecture novatrice à mélange de transformateurs, permettant ainsi de simuler avec précision la dynamique co-évolutive entre la tumeur et les interventions thérapeutiques pour optimiser les soins cliniques.

Chenhui Wang, Boyun Zheng, Liuxin Bao, Zhihao Peng, Peter Y. M. Woo, Hongming Shan, Yixuan Yuan2026-03-10💻 cs

SiamGM: Siamese Geometry-Aware and Motion-Guided Network for Real-Time Satellite Video Object Tracking

Le papier présente SiamGM, un réseau de suivi d'objets par satellite en temps réel qui surpasse les méthodes de l'état de l'art grâce à une attention graphique inter-cadres et une optimisation guidée par le mouvement, tout en maintenant un débit de 130 images par seconde sans surcoût computationnel.

Zixiao Wen, Zhen Yang, Jiawei Li, Xiantai Xiang, Guangyao Zhou, Yuxin Hu, Yuhan Liu2026-03-10💻 cs

Efficient RGB-D Scene Understanding via Multi-task Adaptive Learning and Cross-dimensional Feature Guidance

Ce papier présente un modèle efficace de compréhension de scènes RGB-D basé sur l'apprentissage adaptatif multi-tâches et la guidance de caractéristiques interdimensionnelles, qui surpasse les méthodes existantes en précision et en vitesse sur plusieurs jeux de données grâce à une fusion améliorée et des mécanismes d'attention spécifiques.

Guodong Sun, Junjie Liu, Gaoyang Zhang, Bo Wu, Yang Zhang2026-03-10💻 cs

Approximate Imitation Learning for Event-based Quadrotor Flight in Cluttered Environments

Cet article présente une méthode d'apprentissage par imitation approximative permettant à un quadrotor de voler à grande vitesse dans des environnements encombrés en utilisant uniquement une caméra événementielle, en contournant le coût computationnel de la simulation d'événements grâce à un apprentissage en ligne basé sur des états simulés légers.

Nico Messikommer, Jiaxu Xing, Leonard Bauersfeld, Marco Cannici, Elie Aljalbout, Davide Scaramuzza2026-03-10💻 cs

FeasibleCap: Real-Time Embodiment Constraint Guidance for In-the-Wild Robot Demonstration Collection

Le papier présente FeasibleCap, un système de collecte de démonstrations robotiques « gripper-in-hand » qui fournit un guidage d'exécutabilité en temps réel via des superpositions visuelles et des retours haptiques, permettant aux démonstrateurs de corriger immédiatement les trajectoires inaccessibles sans nécessiter de matériel robotique ni de modèles appris.

Zi Yin, Fanhong Li, Yun Gui, Jia Liu2026-03-10💻 cs

AiRWeb: Using AR to Extend Web Browsing Beyond Handheld Screens

L'article présente AiRWeb, un prototype de navigation web utilisant la réalité augmentée qui permet aux utilisateurs de transférer et d'organiser librement du contenu hors de l'écran de leur téléphone dans l'espace environnant, une approche jugée apprenable et utilisable bien que des défis de conception subsistent concernant l'activation du mode de transfert.

Mengfei Gao, Caroline Appert, Ludovic David, Emmanuel Pietriga2026-03-10💻 cs

Fast Attention-Based Simplification of LiDAR Point Clouds for Object Detection and Classification

Cet article propose une méthode d'apprentissage efficace pour la simplification des nuages de points LiDAR, combinant un module d'incorporation de caractéristiques et un échantillonnage basé sur l'attention, qui surpasse les approches existantes en offrant un compromis optimal entre vitesse de traitement et précision pour la détection et la classification d'objets.

Z. Rozsa, Á. Madaras, Q. Wei, X. Lu, M. Golarits, H. Yuan, T. Sziranyi, R. Hamzaoui2026-03-10💻 cs