QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

Le papier propose QuantSparse, un cadre unifié combinant quantification et sparsification de l'attention pour compresser efficacement les transformateurs de diffusion vidéo tout en préservant la qualité de génération grâce à des techniques innovantes de distillation et de reparamétrisation.

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

ELHPlan: Efficient Long-Horizon Task Planning for Multi-Agent Collaboration

L'article présente ELHPlan, un cadre novateur de planification à long horizon pour la collaboration multi-agents qui utilise des chaînes d'actions liées à des intentions pour équilibrer adaptabilité et efficacité, permettant d'atteindre des taux de réussite comparables aux méthodes de l'état de l'art tout en réduisant la consommation de tokens de 60 à 70 %.

Shaobin Ling, Yun Wang, Chenyou Fan, Tin Lun Lam, Junjie Hu2026-03-10💻 cs

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

Le papier présente PHASE-Net, un modèle d'apprentissage profond léger et théoriquement fondé sur les équations de Navier-Stokes pour la mesure non invasive du pouls par rPPG, qui surpasse les méthodes existantes en robustesse et en efficacité grâce à une architecture combinant un échangeur axial à coût nul, un filtre spatial adaptatif et un TCN à portes.

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

Ce travail présente LMOD+, une nouvelle base de données et un benchmark multimodaux à grande échelle en ophtalmologie, enrichis par rapport à LMOD, qui intègrent des annotations multi-granulaires pour évaluer les performances et les limites des grands modèles de langage multimodaux dans le diagnostic, le stadification et la détection des biais liés aux maladies oculaires menaçant la vision.

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Beyond Collision Cones: Dynamic Obstacle Avoidance for Nonholonomic Robots via Dynamic Parabolic Control Barrier Functions

Cet article propose une fonction barrière de contrôle parabolique dynamique (DPCBF) qui, en adaptant sa frontière de sécurité à la distance et à la vitesse relative, surmonte les limitations de conservatisme des méthodes basées sur les cônes de collision pour permettre une navigation sûre et efficace de robots non holonomes dans des environnements dynamiques très encombrés.

Hun Kuk Park, Taekyung Kim, Dimitra Panagou2026-03-10💻 cs

Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

Le papier présente REVEL, une nouvelle tâche de manipulation vidéo interactive en flux continu permettant de modifier n'importe quel élément à tout moment, et propose DragStream, une méthode sans entraînement qui corrige la dérive latente et les interférences contextuelles pour assurer une génération vidéo fluide et cohérente.

Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang2026-03-10💻 cs

PAD-TRO: Projection-Augmented Diffusion for Direct Trajectory Optimization

Ce papier présente PAD-TRO, une nouvelle méthode d'optimisation de trajectoire par diffusion qui génère directement des séquences d'états et intègre un mécanisme de projection sans gradient pour garantir la faisabilité dynamique, surpassant ainsi les approches existantes en termes de taux de réussite et d'absence d'erreurs dynamiques dans des scénarios de navigation complexes.

Jushan Chen, Santiago Paternain2026-03-10💻 cs

Vision-Guided Targeted Grasping and Vibration for Robotic Pollination in Controlled Environments

Cet article présente et valide un cadre robotique guidé par la vision qui intègre la reconstruction 3D, la planification de préhension ciblée et la modélisation vibratoire pour réaliser une pollinisation automatisée précise et sûre dans des environnements agricoles contrôlés.

Jaehwan Jeong, Tuan-Anh Vu, Radha Lahoti, Jiawen Wang, Vivek Alumootil, Sangpil Kim, M. Khalid Jawed2026-03-10💻 cs

EB-MBD: Emerging-Barrier Model-Based Diffusion for Safe Trajectory Optimization in Highly Constrained Environments

Cet article propose EB-MBD, une méthode de diffusion basée sur un modèle qui intègre des fonctions barrières émergentes pour optimiser efficacement et sûrement des trajectoires dans des environnements fortement contraints, évitant ainsi la dégradation des performances et les coûts computationnels élevés des méthodes de projection traditionnelles.

Raghav Mishra, Ian R. Manchester2026-03-10💻 cs

CDE: Concept-Driven Exploration for Reinforcement Learning

Ce papier propose CDE, une méthode d'exploration en apprentissage par renforcement qui utilise un modèle vision-langage pré-entraîné pour générer des concepts visuels et les exploiter via une tâche de reconstruction comme récompense intrinsèque, permettant ainsi une exploration ciblée efficace dans des tâches de manipulation visuelle complexes, y compris dans le monde réel.

Le Mao, Andrew H. Liu, Renos Zabounidis, Yanan Niu, Zachary Kingston, Joseph Campbell2026-03-10💻 cs

Reallocating Attention Across Layers to Reduce Multimodal Hallucination

Cet article propose un plugin léger et sans réentraînement nommé « Functional Head Identification and Class-Conditioned Rescaling » qui rééquilibre l'attention entre les couches perceptives et de raisonnement des modèles de raisonnement multimodaux pour réduire les hallucinations et améliorer la fiabilité sans modifier l'architecture.

Haolang Lu, Bolun Chu, WeiYe Fu, Guoshun Nan, Junning Liu, Minghui Pan, Qiankun Li, Yi Yu, Hua Wang, Kun Wang2026-03-10💻 cs