Cross-Resolution Distribution Matching for Diffusion Distillation

L'article propose RMD, un nouveau cadre de distillation qui comble les écarts de distribution entre résolutions grâce à une correspondance logarithmique du rapport signal-sur-bruit et à une réinjection de bruit, permettant ainsi d'accélérer considérablement la génération d'images et de vidéos tout en préservant une haute fidélité visuelle.

Feiyang Chen, Hongpeng Pan, Haonan Xu, Xinyu Duan, Yang Yang, Zhefeng Wang2026-03-09💻 cs

Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion

Le papier présente Place-it-R1, un cadre end-to-end qui exploite le raisonnement de type « chaîne de pensée » des modèles de langage multimodaux pour orchestrer l'insertion d'objets dans des vidéos, garantissant ainsi une cohérence physique et causale avec l'environnement grâce à une boucle de rétroaction itérative et à des modes de contrôle adaptatifs.

Bohai Gu, Taiyi Wu, Dazhao Du, Jian Liu, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo2026-03-09🤖 cs.AI

Longitudinal NSCLC Treatment Progression via Multimodal Generative Models

Cette étude propose un cadre de traitement virtuel basé sur des modèles génératifs multimodaux pour prédire l'évolution des tumeurs du cancer du poumon non à petites cellules sous radiothérapie, démontrant que les modèles de diffusion surpassent les GAN en produisant des trajectoires d'évolution tumorale plus stables et anatomiquement plausibles grâce à une conditionnement sensible à la dose.

Massimiliano Mantegna, Elena Mulero Ayllón, Alice Natalina Caragliano, Francesco Di Feola, Claudia Tacconi, Michele Fiore, Edy Ippolito, Carlo Greco, Sara Ramella, Philippe C. Cattin, Paolo Soda, Matteo Tortora, Valerio Guarrasi2026-03-09💻 cs

VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models

Le papier présente VLM-RobustBench, un benchmark complet évaluant la robustesse des modèles vision-langage face à 133 types de perturbations, révélant que ces modèles, bien que sémantiquement puissants, sont spatialement fragiles et que les déformations géométriques et de rééchantillonnage dégradent leurs performances bien plus que les corruptions photométriques sévères.

Rohit Saxena, Alessandro Suglia, Pasquale Minervini2026-03-09🤖 cs.AI

A Semi-Supervised Framework for Breast Ultrasound Segmentation with Training-Free Pseudo-Label Generation and Label Refinement

Cet article propose un cadre d'apprentissage semi-supervisé pour la segmentation des ultrasons mammaires qui génère des pseudo-étiquettes sans entraînement grâce à des modèles vision-langage, les affine par des mécanismes d'apprentissage contrastif et atteint des performances comparables aux modèles entièrement supervisés avec seulement 2,5 % de données annotées.

Ruili Li, Jiayi Ding, Ruiyu Li, Yilun Jin, Shiwen Ge, Yuwen Zeng, Xiaoyong Zhang, Eichi Takaya, Jan Vrba, Noriyasu Homma2026-03-09💻 cs

Towards Motion Turing Test: Evaluating Human-Likeness in Humanoid Robots

Cet article propose le « Motion Turing Test » et le jeu de données HHMotion pour évaluer la ressemblance humaine des mouvements de robots humanoïdes, révélant que les modèles de langage actuels sont insuffisants pour cette tâche et introduisant une nouvelle méthode de base plus performante.

Mingzhe Li, Mengyin Liu, Zekai Wu, Xincheng Lin, Junsheng Zhang, Ming Yan, Zengye Xie, Changwang Zhang, Chenglu Wen, Lan Xu, Siqi Shen, Cheng Wang2026-03-09💻 cs

CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

Ce papier présente CRIMSON, un cadre d'évaluation cliniquement fondé pour les rapports de radiologie générés par IA, qui intègre le contexte complet du patient et une pondération basée sur la gravité clinique pour mieux s'aligner sur le jugement des radiologues que les métriques précédentes.

Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar2026-03-09🤖 cs.AI

SpaCRD: Multimodal Deep Fusion of Histology and Spatial Transcriptomics for Cancer Region Detection

Le papier présente SpaCRD, une méthode d'apprentissage par transfert qui fusionne profondément l'histologie et la transcriptomique spatiale via un réseau d'attention croisée bidirectionnelle pour détecter avec précision les régions cancéreuses et généraliser les résultats à travers différents échantillons, plateformes et lots, surpassant ainsi les méthodes existantes.

Shuailin Xue, Jun Wan, Lihua Zhang, Wenwen Min2026-03-09💻 cs

Point-Supervised Skeleton-Based Human Action Segmentation

Cet article présente un cadre novateur pour la segmentation d'actions humaines basé sur le squelette et supervisé par points, qui atteint des performances compétitives, parfois supérieures aux méthodes entièrement supervisées, tout en réduisant considérablement l'effort d'annotation grâce à l'utilisation de données multimodales et à des techniques avancées de génération de pseudo-étiquettes.

Hongsong Wang, Yiqin Shen, Pengbo Yan, Jie Gui2026-03-09💻 cs

EntON: Eigenentropy-Optimized Neighborhood Densification in 3D Gaussian Splatting

L'article présente EntON, une nouvelle stratégie de densification de voisinage optimisée par l'entropie des valeurs propres pour le splatting gaussien 3D, qui améliore la précision géométrique et la qualité de rendu tout en réduisant le nombre de gaussiennes et le temps d'entraînement grâce à une alternance entre densification par gradient et densification guidée par la structure locale.

Miriam Jäger, Boris Jutzi2026-03-09💻 cs