Place-it-R1: Unlocking Environment-aware Reasoning Potential of MLLM for Video Object Insertion

El paper presenta Place-it-R1, un marco end-to-end que aprovecha el razonamiento de modelos de lenguaje multimodal (MLLM) mediante una estrategia de "pensar antes de colocar" para lograr inserciones de objetos en video que son físicamente coherentes y ambientalmente conscientes, superando las limitaciones de fidelidad visual sin causalidad física de las técnicas actuales.

Bohai Gu, Taiyi Wu, Dazhao Du, Jian Liu, Shuai Yang, Xiaotong Zhao, Alan Zhao, Song Guo2026-03-09🤖 cs.AI

Longitudinal NSCLC Treatment Progression via Multimodal Generative Models

Este trabajo presenta un marco de "Tratamiento Virtual" basado en modelos generativos difusivos que, al condicionar la síntesis de imágenes de tomografía computarizada con dosis de radiación y variables clínicas, logra predecir con mayor precisión y estabilidad la evolución anatómica del cáncer de pulmón de células no pequeñas durante la radioterapia en comparación con los modelos basados en GAN.

Massimiliano Mantegna, Elena Mulero Ayllón, Alice Natalina Caragliano, Francesco Di Feola, Claudia Tacconi, Michele Fiore, Edy Ippolito, Carlo Greco, Sara Ramella, Philippe C. Cattin, Paolo Soda, Matteo Tortora, Valerio Guarrasi2026-03-09💻 cs

VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models

El artículo presenta VLM-RobustBench, un benchmark integral que evalúa la robustez de modelos de visión-lingüística frente a 133 tipos de perturbaciones y revela que, aunque estos modelos son semánticamente fuertes, son espacialmente frágiles, ya que las distorsiones geométricas y de muestreo degradan su rendimiento más que las corrupciones fotométricas visualmente severas.

Rohit Saxena, Alessandro Suglia, Pasquale Minervini2026-03-09🤖 cs.AI

Reflective Flow Sampling Enhancement

Este artículo presenta RF-Sampling, un marco de mejora en la inferencia sin entrenamiento y fundamentado teóricamente diseñado específicamente para modelos de flujo como FLUX, que optimiza la alineación con el prompt y la calidad de generación mediante una derivación formal que realiza implícitamente un ascenso de gradiente en la puntuación de alineación texto-imagen.

Zikai Zhou, Muyao Wang, Shitong Shao, Lichen Bai, Haoyi Xiong, Bo Han, Zeke Xie2026-03-09🤖 cs.AI

FreeOcc: Training-free Panoptic Occupancy Prediction via Foundation Models

El artículo presenta FreeOcc, una metodología sin entrenamiento que aprovecha modelos fundacionales preentrenados para lograr la predicción de ocupación panóptica en 3D a partir de imágenes multivista, logrando resultados competitivos con métodos supervisados y estableciendo nuevas bases para la comprensión de escenas 3D sin necesidad de datos de entrenamiento específicos.

Andrew Caunes, Thierry Chateau, Vincent Fremont2026-03-09💻 cs

A Semi-Supervised Framework for Breast Ultrasound Segmentation with Training-Free Pseudo-Label Generation and Label Refinement

Este artículo presenta un marco de aprendizaje semi-supervisado para la segmentación de imágenes de ultrasonido mamario que, mediante la generación de pseudoetiquetas sin entrenamiento basada en descripciones visuales simples y técnicas de refinamiento de etiquetas, logra un rendimiento comparable al de modelos totalmente supervisados utilizando solo el 2,5% de datos etiquetados.

Ruili Li, Jiayi Ding, Ruiyu Li, Yilun Jin, Shiwen Ge, Yuwen Zeng, Xiaoyong Zhang, Eichi Takaya, Jan Vrba, Noriyasu Homma2026-03-09💻 cs

JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas

El artículo presenta JOPP-3D, un marco de segmentación semántica de vocabulario abierto que combina datos de nubes de puntos 3D e imágenes panorámicas para permitir la comprensión de escenas mediante consultas en lenguaje natural, logrando un rendimiento superior al estado del arte en ambas modalidades.

Sandeep Inuganti, Hideaki Kanayama, Kanta Shimizu, Mahdi Chamseddine, Soichiro Yokota, Didier Stricker, Jason Rambach2026-03-09💻 cs

Optimizing 3D Diffusion Models for Medical Imaging via Multi-Scale Reward Learning

Este artículo presenta un método que optimiza modelos de difusión 3D para imágenes médicas mediante aprendizaje por refuerzo con retroalimentación multiescala, mejorando significativamente la calidad de la generación y la utilidad de los datos sintéticos en tareas de clasificación de tumores y enfermedades.

Yueying Tian, Xudong Han, Meng Zhou, Rodrigo Aviles-Espinosa, Rupert Young, Philip Birch2026-03-09💻 cs

Towards Motion Turing Test: Evaluating Human-Likeness in Humanoid Robots

Este artículo propone el "Motion Turing Test" y el conjunto de datos HHMotion para evaluar la similitud humana en robots humanoides mediante información cinemática, revelando que las actuales grandes modelos de lenguaje son insuficientes para esta tarea y presentando un modelo de referencia superior que supera a los métodos basados en LLM.

Mingzhe Li, Mengyin Liu, Zekai Wu, Xincheng Lin, Junsheng Zhang, Ming Yan, Zengye Xie, Changwang Zhang, Chenglu Wen, Lan Xu, Siqi Shen, Cheng Wang2026-03-09💻 cs

CRIMSON: A Clinically-Grounded LLM-Based Metric for Generative Radiology Report Evaluation

El artículo presenta CRIMSON, un marco de evaluación basado en modelos de lenguaje grande y fundamentado clínicamente para informes de radiología de tórax que incorpora el contexto completo del paciente y una taxonomía de errores ponderada por gravedad, demostrando una fuerte alineación con el juicio de radiólogos expertos en múltiples benchmarks.

Mohammed Baharoon, Thibault Heintz, Siavash Raissi, Mahmoud Alabbad, Mona Alhammad, Hassan AlOmaish, Sung Eun Kim, Oishi Banerjee, Pranav Rajpurkar2026-03-09🤖 cs.AI

SpaCRD: Multimodal Deep Fusion of Histology and Spatial Transcriptomics for Cancer Region Detection

El artículo presenta SpaCRD, un método de aprendizaje por transferencia que fusiona multimodalmente imágenes de histología y datos de transcriptómica espacial mediante una red de atención cruzada bidireccional para detectar con mayor precisión las regiones de cáncer en diversos muestras, plataformas y lotes, superando a los métodos existentes.

Shuailin Xue, Jun Wan, Lihua Zhang, Wenwen Min2026-03-09💻 cs