LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

El artículo presenta LikePhys, un método libre de entrenamiento que evalúa la comprensión de la física intuitiva en modelos de difusión de video mediante una métrica de preferencia basada en la verosimilitud, demostrando una fuerte alineación con las preferencias humanas y revelando que, aunque los modelos actuales tienen dificultades con dinámicas complejas, su comprensión física mejora a medida que aumenta la capacidad del modelo y la configuración de inferencia.

Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini2026-03-09🤖 cs.AI

Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views

El artículo presenta 3DThinker, un marco innovador que permite a los modelos de visión y lenguaje realizar un razonamiento espacial 3D basado en la imaginación geométrica a partir de vistas limitadas, sin depender de datos 3D etiquetados ni entradas previas en tres dimensiones.

Zhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Xiang An, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang2026-03-09🤖 cs.AI

The Persistence of Cultural Memory: Investigating Multimodal Iconicity in Diffusion Models

Este artículo propone un marco de evaluación basado en la métrica de Transformación de Referencia Cultural (CRT) para analizar cómo los modelos de difusión manejan la iconicidad multimodal, distinguiendo entre el reconocimiento de referencias culturales compartidas y su realización visual, y revelando que su comportamiento depende de factores como la frecuencia de los datos, la popularidad de la referencia y la sensibilidad lingüística, más allá de la simple reproducción de imágenes.

Maria-Teresa De Rosa Palmini, Eva Cetinic2026-03-09🤖 cs.AI

Co-Layout: LLM-driven Co-optimization for Interior Layout

El artículo presenta Co-Layout, un marco innovador que combina modelos de lenguaje grandes con programación entera basada en cuadrículas para optimizar conjuntamente el diseño de interiores y la disposición de muebles, superando a los enfoques existentes en calidad de solución y eficiencia computacional mediante una estrategia de optimización de lo grueso a lo fino.

Chucheng Xiang, Ruchao Bao, Biyin Feng, Wenzheng Wu, Zhongyuan Liu, Yirui Guan, Ligang Liu2026-03-09💬 cs.CL

SPARK: Jailbreaking T2V Models by Synergistically Prompting Auditory and Recontextualized Knowledge

El artículo presenta SPARK, un marco de ataque que elude las medidas de seguridad de los modelos de texto a video mediante prompts aparentemente benignos que combinan anclajes escénicos neutrales, desencadenantes auditivos latentes y moduladores estilísticos para inducir la generación de contenido inseguro sin ser detectados.

Zonghao Ying, Moyang Chen, Nizhang Li, Zhiqiang Wang, Wenxin Zhang, Quanchen Zou, Zonglei Jing, Aishan Liu, Xianglong Liu2026-03-09💻 cs

MRIQT: Physics-Aware Diffusion Model for Image Quality Transfer in Neonatal Ultra-Low-Field MRI

El artículo presenta MRIQT, un modelo de difusión condicional 3D que mejora la calidad de las imágenes de resonancia magnética ultra-baja de campo en neonatos mediante la transferencia de características anatómicas y la reducción de ruido, superando a los métodos anteriores y logrando una alta valoración clínica.

Malek Al Abed, Sebiha Demir, Anne Groteklaes, Elodie Germani, Shahrooz Faghihroohi, Hemmen Sabir, Shadi Albarqouni2026-03-09💻 cs

FireScope: Wildfire Risk Prediction with a Chain-of-Thought Oracle

El artículo presenta FireScope, un marco basado en modelos de lenguaje visual que utiliza razonamiento tipo "cadena de pensamiento" para predecir mapas de riesgo de incendios forestales con alta generalización entre continentes, respaldado por el nuevo conjunto de datos y benchmark FireScope-Bench.

Mario Markov (INSAIT, Sofia University "St. Kliment Ohridski"), Stefan Maria Ailuro (INSAIT, Sofia University "St. Kliment Ohridski"), Luc Van Gool (INSAIT, Sofia University "St. Kliment Ohridski"), Konrad Schindler (ETH Zurich), Danda Pani Paudel (INSAIT, Sofia University "St. Kliment Ohridski")2026-03-09🤖 cs.LG

Learning Latent Transmission and Glare Maps for Lens Veiling Glare Removal

Los autores proponen VeilGen, un modelo generativo no supervisado que estima mapas de transmisión y deslumbramiento latentes para sintetizar datos realistas, y DeVeiler, una red de restauración que utiliza estos mapas para eliminar eficazmente el deslumbramiento por velo en sistemas ópticos simplificados.

Xiaolong Qian, Qi Jiang, Lei Sun, Zongxi Yu, Kailun Yang, Peixuan Wu, Jiacheng Zhou, Yao Gao, Yaoguang Ma, Ming-Hsuan Yang, Kaiwei Wang2026-03-09🔬 physics.optics

EgoCogNav: Cognition-aware Human Egocentric Navigation

El artículo presenta EgoCogNav, un marco de navegación egocéntrica multimodal que predice la incertidumbre percibida y fusiona características de la escena con señales sensoriales para anticipar trayectorias y movimientos de la cabeza, acompañado de la introducción del nuevo conjunto de datos CEN para investigar comportamientos de navegación humana en entornos reales.

Zhiwen Qiu, Ziang Liu, Wenqian Niu, Tapomayukh Bhattacharjee, Saleh Kalantari2026-03-09🤖 cs.LG

SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis

El artículo presenta SyncMV4D, un modelo pionero que genera videos de interacción mano-objeto multivista sincronizados y movimientos 4D mediante un ciclo de retroalimentación que unifica priores visuales, dinámicas de movimiento y geometría multivista para superar las limitaciones de los métodos actuales.

Lingwei Dang, Zonghan Li, Juntong Li, Hongwen Zhang, Liang An, Yebin Liu, Qingyao Wu2026-03-09💻 cs

A method for tissue-mask supported whole-body image registration in the UK Biobank

Este artículo presenta un método de registro de imágenes de resonancia magnética de cuerpo entero para el UK Biobank que utiliza máscaras de tejido adiposo subcutáneo y muscular para mejorar significativamente la precisión de la alineación anatómica y la correlación con datos de salud en comparación con enfoques existentes.

Yasemin Utkueri, Elin Lundström, Håkan Ahlström, Johan Öfverstedt, Joel Kullberg2026-03-09💻 cs

UniTS: Unified Spatio-Temporal Generative Model for Remote Sensing

El artículo presenta UniTS, un modelo generativo unificado basado en flujo de coincidencia y arquitecturas de transformadores difusos que integra tareas clave de teledetección como reconstrucción, eliminación de nubes, detección de cambios y pronóstico, superando a los modelos especializados existentes mediante una generación condicional de alta calidad.

Yuxiang Zhang, Shunlin Liang, Wenyuan Li, Han Ma, Jianglei Xu, Yichuan Ma, Jiangwei Xie, Wei Li, Mengmeng Zhang, Ran Tao, Xiang-Gen Xia2026-03-09💻 cs