cs.CV artículos | Gist.Science

LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

El artículo presenta LikePhys, un método libre de entrenamiento que evalúa la comprensión de la física intuitiva en modelos de difusión de video mediante una métrica de preferencia basada en la verosimilitud, demostrando una fuerte alineación con las preferencias humanas y revelando que, aunque los modelos actuales tienen dificultades con dinámicas complejas, su comprensión física mejora a medida que aumenta la capacidad del modelo y la configuración de inferencia.

Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini2026-03-09🤖 cs.AI

CanvasMAR: Improving Masked Autoregressive Video Prediction With Canvas

El artículo presenta CanvasMAR, un modelo autoregresivo de predicción de video que mejora la calidad y la coherencia de la generación con pocos pasos mediante la introducción de un "lienzo" global borroso como prior estructurado, un currículo de muestreo de fácil a difícil basado en el movimiento y una guía libre de clasificadores compuesta.

Zian Li, Muhan Zhang2026-03-09🤖 cs.AI

Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views

El artículo presenta 3DThinker, un marco innovador que permite a los modelos de visión y lenguaje realizar un razonamiento espacial 3D basado en la imaginación geométrica a partir de vistas limitadas, sin depender de datos 3D etiquetados ni entradas previas en tres dimensiones.

Zhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Xiang An, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang2026-03-09🤖 cs.AI

AURASeg: Attention-guided Upsampling with Residual-Assistive Boundary Refinement for Onboard Robot Drivable-Area Segmentation

El artículo presenta AURASeg, un marco de segmentación de áreas transitables para robots autónomos que utiliza refinamiento de bordes asistido por residuos y descompresión progresiva guiada por atención para lograr alta precisión en el borde y eficiencia en dispositivos de borde.

Narendhiran Vijayakumar, Sridevi. M2026-03-09💻 cs

Culture in Action: Evaluating Text-to-Image Models through Social Activities

Este artículo presenta CULTIVate, un nuevo marco de evaluación que analiza la fidelidad cultural de los modelos de texto a imagen al centrarse en actividades sociales en lugar de objetos, revelando sesgos sistemáticos hacia el hemisferio norte y proponiendo métricas que correlacionan mejor con el juicio humano.

Sina Malakouti, Boqing Gong, Adriana Kovashka2026-03-09💻 cs

Decoupling Bias, Aligning Distributions: Synergistic Fairness Optimization for Deepfake Detection

Este artículo presenta un marco de optimización colaborativa de doble mecanismo que integra la desconexión estructural de sesgos y la alineación de distribuciones globales para mejorar la equidad inter e intragrupal en la detección de deepfakes sin comprometer la precisión general.

Feng Ding, Wenhui Yi, Yunpeng Zhou, Xinan He, Hong Rao, Shu Hu2026-03-09💻 cs

LaxMotion: Rethinking Supervision Granularity for 3D Human Motion Generation

LaxMotion es un marco que genera movimientos humanos 3D realistas y generalizables sin supervisión directa de poses 3D, aprendiendo en su lugar a partir de trayectorias globales y claves cinemáticas 2D bajo un paradigma de supervisión relajada que prioriza la consistencia estructural sobre el ajuste exacto de coordenadas.

Sheng Liu, Yuanzhi Liang, Sidan Du2026-03-09💻 cs

The Persistence of Cultural Memory: Investigating Multimodal Iconicity in Diffusion Models

Este artículo propone un marco de evaluación basado en la métrica de Transformación de Referencia Cultural (CRT) para analizar cómo los modelos de difusión manejan la iconicidad multimodal, distinguiendo entre el reconocimiento de referencias culturales compartidas y su realización visual, y revelando que su comportamiento depende de factores como la frecuencia de los datos, la popularidad de la referencia y la sensibilidad lingüística, más allá de la simple reproducción de imágenes.

Maria-Teresa De Rosa Palmini, Eva Cetinic2026-03-09🤖 cs.AI

Co-Layout: LLM-driven Co-optimization for Interior Layout

El artículo presenta Co-Layout, un marco innovador que combina modelos de lenguaje grandes con programación entera basada en cuadrículas para optimizar conjuntamente el diseño de interiores y la disposición de muebles, superando a los enfoques existentes en calidad de solución y eficiencia computacional mediante una estrategia de optimización de lo grueso a lo fino.

Chucheng Xiang, Ruchao Bao, Biyin Feng, Wenzheng Wu, Zhongyuan Liu, Yirui Guan, Ligang Liu2026-03-09💬 cs.CL

SPARK: Jailbreaking T2V Models by Synergistically Prompting Auditory and Recontextualized Knowledge

El artículo presenta SPARK, un marco de ataque que elude las medidas de seguridad de los modelos de texto a video mediante prompts aparentemente benignos que combinan anclajes escénicos neutrales, desencadenantes auditivos latentes y moduladores estilísticos para inducir la generación de contenido inseguro sin ser detectados.

Zonghao Ying, Moyang Chen, Nizhang Li, Zhiqiang Wang, Wenxin Zhang, Quanchen Zou, Zonglei Jing, Aishan Liu, Xianglong Liu2026-03-09💻 cs

MRIQT: Physics-Aware Diffusion Model for Image Quality Transfer in Neonatal Ultra-Low-Field MRI

El artículo presenta MRIQT, un modelo de difusión condicional 3D que mejora la calidad de las imágenes de resonancia magnética ultra-baja de campo en neonatos mediante la transferencia de características anatómicas y la reducción de ruido, superando a los métodos anteriores y logrando una alta valoración clínica.

Malek Al Abed, Sebiha Demir, Anne Groteklaes, Elodie Germani, Shahrooz Faghihroohi, Hemmen Sabir, Shadi Albarqouni2026-03-09💻 cs

FunnyNodules: A Customizable Medical Dataset Tailored for Evaluating Explainable AI

El artículo presenta FunnyNodules, un conjunto de datos sintético y totalmente personalizable de nódulos pulmonares con anotaciones densas y reglas de decisión controlables, diseñado para evaluar y desarrollar modelos de IA explicable que aprendan a razonar correctamente basándose en atributos visuales específicos.

Luisa Gallée, Yiheng Xiong, Meinrad Beer, Michael Götz2026-03-09💻 cs

FireScope: Wildfire Risk Prediction with a Chain-of-Thought Oracle

El artículo presenta FireScope, un marco basado en modelos de lenguaje visual que utiliza razonamiento tipo "cadena de pensamiento" para predecir mapas de riesgo de incendios forestales con alta generalización entre continentes, respaldado por el nuevo conjunto de datos y benchmark FireScope-Bench.

Mario Markov (INSAIT, Sofia University "St. Kliment Ohridski"), Stefan Maria Ailuro (INSAIT, Sofia University "St. Kliment Ohridski"), Luc Van Gool (INSAIT, Sofia University "St. Kliment Ohridski"), Konrad Schindler (ETH Zurich), Danda Pani Paudel (INSAIT, Sofia University "St. Kliment Ohridski")2026-03-09🤖 cs.LG

Learning Latent Transmission and Glare Maps for Lens Veiling Glare Removal

Los autores proponen VeilGen, un modelo generativo no supervisado que estima mapas de transmisión y deslumbramiento latentes para sintetizar datos realistas, y DeVeiler, una red de restauración que utiliza estos mapas para eliminar eficazmente el deslumbramiento por velo en sistemas ópticos simplificados.

Xiaolong Qian, Qi Jiang, Lei Sun, Zongxi Yu, Kailun Yang, Peixuan Wu, Jiacheng Zhou, Yao Gao, Yaoguang Ma, Ming-Hsuan Yang, Kaiwei Wang2026-03-09🔬 physics.optics

UAM: A Unified Attention-Mamba Backbone of Multimodal Framework for Tumor Cell Classification

Este artículo presenta UAM, un nuevo marco multimodal basado en un esqueleto unificado de Atención-Mamba que supera a los modelos fundacionales actuales al mejorar la precisión en la clasificación de células tumorales y la segmentación de tumores mediante una arquitectura flexible que elimina la necesidad de ajuste manual de proporciones.

Taixi Chen, Jingyun Chen, Nancy Guo2026-03-09💻 cs

EgoCogNav: Cognition-aware Human Egocentric Navigation

El artículo presenta EgoCogNav, un marco de navegación egocéntrica multimodal que predice la incertidumbre percibida y fusiona características de la escena con señales sensoriales para anticipar trayectorias y movimientos de la cabeza, acompañado de la introducción del nuevo conjunto de datos CEN para investigar comportamientos de navegación humana en entornos reales.

Zhiwen Qiu, Ziang Liu, Wenqian Niu, Tapomayukh Bhattacharjee, Saleh Kalantari2026-03-09🤖 cs.LG

SyncMV4D: Synchronized Multi-view Joint Diffusion of Appearance and Motion for Hand-Object Interaction Synthesis

El artículo presenta SyncMV4D, un modelo pionero que genera videos de interacción mano-objeto multivista sincronizados y movimientos 4D mediante un ciclo de retroalimentación que unifica priores visuales, dinámicas de movimiento y geometría multivista para superar las limitaciones de los métodos actuales.

Lingwei Dang, Zonghan Li, Juntong Li, Hongwen Zhang, Liang An, Yebin Liu, Qingyao Wu2026-03-09💻 cs

Reversible Inversion for Training-Free Exemplar-guided Image Editing

Este artículo presenta ReInversion, un método de edición de imágenes guiado por ejemplos que, al ser libre de entrenamiento y utilizar un proceso de inversión reversible junto con una estrategia de desruido selectivo, logra un rendimiento superior con el menor costo computacional.

Yuke Li, Lianli Gao, Ji Zhang, Pengpeng Zeng, Lichuan Xiang, Hongkai Wen, Heng Tao Shen, Jingkuan Song2026-03-09💻 cs

A method for tissue-mask supported whole-body image registration in the UK Biobank

Este artículo presenta un método de registro de imágenes de resonancia magnética de cuerpo entero para el UK Biobank que utiliza máscaras de tejido adiposo subcutáneo y muscular para mejorar significativamente la precisión de la alineación anatómica y la correlación con datos de salud en comparación con enfoques existentes.

Yasemin Utkueri, Elin Lundström, Håkan Ahlström, Johan Öfverstedt, Joel Kullberg2026-03-09💻 cs

UniTS: Unified Spatio-Temporal Generative Model for Remote Sensing

El artículo presenta UniTS, un modelo generativo unificado basado en flujo de coincidencia y arquitecturas de transformadores difusos que integra tareas clave de teledetección como reconstrucción, eliminación de nubes, detección de cambios y pronóstico, superando a los modelos especializados existentes mediante una generación condicional de alta calidad.

Yuxiang Zhang, Shunlin Liang, Wenyuan Li, Han Ma, Jianglei Xu, Yichuan Ma, Jiangwei Xie, Wei Li, Mengmeng Zhang, Ran Tao, Xiang-Gen Xia2026-03-09💻 cs

← Anterior Siguiente →