cs.CV artículos | Gist.Science

Spectrally-Guided Diffusion Noise Schedules

Este trabajo propone un método basado en las propiedades espectrales de la imagen para diseñar horarios de ruido por instancia en modelos de difusión, eliminando pasos redundantes y mejorando la calidad generativa, especialmente en configuraciones con pocos pasos.

Carlos Esteves, Ameesh Makadia2026-03-20🤖 cs.LG

EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing

Este trabajo presenta VOR, un nuevo conjunto de datos a gran escala diseñado para abordar la falta de ejemplos sistemáticos de efectos de objetos, y propone EffectErase, un método innovador que combina la eliminación y la inserción de objetos mediante aprendizaje recíproco para lograr una borrado de alta calidad de objetos dinámicos y sus efectos visuales en videos.

Yang Fu, Yike Zheng, Ziyun Dai, Henghui Ding2026-03-20💻 cs

Under One Sun: Multi-Object Generative Perception of Materials and Illumination

El artículo presenta MultiGP, un método de renderizado inverso generativo que descompone una sola imagen en reflectancia, textura e iluminación compartida para múltiples objetos, aprovechando la coherencia de la iluminación común mediante una arquitectura en cascada, una guía coordinada para la difusión, atención axial y un ControlNet de extracción de texturas.

Nobuo Yoshii, Xinran Nicole Han, Ryo Kawahara, Todd Zickler, Ko Nishino2026-03-20💻 cs

Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer

El artículo presenta un marco de tres etapas que integra modelos de difusión y tokens discretos mediante el tokenizador MoTok, logrando una generación de movimiento humana con alta fidelidad y control semántico y cinemático superior, tal como se demuestra en el conjunto de datos HumanML3D.

Chenyang Gu, Mingyuan Zhang, Haozhe Xie, Zhongang Cai, Lei Yang, Ziwei Liu2026-03-20💻 cs

SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing

SAMA es un marco innovador que mejora la edición de video guiada por instrucciones mediante la factorización del proceso en anclaje semántico y alineación de movimiento, logrando un equilibrio superior entre modificaciones precisas y preservación de la fidelidad temporal sin depender de priores externos.

Xinyao Zhang, Wenkai Dong, Yuxin Song, Bo Fang, Qi Zhang, Jing Wang, Fan Chen, Hui Zhang, Haocheng Feng, Yu Lu, Hang Zhou, Chun Yuan, Jingdong Wang2026-03-20💻 cs

NavTrust: Benchmarking Trustworthiness for Embodied Navigation

NavTrust es el primer benchmark unificado que evalúa la fiabilidad de la navegación corporal bajo diversas corrupciones realistas en modalidades visuales e instrucciones, revelando brechas críticas de robustez y validando estrategias de mitigación mediante pruebas en robots reales.

Huaide Jiang, Yash Chaudhary, Yuping Wang, Zehao Wang, Raghav Sharma, Manan Mehta, Yang Zhou, Lichao Sun, Zhiwen Fan, Zhengzhong Tu, Jiachen Li2026-03-20⚡ eess

MonoArt: Progressive Structural Reasoning for Monocular Articulated 3D Reconstruction

MonoArt es un marco unificado que logra la reconstrucción 3D articulada a partir de una sola imagen mediante un razonamiento estructural progresivo que infiere de manera estable la geometría y los parámetros de movimiento sin depender de plantillas externas o múltiples etapas.

Haitian Li, Haozhe Xie, Junxiang Xu, Beichen Wen, Fangzhou Hong, Ziwei Liu2026-03-20💻 cs

Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation Tokens

El artículo presenta CubiD, el primer modelo de generación discreta para representaciones de alta dimensión que utiliza un mecanismo de enmascaramiento fino para lograr un rendimiento superior en la generación visual y preservar las capacidades de comprensión, allanando el camino hacia arquitecturas multimodales unificadas.

Yuqing Wang, Chuofan Ma, Zhijie Lin, Yao Teng, Lijun Yu, Shuai Wang, Jiaming Han, Jiashi Feng, Yi Jiang, Xihui Liu2026-03-20💻 cs

Matryoshka Gaussian Splatting

El artículo presenta Matryoshka Gaussian Splatting (MGS), un marco de entrenamiento que habilita un nivel de detalle continuo para la representación 3D mediante Gaussianas sin sacrificar la calidad de renderizado a máxima capacidad, logrando esto mediante una estrategia de entrenamiento con presupuesto estocástico que optimiza un único conjunto ordenado de gaussianas.

Zhilin Guo, Boqiao Zhang, Hakan Aktas, Kyle Fogarty, Jeffrey Hu, Nursena Koprucu Aslan, Wenzhao Li, Canberk Baykal, Albert Miao, Josef Bengtson, Chenliang Zhou, Weihao Xia, Cristina Nader Vasconcelos. (…)2026-03-20💻 cs

Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

El artículo presenta VEGA-3D, un marco innovador que aprovecha los priores espaciales implícitos de los modelos de generación de video para dotar a los modelos de lenguaje multimodal de capacidades de razonamiento geométrico y comprensión espacial sin necesidad de supervisión explícita en 3D.

Xianjin Wu, Dingkang Liang, Tianrui Feng, Kui Xia, Yumeng Zhang, Xiaofan Li, Xiao Tan, Xiang Bai2026-03-20💻 cs

← Anterior Siguiente →