RPiAE: A Representation-Pivoted Autoencoder Enhancing Both Image Generation and Editing

El artículo presenta RPiAE, un autoencoder basado en representaciones que, mediante una regularización de pivote y un entrenamiento por etapas, mejora tanto la generación como la edición de imágenes al lograr latentes compactos con alta fidelidad de reconstrucción y preservación semántica, superando a los tokenizadores visuales existentes.

Yue Gong, Hongyu Li, Shanyuan Liu, Bo Cheng, Yuhang Ma, Liebucha Wu, Xiaoyu Wu, Manyuan Zhang, Dawei Leng, Yuhui Yin, Lijun Zhang2026-03-20💻 cs

DreamPartGen: Semantically Grounded Part-Level 3D Generation via Collaborative Latent Denoising

DreamPartGen es un marco de generación 3D basado en texto que logra una síntesis coherente y semánticamente fundamentada mediante el uso de latentes duales para geometría y apariencia, latentes semánticos relacionales para las dependencias entre partes y un proceso de denoising sincronizado que asegura la consistencia mutua.

Tianjiao Yu, Xinzhuo Li, Muntasir Wahed, Jerry Xiong, Yifan Shen, Ying Shen, Ismini Lourentzou2026-03-20🤖 cs.LG

LVOmniBench: Pioneering Long Audio-Video Understanding Evaluation for Omnimodal LLMs

El artículo presenta LVOmniBench, un nuevo benchmark diseñado para evaluar la comprensión de audio y video de larga duración en modelos de lenguaje multimodal, revelando que las capacidades actuales de estos modelos son insuficientes para manejar contextos extensos.

Keda Tao, Yuhua Zheng, Jia Xu, Wenjie Du, Kele Shao, Hesong Wang, Xueyi Chen, Xin Jin, Junhan Zhu, Bohan Yu, Weiqiang Wang, Jian Liu, Can Qin, Yulun Zhang, Ming-Hsuan Yang, Huan Wang2026-03-20💻 cs

Rethinking Vector Field Learning for Generative Segmentation

Este trabajo mejora la segmentación generativa mediante una estrategia de remodelado de campos vectoriales que corrige el desvanecimiento del gradiente y la mala separación de clases, integrando un término de corrección basado en la distancia y un esquema de codificación de categorías eficiente para cerrar la brecha de rendimiento con los métodos discriminativos.

Chaoyang Wang, Yaobo Liang, Boci Peng, Fan Duan, Jingdong Wang, Yunhai Tong2026-03-20💻 cs

DriveTok: 3D Driving Scene Tokenization for Unified Multi-View Reconstruction and Understanding

DriveTok es un tokenizador de escenas de conducción 3D eficiente que transforma características visuales en tokens unificados mediante atención cruzada deformable, permitiendo la reconstrucción y comprensión multi-vista simultánea de imágenes, profundidad y ocupación semántica en entornos de conducción autónoma.

Dong Zhuo, Wenzhao Zheng, Sicheng Zuo, Siming Yan, Lu Hou, Jie Zhou, Jiwen Lu2026-03-20🤖 cs.LG

EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing

Este trabajo presenta VOR, un nuevo conjunto de datos a gran escala diseñado para abordar la falta de ejemplos sistemáticos de efectos de objetos, y propone EffectErase, un método innovador que combina la eliminación y la inserción de objetos mediante aprendizaje recíproco para lograr una borrado de alta calidad de objetos dinámicos y sus efectos visuales en videos.

Yang Fu, Yike Zheng, Ziyun Dai, Henghui Ding2026-03-20💻 cs

Under One Sun: Multi-Object Generative Perception of Materials and Illumination

El artículo presenta MultiGP, un método de renderizado inverso generativo que descompone una sola imagen en reflectancia, textura e iluminación compartida para múltiples objetos, aprovechando la coherencia de la iluminación común mediante una arquitectura en cascada, una guía coordinada para la difusión, atención axial y un ControlNet de extracción de texturas.

Nobuo Yoshii, Xinran Nicole Han, Ryo Kawahara, Todd Zickler, Ko Nishino2026-03-20💻 cs