cs.CV artículos | Gist.Science

RPiAE: A Representation-Pivoted Autoencoder Enhancing Both Image Generation and Editing

El artículo presenta RPiAE, un autoencoder basado en representaciones que, mediante una regularización de pivote y un entrenamiento por etapas, mejora tanto la generación como la edición de imágenes al lograr latentes compactos con alta fidelidad de reconstrucción y preservación semántica, superando a los tokenizadores visuales existentes.

Yue Gong, Hongyu Li, Shanyuan Liu, Bo Cheng, Yuhang Ma, Liebucha Wu, Xiaoyu Wu, Manyuan Zhang, Dawei Leng, Yuhui Yin, Lijun Zhang2026-03-20💻 cs

Do VLMs Need Vision Transformers? Evaluating State Space Models as Vision Encoders

Este trabajo demuestra que los modelos de espacio de estado (SSM) pueden servir como una alternativa robusta y eficiente a los transformadores visuales en los modelos de lenguaje y visión grandes, logrando un rendimiento superior o competitivo en tareas de comprensión visual y localización con una escala de modelo significativamente menor.

Shang-Jui Ray Kuo, Paola Cascante-Bonilla2026-03-20🤖 cs.LG

DreamPartGen: Semantically Grounded Part-Level 3D Generation via Collaborative Latent Denoising

DreamPartGen es un marco de generación 3D basado en texto que logra una síntesis coherente y semánticamente fundamentada mediante el uso de latentes duales para geometría y apariencia, latentes semánticos relacionales para las dependencias entre partes y un proceso de denoising sincronizado que asegura la consistencia mutua.

Tianjiao Yu, Xinzhuo Li, Muntasir Wahed, Jerry Xiong, Yifan Shen, Ying Shen, Ismini Lourentzou2026-03-20🤖 cs.LG

LVOmniBench: Pioneering Long Audio-Video Understanding Evaluation for Omnimodal LLMs

El artículo presenta LVOmniBench, un nuevo benchmark diseñado para evaluar la comprensión de audio y video de larga duración en modelos de lenguaje multimodal, revelando que las capacidades actuales de estos modelos son insuficientes para manejar contextos extensos.

Keda Tao, Yuhua Zheng, Jia Xu, Wenjie Du, Kele Shao, Hesong Wang, Xueyi Chen, Xin Jin, Junhan Zhu, Bohan Yu, Weiqiang Wang, Jian Liu, Can Qin, Yulun Zhang, Ming-Hsuan Yang, Huan Wang2026-03-20💻 cs

Rethinking Vector Field Learning for Generative Segmentation

Este trabajo mejora la segmentación generativa mediante una estrategia de remodelado de campos vectoriales que corrige el desvanecimiento del gradiente y la mala separación de clases, integrando un término de corrección basado en la distancia y un esquema de codificación de categorías eficiente para cerrar la brecha de rendimiento con los métodos discriminativos.

Chaoyang Wang, Yaobo Liang, Boci Peng, Fan Duan, Jingdong Wang, Yunhai Tong2026-03-20💻 cs

DriveTok: 3D Driving Scene Tokenization for Unified Multi-View Reconstruction and Understanding

DriveTok es un tokenizador de escenas de conducción 3D eficiente que transforma características visuales en tokens unificados mediante atención cruzada deformable, permitiendo la reconstrucción y comprensión multi-vista simultánea de imágenes, profundidad y ocupación semántica en entornos de conducción autónoma.

Dong Zhuo, Wenzhao Zheng, Sicheng Zuo, Siming Yan, Lu Hou, Jie Zhou, Jiwen Lu2026-03-20🤖 cs.LG

Spectrally-Guided Diffusion Noise Schedules

Este trabajo propone un método basado en las propiedades espectrales de la imagen para diseñar horarios de ruido por instancia en modelos de difusión, eliminando pasos redundantes y mejorando la calidad generativa, especialmente en configuraciones con pocos pasos.

Carlos Esteves, Ameesh Makadia2026-03-20🤖 cs.LG

EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing

Este trabajo presenta VOR, un nuevo conjunto de datos a gran escala diseñado para abordar la falta de ejemplos sistemáticos de efectos de objetos, y propone EffectErase, un método innovador que combina la eliminación y la inserción de objetos mediante aprendizaje recíproco para lograr una borrado de alta calidad de objetos dinámicos y sus efectos visuales en videos.

Yang Fu, Yike Zheng, Ziyun Dai, Henghui Ding2026-03-20💻 cs

Under One Sun: Multi-Object Generative Perception of Materials and Illumination

El artículo presenta MultiGP, un método de renderizado inverso generativo que descompone una sola imagen en reflectancia, textura e iluminación compartida para múltiples objetos, aprovechando la coherencia de la iluminación común mediante una arquitectura en cascada, una guía coordinada para la difusión, atención axial y un ControlNet de extracción de texturas.

Nobuo Yoshii, Xinran Nicole Han, Ryo Kawahara, Todd Zickler, Ko Nishino2026-03-20💻 cs

Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer

El artículo presenta un marco de tres etapas que integra modelos de difusión y tokens discretos mediante el tokenizador MoTok, logrando una generación de movimiento humana con alta fidelidad y control semántico y cinemático superior, tal como se demuestra en el conjunto de datos HumanML3D.

Chenyang Gu, Mingyuan Zhang, Haozhe Xie, Zhongang Cai, Lei Yang, Ziwei Liu2026-03-20💻 cs

← Anterior Siguiente →