Mode Seeking meets Mean Seeking for Fast Long Video Generation

Este trabajo propone un paradigma de entrenamiento que combina la búsqueda de modos y la búsqueda de medias mediante un Transformador de Difusión Desacoplado para generar videos largos de alta fidelidad y coherencia en pocos pasos, superando la escasez de datos de larga duración al alinear la estructura narrativa global con la realismo local aprendido de un modelo maestro de videos cortos.

Shengqu Cai, Weili Nie, Chao Liu + 8 more2026-03-02🤖 cs.LG

SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation

El artículo presenta SGIFormer, un método novedoso para la segmentación de instancias en nubes de puntos 3D que combina una inicialización de consultas guiada por semántica y un decodificador transformador intercalado mejorado geométricamente para lograr un rendimiento superior y un equilibrio entre precisión y eficiencia en escenarios a gran escala.

Lei Yao, Yi Wang, Moyun Liu + 1 more2026-02-27💻 cs

From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects

Este artículo propone un marco que permite a los modelos de visión y lenguaje operar en entornos abiertos identificando y aprendiendo incrementalmente objetos desconocidos mediante las técnicas OWEL y MSCAL, superando así las limitaciones de la detección de vocabulario abierto tradicional y logrando un rendimiento de vanguardia en benchmarks de conducción autónoma.

Zizhao Li, Zhengkang Xiang, Joseph West + 1 more2026-02-27🤖 cs.AI

MomentMix Augmentation with Length-Aware DETR for Temporally Robust Moment Retrieval

El artículo presenta MomentMix, una técnica de aumento de datos que combina ForegroundMix y BackgroundMix, junto con un Decodificador Consciente de la Longitud (Length-Aware Decoder) basado en DETR, para mejorar significativamente la recuperación de momentos breves en videos y superar el estado del arte en conjuntos de datos como QVHighlights, TACoS y Charades-STA.

Seojeong Park, Jiho Choi, Kyungjune Baek + 1 more2026-02-27🤖 cs.AI

RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers

El artículo presenta RelaCtrl, un marco de generación controlada eficiente que optimiza la integración de señales de control en los Transformadores de Difusión mediante la evaluación de la relevancia de cada capa y el uso de un mezclador de barajado bidimensional, logrando un rendimiento superior con solo el 15% de los parámetros y la complejidad computacional de métodos existentes como PixArt-delta.

Ke Cao, Jing Wang, Ao Ma + 11 more2026-02-27💻 cs

UniFuture: A 4D Driving World Model for Future Generation and Perception

El artículo presenta UniFuture, un modelo unificado de mundo 4D para la conducción autónoma que genera secuencias futuras de imágenes y mapas de profundidad geométricamente consistentes mediante un esquema de compartición de latentes duales y un mecanismo de interacción multiescala, superando así las limitaciones de los modelos existentes que tratan por separado la apariencia y la geometría.

Dingkang Liang, Dingyuan Zhang, Xin Zhou + 7 more2026-02-27💻 cs