FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

El artículo presenta FLoC, un marco de compresión de tokens visuales sin entrenamiento y agnóstico al modelo que utiliza la función de ubicación de instalaciones y un algoritmo greedy perezoso para seleccionar de manera eficiente un subconjunto representativo de tokens, mejorando así la comprensión de videos largos en modelos multimodales grandes.

Janghoon Cho, Jungsoo Lee, Munawar Hayat + 3 more2026-03-06💻 cs

MotionStream: Real-Time Video Generation with Interactive Motion Controls

MotionStream es un sistema de generación de video en tiempo real que, mediante la destilación de un modelo bidireccional en un estudiante causal y el uso de atención deslizante con *attention sinks*, permite la creación de videos de duración ilimitada con control interactivo de movimiento a 29 FPS en una sola GPU, superando las limitaciones de latencia y acumulación de errores de los métodos anteriores.

Joonghyuk Shin, Zhengqi Li, Richard Zhang + 4 more2026-03-06💻 cs

SASG-DA: Sparse-Aware Semantic-Guided Diffusion Augmentation For Myoelectric Gesture Recognition

El artículo presenta SASG-DA, un método de aumento de datos basado en difusión que utiliza representaciones semánticas y un muestreo consciente de la dispersión para generar muestras de señales electromiográficas superficiales (sEMG) fieles y diversas, mejorando así significativamente el reconocimiento de gestos y la generalización en comparación con métodos existentes.

Chen Liu, Can Han, Weishi Xu + 2 more2026-03-06💻 cs

Observer-Actor: Active Vision Imitation Learning with Sparse-View Gaussian Splatting

El artículo presenta ObAct, un marco novedoso de aprendizaje por imitación con visión activa que utiliza un sistema robótico de doble brazo con cámaras en la muñeca para construir dinámicamente una representación 3DGS, explorar virtualmente y mover el brazo observador a la posición óptima, logrando así políticas más robustas y eficaces que superan significativamente a los enfoques con cámaras estáticas.

Yilong Wang, Cheng Qian, Ruomeng Fan + 1 more2026-03-06💻 cs

STAvatar: Soft Binding and Temporal Density Control for Monocular 3D Head Avatars Reconstruction

STAvatar es un método de vanguardia para la reconstrucción de avatares 3D de cabeza a partir de videos monoculares que supera las limitaciones de rigidez y expresividad de los enfoques existentes mediante un marco de unión suave adaptativo a la UV y una estrategia de control de densidad temporal que optimiza la captura de detalles finos y regiones frecuentemente ocluidas.

Jiankuo Zhao, Xiangyu Zhu, Zidu Wang + 1 more2026-03-06💻 cs

PowerCLIP: Powerset Alignment for Contrastive Pre-Training

El artículo presenta PowerCLIP, un marco de pre-entrenamiento contrastivo que supera las limitaciones de los modelos anteriores al alinear exhaustivamente subconjuntos de regiones de imágenes con estructuras sintácticas del texto mediante agregadores no lineales eficientes, logrando así un rendimiento superior en tareas de clasificación y recuperación sin supervisión.

Masaki Kawamura, Nakamasa Inoue, Rintaro Yanagi + 2 more2026-03-06💻 cs

DPAC: Distribution-Preserving Adversarial Control for Diffusion Sampling

El artículo presenta DPAC, un método de control adversarial para el muestreo de difusión que proyecta los gradientes sobre el espacio tangente definido por la geometría de la puntuación generativa para minimizar la divergencia KL en el espacio de trayectorias, preservando así la calidad de las muestras y mejorando métricas como el FID sin comprometer la tasa de éxito del ataque.

Han-Jin Lee, Han-Ju Lee, Jin-Seong Kim + 1 more2026-03-06💻 cs