Observer-Actor: Active Vision Imitation Learning with Sparse-View Gaussian Splatting

El artículo presenta ObAct, un marco novedoso de aprendizaje por imitación con visión activa que utiliza un sistema robótico de doble brazo con cámaras en la muñeca para construir dinámicamente una representación 3DGS, explorar virtualmente y mover el brazo observador a la posición óptima, logrando así políticas más robustas y eficaces que superan significativamente a los enfoques con cámaras estáticas.

Yilong Wang, Cheng Qian, Ruomeng Fan + 1 more2026-03-06💻 cs

STAvatar: Soft Binding and Temporal Density Control for Monocular 3D Head Avatars Reconstruction

STAvatar es un método de vanguardia para la reconstrucción de avatares 3D de cabeza a partir de videos monoculares que supera las limitaciones de rigidez y expresividad de los enfoques existentes mediante un marco de unión suave adaptativo a la UV y una estrategia de control de densidad temporal que optimiza la captura de detalles finos y regiones frecuentemente ocluidas.

Jiankuo Zhao, Xiangyu Zhu, Zidu Wang + 1 more2026-03-06💻 cs

PowerCLIP: Powerset Alignment for Contrastive Pre-Training

El artículo presenta PowerCLIP, un marco de pre-entrenamiento contrastivo que supera las limitaciones de los modelos anteriores al alinear exhaustivamente subconjuntos de regiones de imágenes con estructuras sintácticas del texto mediante agregadores no lineales eficientes, logrando así un rendimiento superior en tareas de clasificación y recuperación sin supervisión.

Masaki Kawamura, Nakamasa Inoue, Rintaro Yanagi + 2 more2026-03-06💻 cs

DPAC: Distribution-Preserving Adversarial Control for Diffusion Sampling

El artículo presenta DPAC, un método de control adversarial para el muestreo de difusión que proyecta los gradientes sobre el espacio tangente definido por la geometría de la puntuación generativa para minimizar la divergencia KL en el espacio de trayectorias, preservando así la calidad de las muestras y mejorando métricas como el FID sin comprometer la tasa de éxito del ataque.

Han-Jin Lee, Han-Ju Lee, Jin-Seong Kim + 1 more2026-03-06💻 cs

Revolutionizing Mixed Precision Quantization: Towards Training-free Automatic Proxy Discovery via Large Language Models

Este artículo presenta TAP, un marco innovador impulsado por modelos de lenguaje grandes (LLM) y estrategias evolutivas que descubre automáticamente proxies de búsqueda de cuantización de precisión mixta sin necesidad de entrenamiento ni intervención humana, superando a los métodos convencionales mediante un controlador de optimización directa de preferencias (DPO) que refina dinámicamente la generación de proxies.

Haidong Kang, Jun Du, Lihong Lin2026-03-06💻 cs

DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance

Este artículo presenta DriverGaze360, un nuevo conjunto de datos a gran escala con campo de visión de 360° y un método de predicción de atención llamado DriverGaze360-Net que, al integrar la detección de objetos, supera las limitaciones de los enfoques anteriores para modelar el comportamiento de la mirada del conductor en entornos de conducción omnidireccionales.

Shreedhar Govil, Didier Stricker, Jason Rambach2026-03-06💻 cs

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

Este artículo presenta PhyGDPO, un marco de optimización directa grupal consciente de la física que, junto con un pipeline de construcción de datos aumentados (PhyAugPipe) y un conjunto de datos a gran escala (PhyVidGen-135K), mejora significativamente la consistencia física en la generación de video texto-a-video superando a los métodos actuales.

Yuanhao Cai, Kunpeng Li, Menglin Jia + 11 more2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

Este trabajo evalúa la capacidad de los modelos fundacionales para identificar momentos clave en videos de fútbol, revelando mediante un nuevo dataset que su rendimiento es cercano al azar debido a su dependencia de una sola modalidad y la falta de sinergia entre fuentes de información, lo que subraya la necesidad de arquitecturas modulares y procedimientos de entrenamiento complementarios.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs