WildGHand: Learning Anti-Perturbation Gaussian Hand Avatars from Monocular In-the-Wild Videos

WildGHand es un marco de optimización basado en *splatting* gaussiano que logra la reconstrucción de avatares de manos 3D de alta fidelidad a partir de videos monoculars en entornos reales, mediante la disociación dinámica de perturbaciones y una estrategia de optimización sensible a estas para superar desafíos como interacciones con objetos, iluminación variable y desenfoque de movimiento.

Hanhui Li, Xuan Huang, Wanquan Liu + 5 more2026-02-25💻 cs

BFA++: Hierarchical Best-Feature-Aware Token Prune for Multi-View Vision Language Action Model

El artículo presenta BFA++, un marco de poda dinámica de tokens diseñado específicamente para modelos de visión-idioma-acción que utiliza una estrategia de poda jerárquica guiada por predictores intra e inter-visuales para mejorar la eficiencia computacional y la tasa de éxito en tareas de manipulación robótica sin sacrificar el rendimiento.

Haosheng Li, Weixin Mao, Zihan Lan + 6 more2026-02-25💻 cs

An interactive enhanced driving dataset for autonomous driving

Este artículo presenta el IEDD, un conjunto de datos interactivo mejorado que utiliza una pipeline escalable para extraer millones de segmentos de interacción de datos de conducción natural y genera un subconjunto VQA con videos sintéticos de vista cenital para superar las limitaciones de alineación multimodal y escasez de escenarios interactivos en el desarrollo de modelos de conducción autónoma.

Haojie Feng, Peizhi Zhang, Mengjie Tian + 8 more2026-02-25💻 cs

PropFly: Learning to Propagate via On-the-Fly Supervision from Pre-trained Video Diffusion Models

PropFly es un pipeline de entrenamiento para la edición de video basada en propagación que elimina la necesidad de conjuntos de datos emparejados al generar supervisión en tiempo real a partir de modelos de difusión de video preentrenados, logrando así resultados de alta calidad y consistencia temporal que superan a los métodos actuales.

Wonyong Seo, Jaeho Moon, Jaehyup Lee + 2 more2026-02-25💻 cs

Long-Term Multi-Session 3D Reconstruction Under Substantial Appearance Change

Este artículo presenta un método de reconstrucción 3D conjunta que supera las limitaciones de los enfoques tradicionales al integrar correspondencias cruzadas entre sesiones mediante características visuales híbridas y reconocimiento de lugar, permitiendo así la creación de modelos coherentes a partir de imágenes capturadas con años de diferencia en entornos con cambios sustanciales como los arrecifes de coral.

Beverley Gorry, Tobias Fischer, Michael Milford + 1 more2026-02-25💻 cs

Interaction-aware Representation Modeling with Co-occurrence Consistency for Egocentric Hand-Object Parsing

Este artículo presenta InterFormer, un transformador consciente de la interacción que mejora el análisis de manos y objetos en visión egocéntrica mediante un generador de consultas dinámico, un selector de características de doble contexto y una pérdida de co-ocurrencia condicional para lograr un rendimiento superior y una consistencia física en la predicción.

Yuejiao Su, Yi Wang, Lei Yao + 2 more2026-02-25💻 cs

Knowing the Unknown: Interpretable Open-World Object Detection via Concept Decomposition Model

Este artículo presenta IPOW, un marco de detección de objetos en mundo abierto interpretable que utiliza un modelo de descomposición conceptual para distinguir entre categorías conocidas y desconocidas, mejorando así la recuperación de objetos desconocidos y mitigando la confusión mediante una rectificación guiada por conceptos.

Xueqiang Lv, Shizhou Zhang, Yinghui Xing + 3 more2026-02-25🤖 cs.LG

RecoverMark: Robust Watermarking for Localization and Recovery of Manipulated Faces

RecoverMark es un marco de marcaje de agua robusto que utiliza el contenido facial como marca de agua incrustada en el fondo para lograr simultáneamente la localización de manipulaciones, la recuperación de contenido y la verificación de propiedad intelectual, superando las vulnerabilidades de los métodos existentes mediante un entrenamiento progresivo que simula ataques adversarios.

Haonan An, Xiaohui Ye, Guang Hua + 4 more2026-02-25💻 cs

SurgAtt-Tracker: Online Surgical Attention Tracking via Temporal Proposal Reranking and Motion-Aware Refinement

El artículo presenta SurgAtt-Tracker, un marco holístico que rastrea la atención quirúrgica mediante la generación de mapas de calor densos y técnicas de refinamiento temporal para ofrecer una guía precisa del campo de visión en cirugías mínimamente invasivas, respaldado por el nuevo benchmark a gran escala SurgAtt-1.16M.

Rulin Zhou, Guankun Wang, An Wang + 12 more2026-02-25🤖 cs.AI

Vision-Language Models for Ergonomic Assessment of Manual Lifting Tasks: Estimating Horizontal and Vertical Hand Distances from RGB Video

Este estudio demuestra la viabilidad de utilizar modelos de visión-idioma basados en video RGB para estimar de forma no invasiva las distancias horizontales y verticales de las manos en tareas de levantamiento manual, logrando una mayor precisión mediante la incorporación de segmentación de píxeles y múltiples vistas.

Mohammad Sadra Rajabi, Aanuoluwapo Ojelade, Sunwook Kim + 1 more2026-02-25🤖 cs.AI

AnimeAgent: Is the Multi-Agent via Image-to-Video models a Good Disney Storytelling Artist?

El artículo presenta AnimeAgent, un marco multiagente pionero basado en modelos de Imagen-a-Video que supera las limitaciones de los enfoques estáticos actuales para la generación de storyboards personalizados, logrando un rendimiento superior en consistencia, fidelidad a los prompts y estilización mediante un flujo de trabajo iterativo inspirado en Disney y una evaluación híbrida.

Hailong Yan, Shice Liu, Tao Wang + 5 more2026-02-25💻 cs