cs.CV artículos | Gist.Science

Robust Spiking Neural Networks Against Adversarial Attacks

Este estudio propone un método de optimización de protección umbral (TGO) que mejora significativamente la robustez de las redes neuronales de pulsos (SNN) entrenadas directamente contra ataques adversarios al alejar los potenciales de membrana de los umbrales y convertir el mecanismo de disparo neuronal en probabilístico.

Shuai Wang, Malu Zhang, Yulin Jiang + 7 more2026-02-25💻 cs

Sample-efficient evidence estimation of score based priors for model selection

Este trabajo presenta un método eficiente en términos de muestras para estimar la evidencia del modelo en priores basados en difusión, permitiendo la selección precisa de modelos y el diagnóstico de errores en problemas inversos de imagen altamente mal condicionados mediante el aprovechamiento de muestras intermedias del proceso de muestreo posterior.

Frederic Wang, Katherine L. Bouman2026-02-25📊 stat

The Finite Primitive Basis Theorem for Computational Imaging: Formal Foundations of the OperatorGraph Representation

Este artículo establece el Teorema de la Base Finita, demostrando que cualquier modelo de imagen computacional puede representarse de manera constructiva y minimalista como un grafo acíclico dirigido compuesto por exactamente 11 primitivas canónicas, sentando así las bases matemáticas para el marco del Modelo de Mundo Físico.

Chengshuai Yang2026-02-25💻 cs

WildGHand: Learning Anti-Perturbation Gaussian Hand Avatars from Monocular In-the-Wild Videos

WildGHand es un marco de optimización basado en *splatting* gaussiano que logra la reconstrucción de avatares de manos 3D de alta fidelidad a partir de videos monoculars en entornos reales, mediante la disociación dinámica de perturbaciones y una estrategia de optimización sensible a estas para superar desafíos como interacciones con objetos, iluminación variable y desenfoque de movimiento.

Hanhui Li, Xuan Huang, Wanquan Liu + 5 more2026-02-25💻 cs

BFA++: Hierarchical Best-Feature-Aware Token Prune for Multi-View Vision Language Action Model

El artículo presenta BFA++, un marco de poda dinámica de tokens diseñado específicamente para modelos de visión-idioma-acción que utiliza una estrategia de poda jerárquica guiada por predictores intra e inter-visuales para mejorar la eficiencia computacional y la tasa de éxito en tareas de manipulación robótica sin sacrificar el rendimiento.

Haosheng Li, Weixin Mao, Zihan Lan + 6 more2026-02-25💻 cs

AIForge-Doc: A Benchmark for Detecting AI-Forged Tampering in Financial and Form Documents

El artículo presenta AIForge-Doc, el primer benchmark diseñado para detectar falsificaciones de documentos financieros y formularios generadas por modelos de difusión, revelando que los detectores actuales y los modelos de visión-lingüística fallan estrepitosamente al identificar estas manipulaciones a nivel de píxel.

Jiaqi Wu, Yuchen Zhou, Muduo Xu + 6 more2026-02-25💻 cs

An interactive enhanced driving dataset for autonomous driving

Este artículo presenta el IEDD, un conjunto de datos interactivo mejorado que utiliza una pipeline escalable para extraer millones de segmentos de interacción de datos de conducción natural y genera un subconjunto VQA con videos sintéticos de vista cenital para superar las limitaciones de alineación multimodal y escasez de escenarios interactivos en el desarrollo de modelos de conducción autónoma.

Haojie Feng, Peizhi Zhang, Mengjie Tian + 8 more2026-02-25💻 cs

Efficient and Explainable End-to-End Autonomous Driving via Masked Vision-Language-Action Diffusion

El artículo presenta MVLAD-AD, un marco innovador de difusión enmascarada que combina visión, lenguaje y acción mediante una tokenización discreta y embebidos geométricos para lograr una conducción autónoma de extremo a extremo que es simultáneamente eficiente, precisa y explicativa.

Jiaru Zhang, Manav Gagvani, Can Cui + 3 more2026-02-25💻 cs

PropFly: Learning to Propagate via On-the-Fly Supervision from Pre-trained Video Diffusion Models

PropFly es un pipeline de entrenamiento para la edición de video basada en propagación que elimina la necesidad de conjuntos de datos emparejados al generar supervisión en tiempo real a partir de modelos de difusión de video preentrenados, logrando así resultados de alta calidad y consistencia temporal que superan a los métodos actuales.

Wonyong Seo, Jaeho Moon, Jaehyup Lee + 2 more2026-02-25💻 cs

Long-Term Multi-Session 3D Reconstruction Under Substantial Appearance Change

Este artículo presenta un método de reconstrucción 3D conjunta que supera las limitaciones de los enfoques tradicionales al integrar correspondencias cruzadas entre sesiones mediante características visuales híbridas y reconocimiento de lugar, permitiendo así la creación de modelos coherentes a partir de imágenes capturadas con años de diferencia en entornos con cambios sustanciales como los arrecifes de coral.

Beverley Gorry, Tobias Fischer, Michael Milford + 1 more2026-02-25💻 cs

Interaction-aware Representation Modeling with Co-occurrence Consistency for Egocentric Hand-Object Parsing

Este artículo presenta InterFormer, un transformador consciente de la interacción que mejora el análisis de manos y objetos en visión egocéntrica mediante un generador de consultas dinámico, un selector de características de doble contexto y una pérdida de co-ocurrencia condicional para lograr un rendimiento superior y una consistencia física en la predicción.

Yuejiao Su, Yi Wang, Lei Yao + 2 more2026-02-25💻 cs

VAGNet: Grounding 3D Affordance from Human-Object Interactions in Videos

El artículo presenta VAGNet, un marco que mejora la localización de affordances en objetos 3D al aprovechar secuencias de interacción humana dinámicas en lugar de solo señales estáticas, respaldado por el nuevo conjunto de datos PVAD.

Aihua Mao, Kaihang Huang, Yong-Jin Liu + 2 more2026-02-25💻 cs

Knowing the Unknown: Interpretable Open-World Object Detection via Concept Decomposition Model

Este artículo presenta IPOW, un marco de detección de objetos en mundo abierto interpretable que utiliza un modelo de descomposición conceptual para distinguir entre categorías conocidas y desconocidas, mejorando así la recuperación de objetos desconocidos y mitigando la confusión mediante una rectificación guiada por conceptos.

Xueqiang Lv, Shizhou Zhang, Yinghui Xing + 3 more2026-02-25🤖 cs.LG

RecoverMark: Robust Watermarking for Localization and Recovery of Manipulated Faces

RecoverMark es un marco de marcaje de agua robusto que utiliza el contenido facial como marca de agua incrustada en el fondo para lograr simultáneamente la localización de manipulaciones, la recuperación de contenido y la verificación de propiedad intelectual, superando las vulnerabilidades de los métodos existentes mediante un entrenamiento progresivo que simula ataques adversarios.

Haonan An, Xiaohui Ye, Guang Hua + 4 more2026-02-25💻 cs

Boosting Instance Awareness via Cross-View Correlation with 4D Radar and Camera for 3D Object Detection

El artículo presenta SIFormer, un transformador que mejora la detección 3D de objetos al combinar cámaras y radares 4D mediante un mecanismo de activación cruzada que inyecta pistas de instancias 2D en el espacio BEV para superar la escasez de datos geométricos del radar y lograr un rendimiento de vanguardia.

Xiaokai Bai, Lianqing Zheng, Si-Yuan Cao + 6 more2026-02-25💻 cs

SurgAtt-Tracker: Online Surgical Attention Tracking via Temporal Proposal Reranking and Motion-Aware Refinement

El artículo presenta SurgAtt-Tracker, un marco holístico que rastrea la atención quirúrgica mediante la generación de mapas de calor densos y técnicas de refinamiento temporal para ofrecer una guía precisa del campo de visión en cirugías mínimamente invasivas, respaldado por el nuevo benchmark a gran escala SurgAtt-1.16M.

Rulin Zhou, Guankun Wang, An Wang + 12 more2026-02-25🤖 cs.AI

SD4R: Sparse-to-Dense Learning for 3D Object Detection with 4D Radar

Este artículo presenta SD4R, un marco novedoso que transforma nubes de puntos de radar 4D escasas en representaciones densas mediante un generador de puntos de primer plano y un codificador de consultas de logit, logrando un rendimiento superior en la detección de objetos 3D al abordar los desafíos de esparsidad y ruido inherentes a estos datos.

Xiaokai Bai, Jiahao Cheng, Songkai Wang + 5 more2026-02-25💻 cs

Vision-Language Models for Ergonomic Assessment of Manual Lifting Tasks: Estimating Horizontal and Vertical Hand Distances from RGB Video

Este estudio demuestra la viabilidad de utilizar modelos de visión-idioma basados en video RGB para estimar de forma no invasiva las distancias horizontales y verticales de las manos en tareas de levantamiento manual, logrando una mayor precisión mediante la incorporación de segmentación de píxeles y múltiples vistas.

Mohammad Sadra Rajabi, Aanuoluwapo Ojelade, Sunwook Kim + 1 more2026-02-25🤖 cs.AI

AnimeAgent: Is the Multi-Agent via Image-to-Video models a Good Disney Storytelling Artist?

El artículo presenta AnimeAgent, un marco multiagente pionero basado en modelos de Imagen-a-Video que supera las limitaciones de los enfoques estáticos actuales para la generación de storyboards personalizados, logrando un rendimiento superior en consistencia, fidelidad a los prompts y estilización mediante un flujo de trabajo iterativo inspirado en Disney y una evaluación híbrida.

Hailong Yan, Shice Liu, Tao Wang + 5 more2026-02-25💻 cs

BoxSplitGen: A Generative Model for 3D Part Bounding Boxes in Varying Granularity

El artículo presenta BoxSplitGen, un marco generativo interactivo que facilita la creación 3D detallada mediante la división iterativa de cajas delimitadoras para refinar formas abstractas y su posterior conversión en mallas 3D de alta calidad.

Juil Koo, Wei-Tung Lin, Chanho Park + 2 more2026-02-25💻 cs

← Anterior Siguiente →