cs.CV artículos | Gist.Science

Word-Anchored Temporal Forgery Localization

Este artículo presenta WAFL, un nuevo paradigma para la localización temporal de falsificaciones que transforma la tarea en una clasificación binaria a nivel de palabras mediante la alineación de características forenses y una pérdida asimétrica centrada en artefactos, logrando así un rendimiento superior con mayor eficiencia computacional.

Tianyi Wang, Xi Shao, Harry Cheng, Yinglong Wang, Mohan Kankanhalli2026-03-09💻 cs

Low-latency Event-based Object Detection with Spatially-Sparse Linear Attention

Este trabajo presenta SSLA-Det, un modelo de detección de objetos basado en cámaras de eventos que utiliza la atención lineal espacialmente dispersa para lograr un estado de la técnica en precisión y reducir la computación por evento en más de 20 veces, resolviendo así el compromiso entre latencia y rendimiento en arquitecturas asíncronas.

Haiqing Hao, Zhipeng Sui, Rong Zou, Zijia Dai, Nikola Zubic, Davide Scaramuzza, Wenhui Wang2026-03-09💻 cs

TaPD: Temporal-adaptive Progressive Distillation for Observation-Adaptive Trajectory Forecasting in Autonomous Driving

El artículo presenta TaPD, un marco unificado y adaptable que utiliza destilación progresiva de conocimiento y un módulo de relleno temporal para mejorar significativamente la predicción de trayectorias en vehículos autónomos, especialmente cuando la información histórica de observación es variable o extremadamente corta.

Mingyu Fan, Yi Liu, Hao Zhou, Deheng Qian, Mohammad Haziq Khan, Matthias Raetsch2026-03-09🤖 cs.AI

DC-Merge: Improving Model Merging with Directional Consistency

El artículo presenta DC-Merge, un método de fusión de modelos que mejora el rendimiento al equilibrar la distribución de energía de los vectores de tarea y alinear sus geometrías direccionales en un subespacio ortogonal compartido, logrando así resultados de vanguardia en diversas tareas de visión y visión-idioma.

Han-Chen Zhang, Zi-Hao Zhou, Mao-Lin Luo, Shimin Di, Min-Ling Zhang, Tong Wei2026-03-09🤖 cs.LG

Hierarchical Collaborative Fusion for 3D Instance-aware Referring Expression Segmentation

El artículo presenta HCF-RES, un marco multimodal innovador que logra resultados de vanguardia en la segmentación de referencias 3D generalizada mediante la descomposición semántica visual jerárquica y la fusión colaborativa progresiva para superar las limitaciones de las nubes de puntos dispersas.

Keshen Zhou, Runnan Chen, Mingming Gong, Tongliang Liu2026-03-09💻 cs

NOVA: Next-step Open-Vocabulary Autoregression for 3D Multi-Object Tracking in Autonomous Driving

El artículo presenta NOVA, un nuevo paradigma de autoregresión de vocabulario abierto que utiliza modelos de lenguaje grandes para reformular el seguimiento de múltiples objetos 3D como una tarea de generación de secuencias semánticas, logrando mejoras significativas en la generalización de categorías desconocidas y la consistencia de identidad en entornos de conducción autónoma.

Kai Luo, Xu Wang, Rui Fan, Kailun Yang2026-03-09💻 cs

GazeMoE: Perception of Gaze Target with Mixture-of-Experts

El artículo presenta GazeMoE, un marco de trabajo novedoso basado en una mezcla de expertos que aprovecha modelos fundacionales de visión congelados y mecanismos de equilibrio de clases para lograr un rendimiento superior en la estimación del objetivo de la mirada humana a partir de imágenes visibles.

Zhuangzhuang Dai, Zhongxi Lu, Vincent G. Zakka, Luis J. Manso, Jose M Alcaraz Calero, Chen Li2026-03-09🤖 cs.AI

ODD-SEC: Onboard Drone Detection with a Spinning Event Camera

Este trabajo presenta ODD-SEC, un sistema de detección de drones en tiempo real diseñado para portadores móviles que utiliza una cámara de eventos giratoria y una representación de eventos novedosa sin compensación de movimiento para lograr una detección fiable y una estimación de acimut precisa en condiciones desafiantes.

Kuan Dai, Hongxin Zhang, Sheng Zhong, Yi Zhou2026-03-09💻 cs

HiPP-Prune: Hierarchical Preference-Conditioned Structured Pruning for Vision-Language Models

El artículo presenta HiPP-Prune, un marco de poda estructurada jerárquica para modelos de visión y lenguaje que optimiza la asignación de recursos mediante un vector de preferencias del usuario y una señal de sensibilidad visual para lograr un equilibrio controlable entre la utilidad de la tarea, la robustez ante alucinaciones y la eficiencia de compresión.

Lincen Bai, Hedi Tabia, Raul Santos-Rodriguez2026-03-09🤖 cs.AI

Spectral and Trajectory Regularization for Diffusion Transformer Super-Resolution

El artículo presenta StrSR, un marco de destilación adversaria de un solo paso que utiliza regularización espectral y de trayectoria para superar las limitaciones de los métodos existentes y lograr un rendimiento superior en la super-resolución de imágenes del mundo real mediante transformadores de difusión.

Jingkai Wang, Yixin Tang, Jue Gong, Jiatong Li, Shu Li, Libo Liu, Jianliang Lan, Yutong Liu, Yulun Zhang2026-03-09💻 cs

Can we Trust Unreliable Voxels? Exploring 3D Semantic Occupancy Prediction under Label Noise

Este artículo presenta OccNL, el primer benchmark para la predicción de ocupación semántica 3D bajo ruido de etiquetas, y propone DPR-Occ, un marco robusto que supera el colapso de los métodos existentes al generar supervisión fiable mediante razonamiento de etiquetas parciales de doble fuente, logrando así mejoras significativas en entornos dinámicos.

Wenxin Li, Kunyu Peng, Di Wen, Junwei Zheng, Jiale Wei, Mengfei Duan, Yuheng Zhang, Rui Fan, Kailun Yang2026-03-09💻 cs

Attribute Distribution Modeling and Semantic-Visual Alignment for Generative Zero-shot Learning

El artículo propone ADiVA, un enfoque de aprendizaje cero-shot generativo que supera las limitaciones existentes mediante la modelización de distribuciones de atributos para capturar variabilidad intraclase y un módulo de alineación semántico-visual guiada por la visión, logrando un rendimiento superior en benchmarks estándar.

Haojie Pu, Zhuoming Li, Yongbiao Gao, Yuheng Jia2026-03-09💻 cs

FlowMotion: Training-Free Flow Guidance for Video Motion Transfer

El artículo presenta FlowMotion, un marco de transferencia de movimiento para video sin entrenamiento que utiliza directamente las predicciones latentes de modelos T2V basados en flujo para lograr una guía de movimiento eficiente y flexible, superando en rendimiento y ahorro de recursos a los métodos existentes.

Zhen Wang, Youcan Xu, Jun Xiao, Long Chen2026-03-09💻 cs

3D CBCT Artefact Removal Using Perpendicular Score-Based Diffusion Models

Este artículo propone un método de eliminación de artefactos en imágenes 3D de CBCT dental mediante modelos de difusión basados en puntuación perpendicular que operan en el dominio de las proyecciones para preservar las correlaciones tridimensionales y mejorar la calidad de la imagen.

Susanne Schaub, Florentin Bieder, Matheus L. Oliveira, Yulan Wang, Dorothea Dagassan-Berndt, Michael M. Bornstein, Philippe C. Cattin2026-03-09🤖 cs.LG

DEX-AR: A Dynamic Explainability Method for Autoregressive Vision-Language Models

DEX-AR es un nuevo método de explicabilidad dinámica diseñado para modelos de visión-lingüística autoregresivos que genera mapas de calor 2D a nivel de token y secuencia mediante el filtrado dinámico de cabezas de atención y la agregación de explicaciones, logrando mejoras significativas en métricas de perturbación y segmentación.

Walid Bousselham, Angie Boggust, Hendrik Strobelt, Hilde Kuehne2026-03-09🤖 cs.AI

Latent Transfer Attack: Adversarial Examples via Generative Latent Spaces

El artículo presenta LTA, un ataque adversarial de transferencia que optimiza perturbaciones en el espacio latente de un modelo generativo preentrenado en lugar de en el espacio de píxeles, logrando así ejemplos adversarios más robustos, coherentes espacialmente y con mejor capacidad de transferencia entre diferentes arquitecturas.

Eitan Shaar, Ariel Shaulov, Yalcin Tur, Gal Chechik, Ravid Shwartz-Ziv2026-03-09💻 cs

WMoE-CLIP: Wavelet-Enhanced Mixture-of-Experts Prompt Learning for Zero-Shot Anomaly Detection

El artículo presenta WMoE-CLIP, un método de aprendizaje de prompts para la detección de anomalías en cero shots que mejora la generalización mediante un autoencoder variacional, una descomposición por wavelets para capturar características multiespectrales y un módulo de expertos mixtos, logrando un rendimiento superior en 14 conjuntos de datos industriales y médicos.

Peng Chen, Chao Huang2026-03-09💻 cs

P-SLCR: Unsupervised Point Cloud Semantic Segmentation via Prototypes Structure Learning and Consistent Reasoning

El artículo presenta P-SLCR, un método no supervisado para la segmentación semántica de nubes de puntos que utiliza aprendizaje de estructura de prototipos y razonamiento consistente para lograr un rendimiento superior al de métodos totalmente supervisados como PointNet en conjuntos de datos como S3DIS.

Lixin Zhan, Jie Jiang, Tianjian Zhou, Yukun Du, Yan Zheng, Xuehu Duan2026-03-09💻 cs

The Art That Poses Back: Assessing AI Pastiches after Contemporary Artworks

Este estudio evalúa la capacidad de ChatGPT para generar pastiches de obras de arte contemporáneas, revelando mediante la participación de doce artistas que, aunque existen similitudes visuales, las creaciones de la IA carecen de dimensión, contexto e intención emocional, lo que demuestra la necesidad de utilizar métricas complementarias más allá de la simple transferencia de estilo.

Anca Dinu, Andreiana Mihail, Andra-Maria Florescu, Claudiu Creanga2026-03-09💬 cs.CL

WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

El artículo presenta WorldCache, un marco de caché que acelera los modelos de mundo basados en difusión mediante la predicción de tokens heterogéneos guiada por curvatura y un salto adaptativo priorizado por caos, logrando una aceleración de hasta 3.7 veces manteniendo una alta calidad en las simulaciones.

Weilun Feng, Guoxin Fan, Haotong Qin, Chuanguang Yang, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Dingrui Wang, Longlong Liao, Michele Magno, Yongjun Xu2026-03-09💻 cs

← Anterior Siguiente →