cs.CV artículos | Gist.Science

Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach

El artículo presenta FlashCache, un marco de compresión de caché KV multimodal que utiliza un enfoque guiado por el dominio de la frecuencia para identificar y preservar las salidas atípicas (outliers), logrando una reducción significativa de la memoria y una aceleración en la inferencia sin comprometer el rendimiento de los modelos.

Yaoxin Yang, Peng Ye, Xudong Tan + 4 more2026-03-06💻 cs

MambaTAD: When State-Space Models Meet Long-Range Temporal Action Detection

El artículo presenta MambaTAD, un modelo de detección de acciones temporales que integra modelos de espacio de estados con dos innovaciones clave, el módulo DMBSS y una cabeza de fusión de características globales, para superar los desafíos de la detección de acciones de larga duración en videos sin recortar.

Hui Lu, Yi Yu, Shijian Lu + 4 more2026-03-06💻 cs

Observer-Actor: Active Vision Imitation Learning with Sparse-View Gaussian Splatting

El artículo presenta ObAct, un marco novedoso de aprendizaje por imitación con visión activa que utiliza un sistema robótico de doble brazo con cámaras en la muñeca para construir dinámicamente una representación 3DGS, explorar virtualmente y mover el brazo observador a la posición óptima, logrando así políticas más robustas y eficaces que superan significativamente a los enfoques con cámaras estáticas.

Yilong Wang, Cheng Qian, Ruomeng Fan + 1 more2026-03-06💻 cs

STAvatar: Soft Binding and Temporal Density Control for Monocular 3D Head Avatars Reconstruction

STAvatar es un método de vanguardia para la reconstrucción de avatares 3D de cabeza a partir de videos monoculares que supera las limitaciones de rigidez y expresividad de los enfoques existentes mediante un marco de unión suave adaptativo a la UV y una estrategia de control de densidad temporal que optimiza la captura de detalles finos y regiones frecuentemente ocluidas.

Jiankuo Zhao, Xiangyu Zhu, Zidu Wang + 1 more2026-03-06💻 cs

RadarVLM: A Vision-Language Model Approach for Radar Scene Understanding

El artículo presenta RadarVLM, un marco de visión-idioma que unifica la comprensión de escenas de radar mediante un sistema de subtítulos espaciales estructurados y un objetivo de alineación CLIP mejorado, logrando mejoras significativas en tareas de segmentación y generación de descripciones al aprender representaciones espacialmente fundamentadas.

Pushkal Mishra, Kshitiz Bansal, Dinesh Bharadia2026-03-06💻 cs

PowerCLIP: Powerset Alignment for Contrastive Pre-Training

El artículo presenta PowerCLIP, un marco de pre-entrenamiento contrastivo que supera las limitaciones de los modelos anteriores al alinear exhaustivamente subconjuntos de regiones de imágenes con estructuras sintácticas del texto mediante agregadores no lineales eficientes, logrando así un rendimiento superior en tareas de clasificación y recuperación sin supervisión.

Masaki Kawamura, Nakamasa Inoue, Rintaro Yanagi + 2 more2026-03-06💻 cs

DPAC: Distribution-Preserving Adversarial Control for Diffusion Sampling

El artículo presenta DPAC, un método de control adversarial para el muestreo de difusión que proyecta los gradientes sobre el espacio tangente definido por la geometría de la puntuación generativa para minimizar la divergencia KL en el espacio de trayectorias, preservando así la calidad de las muestras y mejorando métricas como el FID sin comprometer la tasa de éxito del ataque.

Han-Jin Lee, Han-Ju Lee, Jin-Seong Kim + 1 more2026-03-06💻 cs

Fairness-Aware Fine-Tuning of Vision-Language Models for Medical Glaucoma Diagnosis

Este artículo presenta un enfoque de ajuste fino eficiente en parámetros para modelos de visión-idioma en el diagnóstico de glaucoma, que utiliza una nueva función de pérdida diferenciable y técnicas de ponderación para reducir significativamente las disparidades diagnósticas entre grupos demográficos manteniendo una alta precisión general.

Zijian Gu, Yuxi Liu, Zhenhao Zhang + 1 more2026-03-06💻 cs

UniComp: Rethinking Video Compression Through Informational Uniqueness

El artículo presenta UniComp, un marco de compresión de video impulsado por la unicidad informativa que, mediante la fusión de grupos de cuadros, la asignación de tokens y la compresión espacial dinámica, maximiza la fidelidad de la información bajo presupuestos computacionales limitados superando a los métodos existentes.

Chao Yuan, Shimin Chen, Minliang Lin + 3 more2026-03-06💻 cs

NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation

El artículo presenta NeuralRemaster, un método de difusión que preserva la fase de la imagen para generar resultados estructuralmente alineados y controlables en tareas como re-renderizado y mejora de simulaciones, sin requerir cambios arquitectónicos ni costos adicionales de inferencia.

Yu Zeng, Charles Ochoa, Mingyuan Zhou + 3 more2026-03-06💻 cs

Revolutionizing Mixed Precision Quantization: Towards Training-free Automatic Proxy Discovery via Large Language Models

Este artículo presenta TAP, un marco innovador impulsado por modelos de lenguaje grandes (LLM) y estrategias evolutivas que descubre automáticamente proxies de búsqueda de cuantización de precisión mixta sin necesidad de entrenamiento ni intervención humana, superando a los métodos convencionales mediante un controlador de optimización directa de preferencias (DPO) que refina dinámicamente la generación de proxies.

Haidong Kang, Jun Du, Lihong Lin2026-03-06💻 cs

EgoCampus: Egocentric Pedestrian Eye Gaze Model and Dataset

Este trabajo presenta EgoCampus, un nuevo conjunto de datos y un modelo de red neuronal (EgoCampusNet) diseñados para predecir la atención visual de peatones en entornos exteriores, basándose en grabaciones egocéntricas realizadas con gafas Meta Project Aria en un campus universitario.

Ronan John, Aditya Kesari, Vincenzo DiMatteo + 1 more2026-03-06💻 cs

DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance

Este artículo presenta DriverGaze360, un nuevo conjunto de datos a gran escala con campo de visión de 360° y un método de predicción de atención llamado DriverGaze360-Net que, al integrar la detección de objetos, supera las limitaciones de los enfoques anteriores para modelar el comportamiento de la mirada del conductor en entornos de conducción omnidireccionales.

Shreedhar Govil, Didier Stricker, Jason Rambach2026-03-06💻 cs

ViRC: Enhancing Visual Interleaved Mathematical CoT with Reason Chunking

El artículo presenta ViRC, un marco que mejora el razonamiento matemático multimodal mediante la "fragmentación de razonamiento" (Reason Chunking) y el conjunto de datos CRUX, logrando una mejora significativa del 18,8% sobre las líneas base al simular el proceso de resolución de problemas paso a paso de los expertos humanos.

Lihong Wang, Liangqi Li, Weiwei Feng + 6 more2026-03-06💻 cs

FluenceFormer: Transformer-Driven Multi-Beam Fluence Map Regression for Radiotherapy Planning

El artículo presenta FluenceFormer, un marco basado en transformadores que utiliza un diseño de dos etapas y una pérdida informada por física para predecir mapas de fluencia en planificación de radioterapia, logrando una mayor precisión estructural y conservación de energía que los métodos anteriores.

Ujunwa Mgboh, Rafi Ibn Sultan, Joshua Kim + 2 more2026-03-06💻 cs

Parallel Diffusion Solver via Residual Dirichlet Policy Optimization

Este artículo presenta el EPD-Solver, un nuevo solucionador de ecuaciones diferenciales que acelera la generación de imágenes mediante evaluaciones de gradiente paralelizables y un esquema de optimización de dos etapas con aprendizaje por refuerzo, logrando así una inferencia de baja latencia sin sacrificar la calidad visual.

Ruoyu Wang, Ziyu Li, Beier Zhu + 5 more2026-03-06💻 cs

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

Este artículo presenta PhyGDPO, un marco de optimización directa grupal consciente de la física que, junto con un pipeline de construcción de datos aumentados (PhyAugPipe) y un conjunto de datos a gran escala (PhyVidGen-135K), mejora significativamente la consistencia física en la generación de video texto-a-video superando a los métodos actuales.

Yuanhao Cai, Kunpeng Li, Menglin Jia + 11 more2026-03-06💻 cs

MorphAny3D: Unleashing the Power of Structured Latent in 3D Morphing

El artículo presenta MorphAny3D, un marco sin entrenamiento que utiliza representaciones de latente estructurado y mecanismos de atención especializados para generar secuencias de morfado 3D de alta calidad, semánticamente consistentes y temporalmente suaves, incluso entre diferentes categorías.

Xiaokun Sun, Zeyu Cai, Hao Tang + 3 more2026-03-06💻 cs

EmboTeam: Grounding LLM Reasoning into Reactive Behavior Trees via PDDL for Embodied Multi-Robot Collaboration

El artículo presenta EmboTeam, un marco de planificación para equipos de robots heterogéneos que integra el razonamiento de modelos de lenguaje grande con árboles de comportamiento reactivos mediante PDDL, logrando mejoras significativas en la ejecución de tareas complejas de largo alcance en entornos domésticos simulados.

Haishan Zeng, Mengna Wang, Peng Li2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

Este trabajo evalúa la capacidad de los modelos fundacionales para identificar momentos clave en videos de fútbol, revelando mediante un nuevo dataset que su rendimiento es cercano al azar debido a su dependencia de una sola modalidad y la falta de sinergia entre fuentes de información, lo que subraya la necesidad de arquitecturas modulares y procedimientos de entrenamiento complementarios.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

← Anterior Siguiente →