cs.CV artículos | Gist.Science

RadarVLM: A Vision-Language Model Approach for Radar Scene Understanding

El artículo presenta RadarVLM, un marco de visión-idioma que unifica la comprensión de escenas de radar mediante un sistema de subtítulos espaciales estructurados y un objetivo de alineación CLIP mejorado, logrando mejoras significativas en tareas de segmentación y generación de descripciones al aprender representaciones espacialmente fundamentadas.

Pushkal Mishra, Kshitiz Bansal, Dinesh Bharadia2026-03-06💻 cs

PowerCLIP: Powerset Alignment for Contrastive Pre-Training

El artículo presenta PowerCLIP, un marco de pre-entrenamiento contrastivo que supera las limitaciones de los modelos anteriores al alinear exhaustivamente subconjuntos de regiones de imágenes con estructuras sintácticas del texto mediante agregadores no lineales eficientes, logrando así un rendimiento superior en tareas de clasificación y recuperación sin supervisión.

Masaki Kawamura, Nakamasa Inoue, Rintaro Yanagi + 2 more2026-03-06💻 cs

DPAC: Distribution-Preserving Adversarial Control for Diffusion Sampling

El artículo presenta DPAC, un método de control adversarial para el muestreo de difusión que proyecta los gradientes sobre el espacio tangente definido por la geometría de la puntuación generativa para minimizar la divergencia KL en el espacio de trayectorias, preservando así la calidad de las muestras y mejorando métricas como el FID sin comprometer la tasa de éxito del ataque.

Han-Jin Lee, Han-Ju Lee, Jin-Seong Kim + 1 more2026-03-06💻 cs

Fairness-Aware Fine-Tuning of Vision-Language Models for Medical Glaucoma Diagnosis

Este artículo presenta un enfoque de ajuste fino eficiente en parámetros para modelos de visión-idioma en el diagnóstico de glaucoma, que utiliza una nueva función de pérdida diferenciable y técnicas de ponderación para reducir significativamente las disparidades diagnósticas entre grupos demográficos manteniendo una alta precisión general.

Zijian Gu, Yuxi Liu, Zhenhao Zhang + 1 more2026-03-06💻 cs

UniComp: Rethinking Video Compression Through Informational Uniqueness

El artículo presenta UniComp, un marco de compresión de video impulsado por la unicidad informativa que, mediante la fusión de grupos de cuadros, la asignación de tokens y la compresión espacial dinámica, maximiza la fidelidad de la información bajo presupuestos computacionales limitados superando a los métodos existentes.

Chao Yuan, Shimin Chen, Minliang Lin + 3 more2026-03-06💻 cs

NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation

El artículo presenta NeuralRemaster, un método de difusión que preserva la fase de la imagen para generar resultados estructuralmente alineados y controlables en tareas como re-renderizado y mejora de simulaciones, sin requerir cambios arquitectónicos ni costos adicionales de inferencia.

Yu Zeng, Charles Ochoa, Mingyuan Zhou + 3 more2026-03-06💻 cs

Revolutionizing Mixed Precision Quantization: Towards Training-free Automatic Proxy Discovery via Large Language Models

Este artículo presenta TAP, un marco innovador impulsado por modelos de lenguaje grandes (LLM) y estrategias evolutivas que descubre automáticamente proxies de búsqueda de cuantización de precisión mixta sin necesidad de entrenamiento ni intervención humana, superando a los métodos convencionales mediante un controlador de optimización directa de preferencias (DPO) que refina dinámicamente la generación de proxies.

Haidong Kang, Jun Du, Lihong Lin2026-03-06💻 cs

EgoCampus: Egocentric Pedestrian Eye Gaze Model and Dataset

Este trabajo presenta EgoCampus, un nuevo conjunto de datos y un modelo de red neuronal (EgoCampusNet) diseñados para predecir la atención visual de peatones en entornos exteriores, basándose en grabaciones egocéntricas realizadas con gafas Meta Project Aria en un campus universitario.

Ronan John, Aditya Kesari, Vincenzo DiMatteo + 1 more2026-03-06💻 cs

DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance

Este artículo presenta DriverGaze360, un nuevo conjunto de datos a gran escala con campo de visión de 360° y un método de predicción de atención llamado DriverGaze360-Net que, al integrar la detección de objetos, supera las limitaciones de los enfoques anteriores para modelar el comportamiento de la mirada del conductor en entornos de conducción omnidireccionales.

Shreedhar Govil, Didier Stricker, Jason Rambach2026-03-06💻 cs

ViRC: Enhancing Visual Interleaved Mathematical CoT with Reason Chunking

El artículo presenta ViRC, un marco que mejora el razonamiento matemático multimodal mediante la "fragmentación de razonamiento" (Reason Chunking) y el conjunto de datos CRUX, logrando una mejora significativa del 18,8% sobre las líneas base al simular el proceso de resolución de problemas paso a paso de los expertos humanos.

Lihong Wang, Liangqi Li, Weiwei Feng + 6 more2026-03-06💻 cs

FluenceFormer: Transformer-Driven Multi-Beam Fluence Map Regression for Radiotherapy Planning

El artículo presenta FluenceFormer, un marco basado en transformadores que utiliza un diseño de dos etapas y una pérdida informada por física para predecir mapas de fluencia en planificación de radioterapia, logrando una mayor precisión estructural y conservación de energía que los métodos anteriores.

Ujunwa Mgboh, Rafi Ibn Sultan, Joshua Kim + 2 more2026-03-06💻 cs

Parallel Diffusion Solver via Residual Dirichlet Policy Optimization

Este artículo presenta el EPD-Solver, un nuevo solucionador de ecuaciones diferenciales que acelera la generación de imágenes mediante evaluaciones de gradiente paralelizables y un esquema de optimización de dos etapas con aprendizaje por refuerzo, logrando así una inferencia de baja latencia sin sacrificar la calidad visual.

Ruoyu Wang, Ziyu Li, Beier Zhu + 5 more2026-03-06💻 cs

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

Este artículo presenta PhyGDPO, un marco de optimización directa grupal consciente de la física que, junto con un pipeline de construcción de datos aumentados (PhyAugPipe) y un conjunto de datos a gran escala (PhyVidGen-135K), mejora significativamente la consistencia física en la generación de video texto-a-video superando a los métodos actuales.

Yuanhao Cai, Kunpeng Li, Menglin Jia + 11 more2026-03-06💻 cs

MorphAny3D: Unleashing the Power of Structured Latent in 3D Morphing

El artículo presenta MorphAny3D, un marco sin entrenamiento que utiliza representaciones de latente estructurado y mecanismos de atención especializados para generar secuencias de morfado 3D de alta calidad, semánticamente consistentes y temporalmente suaves, incluso entre diferentes categorías.

Xiaokun Sun, Zeyu Cai, Hao Tang + 3 more2026-03-06💻 cs

EmboTeam: Grounding LLM Reasoning into Reactive Behavior Trees via PDDL for Embodied Multi-Robot Collaboration

El artículo presenta EmboTeam, un marco de planificación para equipos de robots heterogéneos que integra el razonamiento de modelos de lenguaje grande con árboles de comportamiento reactivos mediante PDDL, logrando mejoras significativas en la ejecución de tareas complejas de largo alcance en entornos domésticos simulados.

Haishan Zeng, Mengna Wang, Peng Li2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

Este trabajo evalúa la capacidad de los modelos fundacionales para identificar momentos clave en videos de fútbol, revelando mediante un nuevo dataset que su rendimiento es cercano al azar debido a su dependencia de una sola modalidad y la falta de sinergia entre fuentes de información, lo que subraya la necesidad de arquitecturas modulares y procedimientos de entrenamiento complementarios.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

Agentic Very Long Video Understanding

Este trabajo presenta EGAgent, un marco agéntico basado en grafos de escenas de entidades que supera las limitaciones de los métodos actuales para lograr una comprensión contextual profunda y razonamiento composicional en streams de video egocéntrico continuo de larga duración, logrando un rendimiento superior en tareas complejas de comprensión de video longitudinal.

Aniket Rege, Arka Sadhu, Yuliang Li + 5 more2026-03-06💻 cs

MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations

Este artículo presenta MiTA Attention, un mecanismo eficiente que unifica métodos de atención existentes bajo una perspectiva de escalado de pesos rápidos y propone una estrategia de compresión y enrutamiento que reduce la complejidad mediante la agrupación de los pares clave-valor más activos para consultas clave.

Qishuai Wen, Zhiyuan Huang, Xianghan Meng + 2 more2026-03-06💻 cs

DDP-WM: Disentangled Dynamics Prediction for Efficient World Models

DDP-WM es un modelo de mundo eficiente que supera las limitaciones computacionales de los modelos densos mediante la predicción dinámica desenredada, logrando una aceleración de inferencia de 9 veces y una mejora en la tasa de éxito de planificación en tareas robóticas complejas.

Shicheng Yin, Kaixuan Yin, Weixing Chen + 3 more2026-03-06💻 cs

Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion

El artículo presenta "Rolling Sink", una solución sin entrenamiento que cierra la brecha entre el horizonte limitado de entrenamiento y la generación de video abierta mediante el análisis de la memoria caché en modelos de difusión autoregresivos, permitiendo la síntesis de videos ultra largos con alta fidelidad visual y consistencia temporal.

Haodong Li, Shaoteng Liu, Zhe Lin + 1 more2026-03-06💻 cs

← Anterior Siguiente →