cs.CV artículos | Gist.Science

PRIMA: Pre-training with Risk-integrated Image-Metadata Alignment for Medical Diagnosis via LLM

El artículo presenta PRIMA, un marco de pre-entrenamiento multimodal que integra conocimientos clínicos de riesgo mediante RAG y una alineación de imagen-texto optimizada con pérdidas complementarias para lograr un diagnóstico médico preciso y robusto sin requerir grandes volúmenes de datos o recursos computacionales masivos.

Yiqing Wang, Chunming He, Ming-Chen Lu + 4 more2026-02-27💻 cs

Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?

Este artículo propone un adaptador de prueba basado en recuperación que, al combinar ejemplos con anotaciones de píxeles y descripciones textuales mediante una fusión aprendida, reduce significativamente la brecha entre la segmentación de vocabulario abierto cero-shot y la supervisada.

Tilemachos Aravanis, Vladan Stojnić, Bill Psomas + 2 more2026-02-27💻 cs

Scale Can't Overcome Pragmatics: The Impact of Reporting Bias on Vision-Language Reasoning

El estudio demuestra que el sesgo de reporte en los datos de entrenamiento de los modelos de visión y lenguaje impide el desarrollo de capacidades de razonamiento (espacial, temporal, negación y conteo), ya que escalar el tamaño de los datos o modelos no resuelve este problema, sino que se requiere una curación intencional de datos que incluya información tácita.

Amita Kamath, Jack Hessel, Khyathi Chandu + 3 more2026-02-27💬 cs.CL

Sensor Generalization for Adaptive Sensing in Event-based Object Detection via Joint Distribution Training

Este artículo aborda la brecha en la variabilidad de datos de las cámaras de eventos mediante un análisis profundo de cómo los parámetros intrínsecos afectan el rendimiento de la detección de objetos, proponiendo un entrenamiento de distribución conjunta para lograr un modelo robusto e independiente del sensor.

Aheli Saha, René Schuster, Didier Stricker2026-02-27💻 cs

A Dataset is Worth 1 MB

El artículo presenta PLADA, un método que elimina la transmisión de píxeles al enviar solo etiquetas de imágenes seleccionadas de un conjunto de referencia preexistente, logrando transferir conocimiento de tareas con una carga de datos inferior a 1 MB mientras mantiene una alta precisión de clasificación.

Elad Kimchi Shoshani, Leeyam Gabay, Yedid Hoshen2026-02-27🤖 cs.LG

SeeThrough3D: Occlusion Aware 3D Control in Text-to-Image Generation

El artículo presenta SeeThrough3D, un modelo de generación de imágenes basado en texto que utiliza una representación de escena 3D semitransparente y mecanismos de atención enmascarada para lograr un control preciso de la disposición espacial y un razonamiento realista sobre las oclusiones entre objetos.

Vaibhav Agrawal, Rishubh Parihar, Pradhaan Bhat + 2 more2026-02-27🤖 cs.AI

VGG-T $^3$ : Offline Feed-Forward 3D Reconstruction at Scale

El artículo presenta VGG-T $^3$ , un modelo de reconstrucción 3D offline escalable que supera la limitación cuadrática de los métodos feed-forward mediante la destilación de la representación de geometría en un MLP de tamaño fijo, logrando una velocidad lineal superior y una mayor precisión en la reconstrucción de grandes colecciones de imágenes.

Sven Elflein, Ruilong Li, Sérgio Agostinho + 4 more2026-02-27💻 cs

MediX-R1: Open Ended Medical Reinforcement Learning

El artículo presenta MediX-R1, un marco de aprendizaje por refuerzo abierto que optimiza modelos multimodales médicos mediante una recompensa compuesta y una evaluación basada en LLM, logrando un razonamiento clínico fiable y superior en tareas de respuesta libre tanto de texto como de imágenes.

Sahal Shaji Mullappilly, Mohammed Irfan Kurpath, Omair Mohamed + 5 more2026-02-27💻 cs

Improving Denoising Diffusion Models via Simultaneous Estimation of Image and Noise

Este artículo presenta un modelo de difusión que mejora la velocidad y calidad de la generación de imágenes mediante la reparametrización del proceso en términos angulares para permitir el uso de solucionadores de EDO de alto orden y la estimación simultánea de la imagen y el ruido para estabilizar las actualizaciones inversas.

Zhenkai Zhang, Krista A. Ehinger, Tom Drummond2026-02-26🤖 cs.AI

Real-Time Motion Detection Using Dynamic Mode Decomposition

Este trabajo propone un algoritmo interpretable para la detección de movimiento en tiempo real en video de vigilancia, basado en la Descomposición de Modos Dinámicos (DMD) para correlacionar el movimiento del primer plano con los eigenvalores del sistema, validando su eficacia mediante curvas ROC y optimización de umbrales.

Marco Mignacca, Simone Brugiapaglia, Jason J. Bramburger2026-02-26💻 cs

A Comprehensive Survey on Underwater Image Enhancement Based on Deep Learning

Este artículo presenta una encuesta exhaustiva sobre la mejora de imágenes submarinas basada en aprendizaje profundo, abarcando modelos físicos, algoritmos recientes, una evaluación comparativa rigurosa y futuras direcciones de investigación.

Xiaofeng Cong, Yu Zhao, Jie Gui + 2 more2026-02-26💻 cs

Measuring the Measurers: Quality Evaluation of Hallucination Benchmarks for Large Vision-Language Models

Este trabajo propone un marco de medición de calidad (HQM) para evaluar la fiabilidad y validez de los benchmarks existentes de alucinación en modelos de visión-linguaje grandes, y presenta HQH, un nuevo benchmark de alta calidad que revela graves problemas de alucinación en estos modelos y sirve como herramienta de evaluación más confiable.

Bei Yan, Jie Zhang, Zheng Yuan + 2 more2026-02-26🤖 cs.AI

PoseAdapt: Sustainable Human Pose Estimation via Continual Learning Benchmarks and Toolkit

PoseAdapt es un marco de código abierto y conjunto de benchmarks que facilita la adaptación sostenible de modelos de estimación de pose humana mediante aprendizaje continuo, permitiendo su evolución eficiente ante cambios en dominios, modalidades o esqueletos sin necesidad de reentrenamientos completos.

Muhammad Saif Ullah Khan, Didier Stricker2026-02-26💻 cs

LLM2CLIP: Powerful Language Model Unlocks Richer Cross-Modality Representation

El paper presenta LLM2CLIP, un marco de ajuste eficiente que integra un modelo de lenguaje grande (LLM) en CLIP preentrenado mediante un adaptador ligero, logrando mejoras significativas en la representación multimodal y el rendimiento en diversas tareas de visión por computadora sin necesidad de un reentrenamiento a gran escala.

Weiquan Huang, Aoqi Wu, Yifan Yang + 11 more2026-02-26💬 cs.CL

Renaissance: Investigating the Pretraining of Vision-Language Encoders

Este artículo presenta Renaissance, un marco de evaluación para analizar las mejores prácticas en el preentrenamiento de codificadores visión-lenguaje, demostrando mediante metaanálisis que es posible ahorrar recursos computacionales significativos sin sacrificar el rendimiento al congelar partes del modelo y comparando arquitecturas basadas en modelos de visión frente a los de texto.

Clayton Fields, Casey Kennington2026-02-26💬 cs.CL

Benchmarking Vision-Based Object Tracking for USVs in Complex Maritime Environments

Este estudio propone y valida un marco de seguimiento de objetos guiado por visión para vehículos de superficie no tripulados (USV) en entornos marinos complejos, demostrando mediante experimentos que el rastreador SeqTrack basado en Transformers y el controlador LQR ofrecen el mejor rendimiento y robustez frente a condiciones adversas.

Muhayy Ud Din, Ahsan B. Bakht, Waseem Akram + 3 more2026-02-26💻 cs

Object-Centric World Models from Few-Shot Annotations for Sample-Efficient Reinforcement Learning

Este trabajo presenta OC-STORM, un marco de aprendizaje por refuerzo basado en modelos que utiliza representaciones centradas en objetos extraídas de pocas anotaciones para mejorar la eficiencia de muestras y la predicción de dinámicas en entornos visuales complejos, superando a los métodos baselines en benchmarks como Atari 100k y Hollow Knight.

Weipu Zhang, Adam Jelley, Trevor McInroe + 2 more2026-02-26🤖 cs.LG

VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning

El artículo presenta VOILA, un nuevo benchmark a gran escala que evalúa la capacidad de razonamiento analógico y comprensión perceptual de los Modelos de Lenguaje Multimodales (MLLMs), revelando que, aunque las estrategias de prompting paso a paso mejoran ligeramente los resultados, estos modelos actuales tienen un rendimiento significativamente inferior al humano en tareas que requieren inferir relaciones abstractas entre imágenes.

Nilay Yilmaz, Maitreya Patel, Yiran Lawrence Luo + 4 more2026-02-26💬 cs.CL

PD-VLA: Accelerating Vision-Language-Action Model Integrated with Action Chunking via Parallel Decoding

El artículo presenta PD-VLA, un marco de decodificación paralelo que acelera la inferencia de modelos de visión-lenguaje-acción integrados con agrupación de acciones mediante iteraciones de punto fijo, logrando un aumento de 2,52 veces en la frecuencia de ejecución sin comprometer el rendimiento ni requerir cambios arquitectónicos.

Wenxuan Song, Jiayi Chen, Pengxiang Ding + 9 more2026-02-26💻 cs

Unified Reward Model for Multimodal Understanding and Generation

El artículo presenta UnifiedReward, el primer modelo de recompensa unificado que mejora tanto la comprensión como la generación multimodal al entrenarse en un conjunto de datos de preferencias humanas a gran escala y utilizar una estrategia de filtrado en dos etapas para alinear diversos modelos de visión con las preferencias humanas mediante optimización directa de preferencias (DPO).

Yibin Wang, Yuhang Zang, Hao Li + 2 more2026-02-26💻 cs

← Anterior Siguiente →

cs.CV