Gradient based Severity Labeling for Biomarker Classification in OCT

Este artículo propone una estrategia novedosa de aprendizaje contrastivo para imágenes médicas que genera etiquetas de severidad de enfermedades en escaneos OCT no etiquetados basándose en respuestas de gradientes de algoritmos de detección de anomalías, logrando así mejorar la precisión en la clasificación de biomarcadores de retinopatía diabética hasta en un 6% respecto a las líneas base auto-supervisadas.

Kiran Kokilepersaud, Mohit Prabhushankar, Ghassan AlRegib + 2 more2026-02-24🤖 cs.LG

Learning Positive-Incentive Point Sampling in Neural Implicit Fields for Object Pose Estimation

Este trabajo propone un método que combina una red convolucional implícita equivariante a SO(3) con una estrategia de muestreo de puntos de incentivo positivo (PIPS) para mejorar la estimación de la pose de objetos en campos implícitos neuronales, logrando un rendimiento superior, especialmente en escenarios desafiantes como oclusiones severas, ruido y geometrías novedosas.

Yifei Shi, Boyan Wan, Xin Xu + 1 more2026-02-24💻 cs

Token-UNet: A New Case for Transformers Integration in Efficient and Interpretable 3D UNets for Brain Imaging Segmentation

El artículo presenta Token-UNet, un modelo de segmentación 3D para imágenes cerebrales que integra módulos TokenLearner y TokenFuser en una arquitectura UNet para lograr una mayor eficiencia computacional y interpretabilidad, superando el rendimiento del SwinUNETR con una fracción significativa de sus recursos de memoria y tiempo de inferencia.

Louis Fabrice Tshimanga, Andrea Zanola, Federico Del Pup + 1 more2026-02-24💻 cs

Decoupling Defense Strategies for Robust Image Watermarking

El artículo presenta AdvMark, un marco de ajuste fino en dos etapas que desacopla las estrategias de defensa para superar las vulnerabilidades de la marca de agua en imágenes basada en aprendizaje profundo, logrando simultáneamente una mayor robustez frente a ataques adversarios, de regeneración y distorsión sin comprometer la precisión en datos limpios ni la calidad visual.

Jiahui Chen, Zehang Deng, Zeyu Zhang + 3 more2026-02-24💻 cs

To Move or Not to Move: Constraint-based Planning Enables Zero-Shot Generalization for Interactive Navigation

Este artículo presenta un marco de planificación basado en restricciones impulsado por modelos de lenguaje grande que permite a un robot móvil con capacidades de manipulación resolver el problema de navegación interactiva de por vida en entornos desordenados, logrando una generalización cero-shot al razonar sobre un grafo de escena estructurado y combinar la percepción activa con la ejecución de movimientos para despejar rutas y completar tareas secuenciales de colocación de objetos.

Apoorva Vashisth, Manav Kulshrestha, Pranav Bakshi + 3 more2026-02-24🤖 cs.AI

HeatPrompt: Zero-Shot Vision-Language Modeling of Urban Heat Demand from Satellite Images

El artículo presenta HeatPrompt, un marco de modelado energético visión-lingüístico de cero disparos que estima la demanda de calor anual a partir de imágenes satelitales y datos GIS básicos, logrando una mejora significativa en la precisión respecto a los modelos basales y ofreciendo una solución ligera para la planificación térmica en regiones con escasez de datos.

Kundan Thota, Xuanhao Mu, Thorsten Schlachter + 1 more2026-02-24🤖 cs.AI

The Invisible Gorilla Effect in Out-of-distribution Detection

Este artículo identifica y denomina "Efecto del Gorila Invisible" a un sesgo previamente no reportado en la detección de datos fuera de distribución, donde el rendimiento de los modelos mejora significativamente cuando los artefactos difíciles de detectar comparten similitud visual con la región de interés del modelo, pero cae drásticamente cuando difieren, como se demostró mediante la evaluación de 40 métodos en múltiples conjuntos de datos y contrafactuales de color.

Harry Anthony, Ziyun Liang, Hermione Warr + 1 more2026-02-24🤖 cs.LG

SemanticNVS: Improving Semantic Scene Understanding in Generative Novel View Synthesis

El artículo presenta SemanticNVS, un modelo de difusión multi-vista condicionado por la cámara que integra extractores de características semánticas preentrenados para mejorar significativamente la calidad y consistencia de la síntesis de vistas novedosas, especialmente en movimientos de cámara a larga distancia donde los métodos existentes suelen fallar.

Xinya Chen, Christopher Wewer, Jiahao Xie + 2 more2026-02-24💻 cs

Do Large Language Models Understand Data Visualization Principles?

Este artículo presenta la primera evaluación sistemática de modelos de lenguaje y visión-langaje para verificar y corregir principios de visualización de datos, revelando que, aunque son prometedores como validadores flexibles, presentan una asimetría donde son más eficaces corrigiendo errores que detectándolos, y aún muestran una brecha frente a los solucionadores simbólicos en aspectos perceptivos sutiles.

Martin Sinnona, Valentin Bonas, Viviana Siless + 1 more2026-02-24💻 cs