BigMaQ: A Big Macaque Motion and Animation Dataset Bridging Image and 3D Pose Representations

El artículo presenta BigMaQ, un conjunto de datos a gran escala de macacos rhesus que integra representaciones 3D de pose y forma en la reconocimiento de acciones animales, permitiendo la creación de avatares texturizados específicos y demostrando mejoras significativas en la precisión de la clasificación de comportamientos sociales.

Lucas Martini, Alexander Lappe, Anna Bognár + 2 more2026-02-24💻 cs

Make Some Noise: Unsupervised Remote Sensing Change Detection Using Latent Space Perturbations

El artículo presenta MaSoN, un marco de trabajo sin supervisión para la detección de cambios en teledetección que supera las limitaciones de los métodos existentes al sintetizar cambios diversos directamente en el espacio latente durante el entrenamiento, logrando así un rendimiento superior y una mayor generalización en diversos escenarios.

Blaž Rolih, Matic Fučka, Filip Wolf + 1 more2026-02-24🤖 cs.AI

Using Unsupervised Domain Adaptation Semantic Segmentation for Pulmonary Embolism Detection in Computed Tomography Pulmonary Angiogram (CTPA) Images

Este trabajo propone un marco de adaptación de dominio no supervisada basado en Transformers y una arquitectura Mean-Teacher, que integra mecanismos de alineación de prototipos, aprendizaje contrastivo y predicción local asistida por atención para mejorar significativamente la detección de embolias pulmonares en imágenes CTPA mediante segmentación semántica, superando los desafíos del desplazamiento de dominio y la escasez de anotaciones expertas.

Wen-Liang Lin, Yun-Chien Cheng2026-02-24⚡ eess

Gradient based Severity Labeling for Biomarker Classification in OCT

Este artículo propone una estrategia novedosa de aprendizaje contrastivo para imágenes médicas que genera etiquetas de severidad de enfermedades en escaneos OCT no etiquetados basándose en respuestas de gradientes de algoritmos de detección de anomalías, logrando así mejorar la precisión en la clasificación de biomarcadores de retinopatía diabética hasta en un 6% respecto a las líneas base auto-supervisadas.

Kiran Kokilepersaud, Mohit Prabhushankar, Ghassan AlRegib + 2 more2026-02-24🤖 cs.LG

Learning Positive-Incentive Point Sampling in Neural Implicit Fields for Object Pose Estimation

Este trabajo propone un método que combina una red convolucional implícita equivariante a SO(3) con una estrategia de muestreo de puntos de incentivo positivo (PIPS) para mejorar la estimación de la pose de objetos en campos implícitos neuronales, logrando un rendimiento superior, especialmente en escenarios desafiantes como oclusiones severas, ruido y geometrías novedosas.

Yifei Shi, Boyan Wan, Xin Xu + 1 more2026-02-24💻 cs

Token-UNet: A New Case for Transformers Integration in Efficient and Interpretable 3D UNets for Brain Imaging Segmentation

El artículo presenta Token-UNet, un modelo de segmentación 3D para imágenes cerebrales que integra módulos TokenLearner y TokenFuser en una arquitectura UNet para lograr una mayor eficiencia computacional y interpretabilidad, superando el rendimiento del SwinUNETR con una fracción significativa de sus recursos de memoria y tiempo de inferencia.

Louis Fabrice Tshimanga, Andrea Zanola, Federico Del Pup + 1 more2026-02-24💻 cs

Decoupling Defense Strategies for Robust Image Watermarking

El artículo presenta AdvMark, un marco de ajuste fino en dos etapas que desacopla las estrategias de defensa para superar las vulnerabilidades de la marca de agua en imágenes basada en aprendizaje profundo, logrando simultáneamente una mayor robustez frente a ataques adversarios, de regeneración y distorsión sin comprometer la precisión en datos limpios ni la calidad visual.

Jiahui Chen, Zehang Deng, Zeyu Zhang + 3 more2026-02-24💻 cs

To Move or Not to Move: Constraint-based Planning Enables Zero-Shot Generalization for Interactive Navigation

Este artículo presenta un marco de planificación basado en restricciones impulsado por modelos de lenguaje grande que permite a un robot móvil con capacidades de manipulación resolver el problema de navegación interactiva de por vida en entornos desordenados, logrando una generalización cero-shot al razonar sobre un grafo de escena estructurado y combinar la percepción activa con la ejecución de movimientos para despejar rutas y completar tareas secuenciales de colocación de objetos.

Apoorva Vashisth, Manav Kulshrestha, Pranav Bakshi + 3 more2026-02-24🤖 cs.AI

HeatPrompt: Zero-Shot Vision-Language Modeling of Urban Heat Demand from Satellite Images

El artículo presenta HeatPrompt, un marco de modelado energético visión-lingüístico de cero disparos que estima la demanda de calor anual a partir de imágenes satelitales y datos GIS básicos, logrando una mejora significativa en la precisión respecto a los modelos basales y ofreciendo una solución ligera para la planificación térmica en regiones con escasez de datos.

Kundan Thota, Xuanhao Mu, Thorsten Schlachter + 1 more2026-02-24🤖 cs.AI