US-JEPA: A Joint Embedding Predictive Architecture for Medical Ultrasound

El artículo presenta US-JEPA, un marco de aprendizaje auto-supervisado que utiliza un objetivo de entrenamiento asimétrico con un profesor estático para superar los desafíos del ruido en imágenes de ultrasonido, logrando representaciones robustas que igualan o superan a los modelos de visión existentes en diversas tareas de clasificación.

Ashwath Radhachandran, Vedrana Ivezić, Shreeram Athreya + 3 more2026-02-24🤖 cs.LG

DefenseSplat: Enhancing the Robustness of 3D Gaussian Splatting via Frequency-Aware Filtering

El artículo presenta DefenseSplat, un método que mejora la robustez de la representación 3D Gaussian Splatting frente a ataques adversarios mediante una estrategia de filtrado sensible a frecuencias que elimina el ruido de alta frecuencia preservando el contenido de baja frecuencia, logrando así una reconstrucción segura sin comprometer el rendimiento en datos limpios.

Yiran Qiao, Yiren Lu, Yunlai Zhou + 4 more2026-02-24💻 cs

RetinaVision: XAI-Driven Augmented Regulation for Precise Retinal Disease Classification using deep learning framework

El estudio presenta RetinaVision, un marco de aprendizaje profundo basado en redes Xception e InceptionV3 que, mediante técnicas de aumento de datos e interpretabilidad (GradCAM y LIME), logra una clasificación precisa de enfermedades retinianas en imágenes OCT con una precisión del 95,25% y se implementa en una aplicación web para uso clínico.

Mohammad Tahmid Noor, Shayan Abrar, Jannatul Adan Mahi + 3 more2026-02-24🤖 cs.AI

PoseCraft: Tokenized 3D Body Landmark and Camera Conditioning for Photorealistic Human Image Synthesis

PoseCraft es un marco de difusión que sintetiza imágenes humanas fotorrealistas mediante la inyección de hitos 3D tokenizados y parámetros de cámara como condiciones discretas, superando las limitaciones de los flujos de trabajo existentes al preservar la semántica 3D y los detalles finos sin necesidad de rigging manual o reoptimización por pose.

Zhilin Guo, Jing Yang, Kyle Fogarty + 9 more2026-02-24💻 cs

MentalBlackboard: Evaluating Spatial Visualization via Mathematical Transformations

El artículo presenta MentalBlackboard, un nuevo benchmark para evaluar la capacidad de visualización espacial de los modelos de visión-idioma en tareas de plegado de papel y perforación, revelando que, aunque algunos modelos logran un rendimiento moderado en tareas de generalización, siguen teniendo dificultades significativas para aplicar transformaciones simétricas y realizar planificación espacial compleja.

Nilay Yilmaz, Maitreya Patel, Naga Sai Abhiram Kusumba + 2 more2026-02-24🤖 cs.LG

Time Series, Vision, and Language: Exploring the Limits of Alignment in Contrastive Representation Spaces

Este estudio examina la Hipótesis de la Representación Platónica en un entorno trimodal, revelando que, aunque el alineamiento en espacios de representación contrastiva mejora con el tamaño del modelo, es asimétrico (con la serie temporal alineándose más con la visión que con el lenguaje) y presenta un umbral de saturación respecto a la densidad de la información.

Pratham Yashwante, Rose Yu2026-02-24🤖 cs.AI

Seeing Farther and Smarter: Value-Guided Multi-Path Reflection for VLM Policy Optimization

Este artículo presenta un marco de computación en tiempo de prueba que optimiza la política de los Modelos Visión-Lenguaje para la manipulación robótica mediante una reflexión multi-trayectoria guiada por valor, logrando una mejora del 24,6% en la tasa de éxito y una reducción del 56,5% en el tiempo de inferencia frente a los métodos existentes.

Yanting Yang, Shenyuan Gao, Qingwen Bu + 2 more2026-02-24🤖 cs.LG

Redefining the Down-Sampling Scheme of U-Net for Precision Biomedical Image Segmentation

Este artículo presenta el "Stair Pooling", una estrategia de muestreo descendente que reduce la pérdida de información mediante operaciones de agrupamiento concatenadas y escalonadas, logrando mejorar significativamente la precisión de la segmentación de imágenes biomédicas en arquitecturas U-Net al preservar mejor los detalles espaciales y la información de largo alcance.

Mingjie Li, Yizheng Chen, Md Tauhidul Islam + 1 more2026-02-24🤖 cs.AI