TRACE: Your Diffusion Model is Secretly an Instance Edge Detector

El paper presenta TRACE, un método que demuestra que los modelos de difusión texto-a-imagen contienen priores ocultos de bordes de instancias que, al ser extraídos mediante mapas de autoatención y destilados en un decodificador ligero, permiten lograr una segmentación de instancias y panóptica de alta calidad sin necesidad de anotaciones manuales costosas y con una inferencia 81 veces más rápida.

Sanghyun Jo, Ziseok Lee, Wooyeol Lee + 3 more2026-02-26💻 cs

Identifying Memorization of Diffusion Models through pp-Laplace Analysis: Estimators, Bounds and Applications

Este trabajo demuestra que es posible identificar datos de entrenamiento memorizados en modelos de difusión mediante la estimación de operadores pp-Laplacianos derivados de la función de puntuación, proporcionando tanto límites teóricos de error como validación empírica en modelos de generación de imágenes condicionados por texto, incluso cuando el texto de referencia no está disponible.

Jonathan Brokman, Itay Gershon, Amit Giloni + 4 more2026-02-26🔢 math

Transformer-based cardiac substructure segmentation from contrast and non-contrast computed tomography for radiotherapy planning

Este estudio demuestra que una red neuronal híbrida basada en transformadores preentrenados (SMIT), entrenada con un currículo balanceado, logra una segmentación precisa y robusta de las subestructuras cardíacas en tomografías computarizadas con contraste y sin contraste para la planificación de radioterapia, utilizando significativamente menos datos etiquetados y mostrando una mayor generalización que los modelos tradicionales como nnU-Net.

Aneesh Rangnekar, Nikhil Mankuzhy, Jonas Willmann + 5 more2026-02-26⚡ eess

Capturing Stable HDR Videos Using a Dual-Camera System

Este artículo presenta un sistema de doble cámara con control de exposición asíncrono y una red de fusión adaptativa (EAFNet) para generar videos de alto rango dinámico (HDR) estables y libres de parpadeo, superando las limitaciones de los métodos tradicionales de exposición alterna mediante la decouplaje del anclaje de luminancia temporal y la reconstrucción de detalles.

Qianyu Zhang, Bolun Zheng, Lingyu Zhu + 4 more2026-02-26⚡ eess

Training-free Mixed-Resolution Latent Upsampling for Spatially Accelerated Diffusion Transformers

Este trabajo presenta RALU, un marco de aceleración espacial libre de entrenamiento para Transformadores de Difusión que utiliza una superresolución latente de resolución mixta adaptativa a regiones y un ajuste de pasos de tiempo para mitigar artefactos y lograr aceleraciones de hasta 7,0× en FLUX-1.dev y 15,9× en combinación con métodos temporales existentes, sin degradar significativamente la calidad de la imagen.

Wongi Jeong, Kyungryeol Lee, Hoigi Seo + 1 more2026-02-26⚡ eess

PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking

El artículo presenta PRISM, un marco de jailbreaking novedoso que explota la vulnerabilidad de los modelos de lenguaje y visión grandes al componer información mediante la descomposición de instrucciones dañinas en secuencias de "gadgets" visuales inofensivos, logrando tasas de éxito de ataque superiores al 90% al generar contenido malicioso de forma emergente y difícil de detectar.

Quanchen Zou, Zonghao Ying, Moyang Chen + 7 more2026-02-26💻 cs

LLaDA-MedV: Exploring Large Language Diffusion Models for Biomedical Image Understanding

El artículo presenta LLaDA-MedV, el primer modelo de difusión de lenguaje grande adaptado para la comprensión de imágenes biomédicas mediante ajuste de instrucciones visuales, que supera a los modelos autoregresivos existentes en tareas de conversación y preguntas de respuesta cerrada, estableciendo nuevos estándares de rendimiento en este dominio.

Xuanzhao Dong, Wenhui Zhu, Xiwen Chen + 5 more2026-02-26💻 cs

MedicalPatchNet: A Patch-Based Self-Explainable AI Architecture for Chest X-ray Classification

El artículo presenta MedicalPatchNet, una arquitectura de IA autoexplicable basada en parches para la clasificación de radiografías de tórax que, al lograr un rendimiento comparable al de EfficientNetV2-S, mejora significativamente la interpretabilidad y la localización de patologías mediante la atribución transparente de decisiones a regiones específicas de la imagen.

Patrick Wienholt, Christiane Kuhl, Jakob Nikolas Kather + 2 more2026-02-26🤖 cs.LG