cs.CV artículos | Gist.Science

TRACE: Your Diffusion Model is Secretly an Instance Edge Detector

El paper presenta TRACE, un método que demuestra que los modelos de difusión texto-a-imagen contienen priores ocultos de bordes de instancias que, al ser extraídos mediante mapas de autoatención y destilados en un decodificador ligero, permiten lograr una segmentación de instancias y panóptica de alta calidad sin necesidad de anotaciones manuales costosas y con una inferencia 81 veces más rápida.

Sanghyun Jo, Ziseok Lee, Wooyeol Lee + 3 more2026-02-26💻 cs

Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation

El artículo presenta AnyIR, un modelo unificado y eficiente que restaura múltiples degradaciones de imágenes mediante un mecanismo de incrustación conjunta y una fusión paralela espacial-frecuencial, logrando un rendimiento superior al estado del arte con una reducción drástica de parámetros y operaciones sin depender de modelos de lenguaje grandes.

Bin Ren, Eduard Zamfir, Zongwei Wu + 7 more2026-02-26💻 cs

Twin Co-Adaptive Dialogue for Progressive Image Generation

El marco Twin-Co mejora la generación progresiva de imágenes mediante un diálogo co-adaptativo sincronizado que interactúa dinámicamente con el usuario para refinar iterativamente los resultados y alinearlos con su intención, reduciendo así la ambigüedad y los intentos fallidos.

Jianhui Wang, Yangfan He, Yan Zhong + 12 more2026-02-26💻 cs

Identifying Memorization of Diffusion Models through $p$ -Laplace Analysis: Estimators, Bounds and Applications

Este trabajo demuestra que es posible identificar datos de entrenamiento memorizados en modelos de difusión mediante la estimación de operadores $p$ -Laplacianos derivados de la función de puntuación, proporcionando tanto límites teóricos de error como validación empírica en modelos de generación de imágenes condicionados por texto, incluso cuando el texto de referencia no está disponible.

Jonathan Brokman, Itay Gershon, Amit Giloni + 4 more2026-02-26🔢 math

Transformer-based cardiac substructure segmentation from contrast and non-contrast computed tomography for radiotherapy planning

Este estudio demuestra que una red neuronal híbrida basada en transformadores preentrenados (SMIT), entrenada con un currículo balanceado, logra una segmentación precisa y robusta de las subestructuras cardíacas en tomografías computarizadas con contraste y sin contraste para la planificación de radioterapia, utilizando significativamente menos datos etiquetados y mostrando una mayor generalización que los modelos tradicionales como nnU-Net.

Aneesh Rangnekar, Nikhil Mankuzhy, Jonas Willmann + 5 more2026-02-26⚡ eess

JailBound: Jailbreaking Internal Safety Boundaries of Vision-Language Models

El artículo presenta JailBound, un marco de ataque novedoso que explota las representaciones internas de los modelos visiolingüísticos para identificar y cruzar sus límites de seguridad latentes mediante la optimización conjunta de perturbaciones visuales y textuales, logrando tasas de éxito significativamente superiores a los métodos actuales.

Jiaxin Song, Yixu Wang, Jie Li + 4 more2026-02-26💻 cs

Learning What Matters: Prioritized Concept Learning via Relative Error-driven Sample Selection

El artículo presenta PROGRESS, un marco eficiente que optimiza el ajuste de instrucciones en modelos visión-lenguaje seleccionando dinámicamente las muestras más informativas basándose en el progreso de aprendizaje relativo, logrando así un rendimiento superior con menos datos y recursos computacionales.

Shivam Chandhok, Qian Yang, Oscar Manas + 3 more2026-02-26🤖 cs.AI

LoRA-Edit: Controllable First-Frame-Guided Video Editing via Mask-Aware LoRA Fine-Tuning

El artículo presenta LoRA-Edit, un método de edición de video que utiliza un ajuste fino de LoRA guiado por máscaras espaciotemporales para adaptar modelos de difusión preentrenados, permitiendo un control preciso sobre la evolución temporal de las ediciones al preservar o generar contenido y movimiento en regiones específicas.

Chenjian Gao, Lihe Ding, Xin Cai + 3 more2026-02-26💻 cs

Capturing Stable HDR Videos Using a Dual-Camera System

Este artículo presenta un sistema de doble cámara con control de exposición asíncrono y una red de fusión adaptativa (EAFNet) para generar videos de alto rango dinámico (HDR) estables y libres de parpadeo, superando las limitaciones de los métodos tradicionales de exposición alterna mediante la decouplaje del anclaje de luminancia temporal y la reconstrucción de detalles.

Qianyu Zhang, Bolun Zheng, Lingyu Zhu + 4 more2026-02-26⚡ eess

Training-free Mixed-Resolution Latent Upsampling for Spatially Accelerated Diffusion Transformers

Este trabajo presenta RALU, un marco de aceleración espacial libre de entrenamiento para Transformadores de Difusión que utiliza una superresolución latente de resolución mixta adaptativa a regiones y un ajuste de pasos de tiempo para mitigar artefactos y lograr aceleraciones de hasta 7,0× en FLUX-1.dev y 15,9× en combinación con métodos temporales existentes, sin degradar significativamente la calidad de la imagen.

Wongi Jeong, Kyungryeol Lee, Hoigi Seo + 1 more2026-02-26⚡ eess

PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking

El artículo presenta PRISM, un marco de jailbreaking novedoso que explota la vulnerabilidad de los modelos de lenguaje y visión grandes al componer información mediante la descomposición de instrucciones dañinas en secuencias de "gadgets" visuales inofensivos, logrando tasas de éxito de ataque superiores al 90% al generar contenido malicioso de forma emergente y difícil de detectar.

Quanchen Zou, Zonghao Ying, Moyang Chen + 7 more2026-02-26💻 cs

LLaDA-MedV: Exploring Large Language Diffusion Models for Biomedical Image Understanding

El artículo presenta LLaDA-MedV, el primer modelo de difusión de lenguaje grande adaptado para la comprensión de imágenes biomédicas mediante ajuste de instrucciones visuales, que supera a los modelos autoregresivos existentes en tareas de conversación y preguntas de respuesta cerrada, estableciendo nuevos estándares de rendimiento en este dominio.

Xuanzhao Dong, Wenhui Zhu, Xiwen Chen + 5 more2026-02-26💻 cs

Lang2Lift: A Language-Guided Autonomous Forklift System for Outdoor Industrial Pallet Handling

El artículo presenta Lang2Lift, un sistema autónomo de montacargas guiado por lenguaje natural que integra percepción visual basada en modelos fundamentales y planificación de movimiento para realizar de manera efectiva la manipulación de palets en entornos industriales exteriores no estructurados.

Huy Hoang Nguyen, Johannes Huemer, Markus Murschitz + 3 more2026-02-26💻 cs

Voxel Densification for Serialized 3D Object Detection: Mitigating Sparsity via Pre-serialization Expansion

Este trabajo propone un Módulo de Densificación de Vóxeles (VDM) que mitiga la escasez en la detección de objetos 3D serializada mediante una expansión espacial pre-serialización basada en convoluciones 3D dispersas, mejorando significativamente la precisión en múltiples conjuntos de datos de referencia.

Qifeng Liu, Dawei Zhao, Yabo Dong + 6 more2026-02-26💻 cs

Variation-aware Vision Token Dropping for Faster Large Vision-Language Models

Este artículo presenta V²Drop, un método innovador que acelera la inferencia de los grandes modelos de visión y lenguaje eliminando dinámicamente las tokens visuales con menor variación, logrando una reducción significativa en la latencia sin comprometer el rendimiento en tareas de comprensión de imágenes y videos.

Junjie Chen, Xuyang Liu, Zichen Wen + 3 more2026-02-26💻 cs

MedicalPatchNet: A Patch-Based Self-Explainable AI Architecture for Chest X-ray Classification

El artículo presenta MedicalPatchNet, una arquitectura de IA autoexplicable basada en parches para la clasificación de radiografías de tórax que, al lograr un rendimiento comparable al de EfficientNetV2-S, mejora significativamente la interpretabilidad y la localización de patologías mediante la atribución transparente de decisiones a regiones específicas de la imagen.

Patrick Wienholt, Christiane Kuhl, Jakob Nikolas Kather + 2 more2026-02-26🤖 cs.LG

JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation

JanusVLN es un marco novedoso para la navegación visión-lenguaje que supera a los métodos existentes al decoupling semántica y espacialidad mediante una memoria neural implícita dual, logrando un rendimiento de vanguardia con actualizaciones incrementales eficientes y una representación compacta de la memoria.

Shuang Zeng, Dekang Qi, Xinyuan Chang + 7 more2026-02-26💻 cs

Uncovering Grounding IDs: How External Cues Shape Multimodal Binding

Este artículo introduce el concepto de "Grounding IDs", identificadores latentes inducidos por señales externas que mejoran la vinculación multimodal en modelos de visión y lenguaje al alinear representaciones, reducir la brecha entre modalidades y mitigar las alucinaciones mediante un mecanismo simbólico causal.

Hosein Hasani, Amirmohammad Izadi, Fatemeh Askari + 4 more2026-02-26🤖 cs.AI

Hallucination Filtering in Radiology Vision-Language Models Using Discrete Semantic Entropy

Este estudio demuestra que el uso de la entropía semántica discreta para filtrar preguntas con alta inconsistencia semántica mejora significativamente la precisión diagnóstica de los modelos de lenguaje visión-idioma de caja negra en tareas de respuesta a preguntas visuales en radiología.

Patrick Wienholt, Sophie Caselitz, Robert Siepmann + 6 more2026-02-26💻 cs

ImpMIA: Leveraging Implicit Bias for Membership Inference Attack

El artículo presenta ImpMIA, un ataque de inferencia de membresía basado en el sesgo implícito de las redes neuronales y las condiciones de optimalidad KKT que, al no requerir modelos de referencia ni suposiciones sobre el entrenamiento, supera a los métodos actuales en escenarios donde se dispone de los pesos del modelo y un superconjunto de datos.

Yuval Golbari, Navve Wasserman, Gal Vardi + 1 more2026-02-26🤖 cs.LG

← Anterior Siguiente →

cs.CV