cs.CV artículos | Gist.Science

Attention-Enhanced U-Net for Accurate Segmentation of COVID-19 Infected Lung Regions in CT Scans

Este estudio propone un método robusto basado en una arquitectura U-Net modificada con mecanismos de atención para la segmentación automática de regiones pulmonares infectadas por COVID-19 en tomografías computarizadas, logrando un coeficiente Dice de 0.8658 y superando a otros métodos existentes.

Amal Lahchim, Lazar Davic2026-02-20⚡ eess

Towards Scalable Language-Image Pre-training for 3D Medical Imaging

Este trabajo presenta HLIP, un marco de pre-entrenamiento escalable para imágenes médicas 3D que utiliza un mecanismo de atención jerárquica sobre estudios clínicos no curados para lograr un rendimiento superior en benchmarks de MRI cerebral y TC de cabeza.

Chenhui Zhao, Yiwei Lyu, Asadur Chowdury + 6 more2026-02-20💻 cs

Demographic-aware fine-grained visual recognition of pediatric wrist pathologies

Este artículo propone un modelo híbrido de convolución-transformer consciente de la demografía, que combina radiografías de muñeca con la edad y el sexo del paciente mediante enmascaramiento progresivo de metadatos, para mejorar el reconocimiento de patologías pediátricas al abordar la variabilidad anatómica normal y demostrar que la inicialización con preentrenamiento en datos de granularidad fina supera a los enfoques tradicionales.

Ammar Ahmed, Ali Shariq Imran, Zenun Kastrati + 1 more2026-02-20🤖 cs.AI

MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks

Este artículo presenta MCIF, el primer benchmark humano anotado y multilingüe basado en charlas científicas que evalúa de manera integral la capacidad de los modelos de lenguaje multimodal para seguir instrucciones en contextos cruzados de idioma, modalidad y longitud de entrada.

Sara Papi, Maike Züfle, Marco Gaido + 5 more2026-02-20💬 cs.CL

Sufficient, Necessary and Complete Causal Explanations in Image Classification

Este artículo presenta un marco formal y riguroso para generar explicaciones causales completas, suficientes y necesarias en la clasificación de imágenes mediante algoritmos de caja negra que no requieren acceso interno al modelo ni a sus gradientes, demostrando su viabilidad computacional y equivalencia con las explicaciones lógicas.

David A Kelly, Hana Chockler2026-02-20🤖 cs.AI

PP-Motion: Physical-Perceptual Fidelity Evaluation for Human Motion Generation

El artículo presenta PP-Motion, una nueva métrica basada en datos que evalúa la fidelidad de la generación de movimiento humano integrando tanto la alineación física objetiva como la percepción humana, superando así las limitaciones de los métodos anteriores al proporcionar anotaciones continuas y de alta granularidad.

Sihan Zhao, Zixuan Wang, Tianyu Luan + 5 more2026-02-20💻 cs

VSF: Simple, Efficient, and Effective Negative Guidance in Few-Step Image Generation Models By Value Sign Flip

El artículo presenta VSF (Value Sign Flip), un método simple y eficiente que mejora la adherencia a los prompts negativos en modelos de generación de imágenes y video de pocos pasos al invertir el signo de los valores de atención, superando a técnicas existentes como CFG y NAG con un bajo costo computacional.

Wenqi Guo, Shan Du2026-02-20💻 cs

CoreEditor: Correspondence-constrained Diffusion for Consistent 3D Editing

El artículo presenta CoreEditor, un marco innovador para la edición 3D basada en texto que garantiza consistencia entre múltiples vistas mediante un mecanismo de atención restringido por correspondencia que combina alineación geométrica y similitud semántica, superando así las limitaciones de métodos anteriores en cuanto a nitidez y control del usuario.

Zhe Zhu, Honghua Chen, Peng Li + 1 more2026-02-20💻 cs

Bongard-RWR+: Real-World Representations of Fine-Grained Concepts in Bongard Problems

Este trabajo presenta Bongard-RWR+, un conjunto de datos ampliado de 5.400 instancias que utiliza imágenes generadas por modelos de lenguaje visuales para representar conceptos abstractos de problemas Bongard en escenarios realistas, demostrando que, aunque los modelos actuales reconocen conceptos visuales generales, siguen teniendo dificultades significativas para discernir conceptos finos y realizar razonamiento abstracto.

Szymon Pawlonka, Mikołaj Małkiński, Jacek Mańdziuk2026-02-20🤖 cs.AI

Point Linguist Model: Segment Any Object via Bridged Large 3D-Language Model

El modelo Point Linguist (PLM) es un marco general que supera la desalineación entre los grandes modelos de lenguaje y las nubes de puntos 3D mediante la introducción de representaciones discriminativas centradas en objetos y un decodificador de reactivación geométrica, logrando así una segmentación de objetos precisa y robusta sin necesidad de pre-alineación a gran escala.

Zhuoxu Huang, Mingqi Gao, Jungong Han2026-02-20💻 cs

PyRadiomics-cuda: 3D features extraction from medical images for HPC using GPU acceleration

PyRadiomics-cuda es una extensión acelerada por GPU de la biblioteca PyRadiomics que reduce drásticamente el tiempo de extracción de características tridimensionales en imágenes médicas, manteniendo la compatibilidad total con la API original para su integración transparente en flujos de trabajo de IA.

Jakub Lisowski, Piotr Tyrakowski, Szymon Zyguła + 1 more2026-02-20💻 cs

Inference-Time Search Using Side Information for Diffusion-Based Image Reconstruction

Este trabajo propone un algoritmo de búsqueda en tiempo de inferencia que utiliza información lateral para guiar el proceso de muestreo de modelos de difusión y mejorar la reconstrucción de imágenes en problemas inversos, ofreciendo una solución plug-and-play sin entrenamiento que supera a los métodos existentes.

Mahdi Farahbakhsh, Vishnu Teja Kunde, Dileep Kalathil + 2 more2026-02-20🤖 cs.AI

Anomaly-Aware YOLO: A Frugal yet Robust Approach to Infrared Small Target Detection

El artículo presenta AA-YOLO, un enfoque frugal y robusto que integra una prueba estadística de detección de anomalías en el cabezal de detección de YOLO para mejorar la identificación de objetivos pequeños en imágenes infrarrojas, reduciendo las falsas alarmas y manteniendo un alto rendimiento incluso con datos limitados o en modelos ligeros.

Alina Ciocarlan, Sylvie Le Hégarat-Mascle, Sidonie Lefebvre2026-02-20💻 cs

LayerSync: Self-aligning Intermediate Layers

El artículo presenta LayerSync, un método autocongruente y sin sobrecarga que mejora la calidad de generación y la eficiencia del entrenamiento de modelos de difusión al regularizar sus representaciones intermedias más débiles mediante las más semánticamente ricas, logrando aceleraciones significativas sin requerir modelos preentrenados ni datos adicionales.

Yasaman Haghighi, Bastien van Delft, Mariam Hassan + 1 more2026-02-20🤖 cs.LG

pi-Flow: Policy-Based Few-Step Generation via Imitation Distillation

El artículo presenta pi-Flow, un modelo de flujo basado en políticas que mediante una nueva técnica de distilación por imitación logra una generación rápida en pocos pasos sin sacrificar la calidad ni la diversidad, superando a los métodos anteriores en métricas clave como FID.

Hansheng Chen, Kai Zhang, Hao Tan + 3 more2026-02-20🤖 cs.AI

A Study on Inference Latency for Vision Transformers on Mobile Devices

Este estudio analiza cuantitativamente la latencia de inferencia de transformadores de visión en dispositivos móviles mediante la comparación con redes neuronales convolucionales, generando un dataset predictivo que permite estimar con precisión el rendimiento de arquitecturas ViT en diversas plataformas.

Zhuojin Li, Marco Paolieri, Leana Golubchik2026-02-20🤖 cs.LG

Improving segmentation of retinal arteries and veins using cardiac signal in doppler holograms

Este trabajo propone un método eficaz para la segmentación de arterias y venas retinianas en hologramas Doppler que, al integrar características de la señal cardíaca en arquitecturas estándar como U-Net, logra un rendimiento comparable a modelos complejos y desbloquea el potencial del aprendizaje profundo para el análisis cuantitativo de la hemodinámica retiniana.

Marius Dubosc, Yann Fischer, Zacharie Auray + 4 more2026-02-20🤖 cs.AI

INQUIRE-Search: Interactive Discovery in Large-Scale Biodiversity Databases

El artículo presenta INQUIRE-Search, un sistema de código abierto que utiliza lenguaje natural para permitir a los científicos buscar, verificar y analizar fenómenos ecológicos complejos en grandes bases de datos de imágenes de biodiversidad como iNaturalist, logrando una eficiencia de descubrimiento significativamente superior a la inspección manual y estableciendo un nuevo paradigma para la investigación científica escalable.

Edward Vendrow, Julia Chae, Rupa Kurinchi-Vendhan + 10 more2026-02-20💻 cs

Structural Prognostic Event Modeling for Multimodal Cancer Survival Analysis

El artículo presenta SlotSPE, un marco basado en "slots" que comprime datos multimodales de cáncer en eventos pronósticos estructurales discretos para mejorar la precisión y la interpretabilidad de la predicción de supervivencia mediante la modelización eficiente de interacciones intra e intermodales.

Yilan Zhang, Li Nanbo, Changchun Yang + 2 more2026-02-20💻 cs

Restrictive Hierarchical Semantic Segmentation for Stratified Tooth Layer Detection

Este trabajo presenta un marco general de segmentación semántica jerárquica y restrictiva que integra explícitamente la anatomía dental mediante predicción recurrente y condicionamiento de características, logrando una detección más precisa y clínicamente coherente de las capas de los dientes en radiografías panorámicas, especialmente en escenarios con datos limitados.

Ryan Banks, Camila Lindoni Azevedo, Hongying Tang + 1 more2026-02-20🤖 cs.AI

← Anterior Siguiente →