cs.CV artículos | Gist.Science

Context-Aware Asymmetric Ensembling for Interpretable Retinopathy of Prematurity Screening via Active Query and Vascular Attention

Este estudio propone el modelo de ensamblaje asimétrico consciente del contexto (CAA Ensemble), que integra una red de consulta activa multiescala y un aprendizaje de instancias múltiples para la topología vascular, logrando un rendimiento de vanguardia y una interpretabilidad clínica en el cribado de la retinopatía del prematuro a pesar de las limitaciones de datos.

Md. Mehedi Hassan, Taufiq Hasan2026-02-23⚡ eess

FireRed-Image-Edit-1.0 Technical Report

El informe técnico presenta FireRed-Image-Edit, un modelo de transformador de difusión que logra un rendimiento de vanguardia en la edición de imágenes basada en instrucciones mediante la optimización sistemática de un corpus de 1.600 millones de muestras, una metodología de entrenamiento multi-etapa con técnicas avanzadas de alineación y estabilidad, y la introducción del nuevo benchmark REDEdit-Bench para evaluar tareas de edición complejas.

Super Intelligence Team, Changhao Qiao, Chao Hui + 16 more2026-02-23⚡ eess

LeafNet: A Large-Scale Dataset and Comprehensive Benchmark for Foundational Vision-Language Understanding of Plant Diseases

Este trabajo presenta LeafNet, un conjunto de datos multimodal a gran escala con 186.000 imágenes de hojas y 13.950 pares de preguntas y respuestas, junto con el benchmark LeafBench, para evaluar y mejorar el rendimiento de los modelos de visión-linguaje en el diagnóstico de enfermedades vegetales, revelando que la integración de representaciones lingüísticas supera significativamente a los modelos de visión tradicionales en tareas de patología agrícola.

Khang Nguyen Quoc, Phuong D. Dao, Luyl-Da Quach2026-02-23🤖 cs.AI

GeoEyes: On-Demand Visual Focusing for Evidence-Grounded Understanding of Ultra-High-Resolution Remote Sensing Imagery

El paper presenta GeoEyes, un marco de entrenamiento escalonado que combina el conjunto de datos UHR-CoZ y el método de aprendizaje por refuerzo AdaZoom-GRPO para superar la homogeneización en el uso de herramientas de zoom, permitiendo a los modelos de lenguaje multimodal enfocarse bajo demanda en imágenes de teledetección de ultra alta resolución y lograr un rendimiento superior en benchmarks como XLRS-Bench.

Fengxiang Wang, Mingshuo Chen, Yueying Li + 10 more2026-02-23🤖 cs.AI

Uncertainty-Aware Vision-Language Segmentation for Medical Imaging

Los autores presentan un marco de segmentación multimodal para imágenes médicas que integra atención entre visión y lenguaje mediante un bloque de decodificación (MoDAB) y una pérdida de incertidumbre espectral-entrópica (SEU), logrando un rendimiento superior y una mayor eficiencia computacional en conjuntos de datos públicos.

Aryan Das, Tanishq Rachamalla, Koushik Biswas + 2 more2026-02-23🤖 cs.LG

Efficient Text-Guided Convolutional Adapter for the Diffusion Model

Este trabajo presenta Nexus Adapters, una arquitectura eficiente de adaptadores convolucionales guiados por texto que mejora la generación condicional de imágenes preservando la estructura con significativamente menos parámetros que los métodos existentes como T2I-Adapter.

Aryan Das, Koushik Biswas, Swalpa Kumar Roy + 2 more2026-02-23💻 cs

LGQ: Learning Discretization Geometry for Scalable and Stable Image Tokenization

El artículo presenta LGQ, un tokenizador de imágenes discreto que aprende la geometría de cuantización de forma end-to-end mediante asignaciones suaves controladas por temperatura y regularizadores de uso, logrando una optimización estable y una utilización equilibrada del código que supera a métodos existentes como FSQ y SimVQ en fidelidad y eficiencia.

Idil Bilge Altun, Mert Onur Cakiroglu, Elham Buxton + 2 more2026-02-23🤖 cs.LG

Uncertainty-Guided Inference-Time Depth Adaptation for Transformer-Based Visual Tracking

El artículo presenta UncL-STARK, un enfoque que adapta dinámicamente la profundidad de inferencia de rastreadores visuales basados en transformadores mediante estimaciones de incertidumbre, logrando reducciones significativas en costos computacionales, latencia y consumo energético sin comprometer la precisión del seguimiento.

Patrick Poggi, Divake Kumar, Theja Tulabandhula + 1 more2026-02-23💻 cs

When & How to Write for Personalized Demand-aware Query Rewriting in Video Search

El paper presenta WeWrite, un marco innovador de reescritura de consultas para búsqueda de video que utiliza una estrategia de minería posterior para determinar cuándo personalizar, un entrenamiento híbrido (SFT y GRPO) para optimizar cómo reescribir y una arquitectura de "Fake Recall" para garantizar baja latencia, logrando mejoras significativas en el volumen de clics y la reducción de reformulación de consultas en pruebas A/B a gran escala.

Cheng cheng, Chenxing Wang, Aolin Li + 3 more2026-02-23🤖 cs.LG

Probabilistic NDVI Forecasting from Sparse Satellite Time Series and Weather Covariates

Este trabajo presenta un marco de pronóstico probabilístico basado en transformadores que combina series temporales de NDVI escasas con covariables meteorológicas, utilizando una pérdida de cuantiles ponderada por distancia temporal y ingeniería de características climáticas para superar los desafíos de la cobertura de nubes y mejorar la precisión en la predicción de la dinámica de la vegetación a nivel de campo.

Irene Iele, Giulia Romoli, Daniele Molino + 4 more2026-02-23📊 stat

Robust Pre-Training of Medical Vision-and-Language Models with Domain-Invariant Multi-Modal Masked Reconstruction

El artículo presenta Robust-MMR, un marco de pre-entrenamiento auto-supervisado que integra objetivos de robustez explícitos para generar representaciones médico-visuales invariantes al dominio, logrando mejoras significativas en tareas de razonamiento clínico y recuperación de imágenes bajo condiciones de desplazamiento de dominio y perturbaciones.

Melika Filvantorkaman, Mohsen Piri2026-02-23💬 cs.CL

Detection and Classification of Cetacean Echolocation Clicks using Image-based Object Detection Methods applied to Advanced Wavelet-based Transformations

Esta tesis demuestra la eficacia de CLICK-SPOT, un método de detección de objetos basado en imágenes aplicado a transformaciones avanzadas de wavelet, para la detección y clasificación automática de los clics de ecolocalización de orcas noruegas, superando las limitaciones de los espectrogramas tradicionales en entornos bioacústicos complejos.

Christopher Hauer2026-02-23⚡ eess

KPM-Bench: A Kinematic Parsing Motion Benchmark for Fine-grained Motion-centric Video Understanding

Este trabajo presenta KPM-Bench, un nuevo conjunto de datos y marco de evaluación para la comprensión de movimientos en video que, mediante un pipeline de anotación automática basado en cinemática y el algoritmo MoPE, aborda las limitaciones actuales en la descripción detallada de acciones y mitiga sistemáticamente las alucinaciones en modelos de generación de subtítulos.

Boda Lin, Yongjie Zhu, Xiaocheng Gong + 2 more2026-02-23💻 cs

CLUTCH: Contextualized Language model for Unlocking Text-Conditioned Hand motion modelling in the wild

El artículo presenta CLUTCH, un sistema basado en modelos de lenguaje grande que, junto con el nuevo conjunto de datos 3D-HIW y técnicas innovadoras como SHIFT, logra un modelado de movimiento de manos condicionado por texto con alta fidelidad en entornos naturales, superando las limitaciones de los métodos anteriores restringidos a estudios.

Balamurugan Thambiraja, Omid Taheri, Radek Danecek + 3 more2026-02-23🤖 cs.LG

Multi-Modal Monocular Endoscopic Depth and Pose Estimation with Edge-Guided Self-Supervision

Este artículo presenta PRISM, un marco de aprendizaje auto-supervisado que utiliza mapas de bordes y la descomposición de luminancia para mejorar la estimación de profundidad y pose en colonoscopias monocular, demostrando que el entrenamiento con datos reales supera al supervisado con datos sintéticos y resaltando la importancia crítica de la tasa de cuadros del video.

Xinwei Ju, Rema Daher, Danail Stoyanov + 2 more2026-02-23💻 cs

LGD-Net: Latent-Guided Dual-Stream Network for HER2 Scoring with Task-Specific Domain Knowledge

El artículo presenta LGD-Net, una red neuronal dual innovadora que utiliza conocimiento específico del dominio para predecir con alta precisión y eficiencia los niveles de expresión de HER2 en cáncer de mama directamente a partir de imágenes H&E, evitando los costos y artefactos asociados a la tinción virtual a nivel de píxel.

Peide Zhu, Linbin Lu, Zhiqin Chen + 1 more2026-02-23⚡ eess

Deep Learning for Dermatology: An Innovative Framework for Approaching Precise Skin Cancer Detection

Este artículo presenta un marco innovador que evalúa los modelos de aprendizaje profundo VGG16 y DenseNet201 para la detección precisa del cáncer de piel, logrando una precisión del 93,79% con DenseNet201 en un conjunto de datos binario de 3297 imágenes.

Mohammad Tahmid Noor, B. M. Shahria Alam, Tasmiah Rahman Orpa + 3 more2026-02-23⚡ eess

Enabling Training-Free Text-Based Remote Sensing Segmentation

Este trabajo propone un enfoque innovador y sin entrenamiento adicional que integra modelos de lenguaje visuales con el Segment Anything Model (SAM) para lograr una segmentación semántica de imágenes de teledetección basada en texto, superando el estado del arte en tareas de vocabulario abierto, referencia y razonamiento mediante estrategias contrastivas y generativas.

Jose Sosa, Danila Rukhovich, Anis Kacem + 1 more2026-02-23💻 cs

Promptable segmentation with region exploration enables minimal-effort expert-level prostate cancer delineation

Este trabajo presenta un marco de segmentación de cáncer de próstata en imágenes de resonancia magnética que combina aprendizaje por refuerzo y crecimiento de regiones guiado por puntos del usuario, logrando una precisión comparable a la de expertos con un esfuerzo de anotación diez veces menor y superando a los métodos automatizados actuales.

Junqing Yang, Natasha Thorley, Ahmed Nadeem Abbasi + 4 more2026-02-23⚡ eess

VQPP: Video Query Performance Prediction Benchmark

Este trabajo presenta VQPP, el primer benchmark para la predicción del rendimiento de consultas en la recuperación de video basada en contenido, que incluye conjuntos de datos y sistemas para evaluar predictores y demostrar su utilidad en tareas como la reformulación de consultas mediante modelos de lenguaje grandes.

Adrian Catalin Lutu, Eduard Poesina, Radu Tudor Ionescu2026-02-23🤖 cs.LG

← Anterior Siguiente →