cs.CV artículos | Gist.Science

MPFlow: Multi-modal Posterior-Guided Flow Matching for Zero-Shot MRI Reconstruction

El artículo presenta MPFlow, un marco de reconstrucción de resonancia magnética (MRI) sin entrenamiento previo que utiliza un flujo rectificado y una estrategia de preentrenamiento auto-supervisado para aprovechar modalidades de MRI complementarias durante la inferencia, logrando así una mayor fidelidad anatómica y una reducción significativa de alucinaciones en comparación con los métodos basados en difusión.

Seunghoi Kim, Chen Jin, Henry F. J. Tregidgo + 2 more2026-03-05🤖 cs.AI

Order Is Not Layout: Order-to-Space Bias in Image Generation

Este trabajo identifica y cuantifica el "sesgo de orden a espacio" (OTS), un fenómeno en modelos de generación de imágenes donde el orden de mención de entidades en el texto distorsiona incorrectamente su disposición espacial, proponiendo además estrategias de intervención temprana y ajuste fino para mitigarlo sin comprometer la calidad.

Yongkang Zhang, Zonglin Zhao, Yuechen Zhang + 3 more2026-03-05🤖 cs.AI

Glass Segmentation with Fusion of Learned and General Visual Features

Este artículo presenta una arquitectura novedosa para la segmentación de superficies de vidrio que fusiona características visuales generales extraídas de un modelo DINOv3 congelado con características específicas aprendidas mediante un modelo Swin, logrando resultados de vanguardia en precisión y velocidad de inferencia en cuatro conjuntos de datos.

Risto Ojala, Tristan Ellison, Mo Chen2026-03-05💻 cs

QD-PCQA: Quality-Aware Domain Adaptation for Point Cloud Quality Assessment

El artículo presenta QD-PCQA, un marco de adaptación de dominio no supervisado que mejora la evaluación de calidad de nubes de puntos sin referencia mediante una alineación condicional ponderada por rango y una augmentación de características guiada por calidad para transferir conocimientos perceptuales desde imágenes.

Guohua Zhang, Jian Jin, Meiqin Liu + 2 more2026-03-05💻 cs

PROSPECT: Unified Streaming Vision-Language Navigation via Semantic--Spatial Fusion and Latent Predictive Representation

El artículo presenta PROSPECT, un agente de navegación unificado y en streaming que combina la comprensión semántica con la predicción latente de dinámicas espaciales mediante la fusión de características de CUT3R y SigLIP, logrando un rendimiento superior en tareas de navegación visión-lenguaje y demostraciones en robots reales.

Zehua Fan, Wenqi Lyu, Wenxuan Song + 12 more2026-03-05🤖 cs.AI

DAGE: Dual-Stream Architecture for Efficient and Fine-Grained Geometry Estimation

DAGE es una arquitectura de transformador de doble flujo que separa la coherencia global de los detalles finos para estimar geometría y poses de cámara precisas y consistentes en secuencias de video de alta resolución, estableciendo nuevos récords en el estado del arte.

Tuan Duc Ngo, Jiahui Huang, Seoung Wug Oh + 4 more2026-03-05💻 cs

WSI-INR: Implicit Neural Representations for Lesion Segmentation in Whole-Slide Images

El artículo presenta WSI-INR, un marco novedoso basado en representaciones neuronales implícitas que supera las limitaciones de los métodos tradicionales de parches al modelar las imágenes de diapositivas completas como funciones continuas, logrando así una segmentación de lesiones más robusta y consistente en múltiples resoluciones.

Yunheng Wu, Wenqi Huang, Liangyi Wang + 4 more2026-03-05💻 cs

Seeing as Experts Do: A Knowledge-Augmented Agent for Open-Set Fine-Grained Visual Understanding

El artículo presenta KFRA, un agente de razonamiento visual de granularidad fina potenciado por conocimiento que supera las limitaciones de los enfoques cerrados mediante un ciclo de razonamiento de tres etapas que integra detección, localización y razonamiento multimodal para lograr una interpretación basada en evidencia en escenarios de conjunto abierto.

Junhan Chen, Zilu Zhou, Yujun Tong + 3 more2026-03-05💻 cs

LiDAR Prompted Spatio-Temporal Multi-View Stereo for Autonomous Driving

DriveMVS es un marco novedoso de estereoscopía multi-vista para la conducción autónoma que utiliza observaciones LiDAR dispersas como prompts geométricos y un decodificador espaciotemporal para lograr una precisión métrica superior, consistencia temporal y generalización entre dominios.

Qihao Sun, Jiarun Liu, Ziqian Ni + 5 more2026-03-05💻 cs

Small Object Detection in Complex Backgrounds with Multi-Scale Attention and Global Relation Modeling

Este artículo propone un marco de detección de objetos pequeños en fondos complejos que integra muestreo descendente con ondas de Haar residuales, modelado de relaciones globales y atención híbrida multiescala para preservar detalles finos y mejorar la precisión de localización, logrando un rendimiento superior en el benchmark RGBT-Tiny.

Wenguang Tao, Xiaotian Wang, Tian Yan + 2 more2026-03-05💻 cs

TAP: A Token-Adaptive Predictor Framework for Training-Free Diffusion Acceleration

El marco TAP acelera la inferencia de los modelos de difusión sin necesidad de entrenamiento mediante un mecanismo de "sondeo-selección" que adapta dinámicamente un predictor de bajo costo a cada token basándose en su error proxy, logrando así grandes mejoras en velocidad con mínima pérdida de calidad.

Haowei Zhu, Tingxuan Huang, Xing Wang + 7 more2026-03-05🤖 cs.LG

When and Where to Reset Matters for Long-Term Test-Time Adaptation

Este artículo propone un esquema de reinicio adaptativo y selectivo, junto con un regularizador sensible a la importancia y un ajuste de adaptación en tiempo real, para mitigar el colapso del modelo y recuperar conocimientos esenciales durante la adaptación continua a largo plazo en pruebas.

Taejun Lim, Joong-Won Hwang, Kibok Lee2026-03-05🤖 cs.AI

Separators in Enhancing Autoregressive Pretraining for Vision Mamba

El artículo presenta STAR, un método de preentrenamiento autoregresivo que utiliza separadores idénticos para extender significativamente la longitud de las secuencias de entrada en Vision Mamba, logrando un rendimiento competitivo del 83,5% en ImageNet-1k al aprovechar mejor las dependencias de largo alcance.

Hanpeng Liu, Zidan Wang, Shuoxi Zhang + 2 more2026-03-05🤖 cs.AI

Adaptive Enhancement and Dual-Pooling Sequential Attention for Lightweight Underwater Object Detection with YOLOv10

Este artículo presenta un marco de detección de objetos subacuáticos ligero y robusto basado en YOLOv10 que integra un módulo de mejora adaptativa, un mecanismo de atención secuencial de doble agrupación y una función de pérdida FGIoU, logrando un rendimiento superior en conjuntos de datos de referencia mientras mantiene una arquitectura compacta adecuada para entornos con recursos limitados.

Md. Mushibur Rahman, Umme Fawzia Rahim, Enam Ahmed Taufik2026-03-05💻 cs

Vector-Quantized Soft Label Compression for Dataset Distillation

Este artículo presenta un autoencoder cuantizado vectorialmente (VQAE) para comprimir las etiquetas suaves en la destilación de conjuntos de datos, logrando una reducción de almacenamiento de 30 a 40 veces en benchmarks como ImageNet-1K sin comprometer significativamente el rendimiento del modelo.

Ali Abbasi, Ashkan Shahbazi, Hamed Pirsiavash + 1 more2026-03-05💻 cs

Structure-aware Prompt Adaptation from Seen to Unseen for Open-Vocabulary Compositional Zero-Shot Learning

Este artículo presenta el método de Adaptación de Prompts Consciente de la Estructura (SPA), una técnica plug-and-play que mejora el aprendizaje cero-shot composicional de vocabulario abierto al aprovechar la consistencia de las estructuras locales semánticas para generalizar de conceptos vistos a no vistos mediante una pérdida de consistencia durante el entrenamiento y una estrategia de adaptación guiada en la inferencia.

Yihang Duan, Jiong Wang, Pengpeng Zeng + 5 more2026-03-05💻 cs

From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

Este paper introduce el marco AVAR para abordar el fenómeno de "Lazy Attention Localization" en la inicialización en frío de modelos multimodales, demostrando que guiar la atención visual durante el entrenamiento mejora significativamente el razonamiento multimodal sin necesidad de reentrenamiento costoso.

Ruilin Luo, Chufan Shi, Yizhen Zhang + 10 more2026-03-05🤖 cs.AI

Universal Pansharpening Foundation Model

El artículo presenta FoundPS, un modelo fundacional universal para la fusión de imágenes pancromáticas y multiespectrales que supera las limitaciones de generalización de los métodos existentes mediante arquitecturas avanzadas como transformadores entrelazados y difusión latente, todo respaldado por un nuevo benchmark a gran escala llamado PSBench.

Hebaixu Wang, Jing Zhang, Haonan Guo + 4 more2026-03-05💻 cs

All-in-One Image Restoration via Causal-Deconfounding Wavelet-Disentangled Prompt Network

Este artículo presenta CWP-Net, una red que utiliza mecanismos de desentrelazado de wavelets y deconfusión causal para eliminar correlaciones espurias y estimaciones sesgadas, logrando así una restauración de imágenes todo-en-uno más efectiva y generalizable.

Bingnan Wang, Bin Qin, Jiangmeng Li + 3 more2026-03-05💻 cs

DeepScan: A Training-Free Framework for Visually Grounded Reasoning in Large Vision-Language Models

DeepScan es un marco de razonamiento visualmente fundamentado sin entrenamiento para modelos de lenguaje y visión grandes que, inspirado en la capacidad humana de localizar evidencia en entornos ruidosos mediante un escaneo jerárquico, enfoque y razonamiento mejorado, mejora significativamente el rendimiento en tareas visuales de granularidad fina sin costes de adaptación adicionales.

Yangfu Li, Hongjian Zhan, Jiawei Chen + 3 more2026-03-05💻 cs

← Anterior Siguiente →