MPFlow: Multi-modal Posterior-Guided Flow Matching for Zero-Shot MRI Reconstruction

El artículo presenta MPFlow, un marco de reconstrucción de resonancia magnética (MRI) sin entrenamiento previo que utiliza un flujo rectificado y una estrategia de preentrenamiento auto-supervisado para aprovechar modalidades de MRI complementarias durante la inferencia, logrando así una mayor fidelidad anatómica y una reducción significativa de alucinaciones en comparación con los métodos basados en difusión.

Seunghoi Kim, Chen Jin, Henry F. J. Tregidgo + 2 more2026-03-05🤖 cs.AI

PROSPECT: Unified Streaming Vision-Language Navigation via Semantic--Spatial Fusion and Latent Predictive Representation

El artículo presenta PROSPECT, un agente de navegación unificado y en streaming que combina la comprensión semántica con la predicción latente de dinámicas espaciales mediante la fusión de características de CUT3R y SigLIP, logrando un rendimiento superior en tareas de navegación visión-lenguaje y demostraciones en robots reales.

Zehua Fan, Wenqi Lyu, Wenxuan Song + 12 more2026-03-05🤖 cs.AI

Seeing as Experts Do: A Knowledge-Augmented Agent for Open-Set Fine-Grained Visual Understanding

El artículo presenta KFRA, un agente de razonamiento visual de granularidad fina potenciado por conocimiento que supera las limitaciones de los enfoques cerrados mediante un ciclo de razonamiento de tres etapas que integra detección, localización y razonamiento multimodal para lograr una interpretación basada en evidencia en escenarios de conjunto abierto.

Junhan Chen, Zilu Zhou, Yujun Tong + 3 more2026-03-05💻 cs

Small Object Detection in Complex Backgrounds with Multi-Scale Attention and Global Relation Modeling

Este artículo propone un marco de detección de objetos pequeños en fondos complejos que integra muestreo descendente con ondas de Haar residuales, modelado de relaciones globales y atención híbrida multiescala para preservar detalles finos y mejorar la precisión de localización, logrando un rendimiento superior en el benchmark RGBT-Tiny.

Wenguang Tao, Xiaotian Wang, Tian Yan + 2 more2026-03-05💻 cs

Adaptive Enhancement and Dual-Pooling Sequential Attention for Lightweight Underwater Object Detection with YOLOv10

Este artículo presenta un marco de detección de objetos subacuáticos ligero y robusto basado en YOLOv10 que integra un módulo de mejora adaptativa, un mecanismo de atención secuencial de doble agrupación y una función de pérdida FGIoU, logrando un rendimiento superior en conjuntos de datos de referencia mientras mantiene una arquitectura compacta adecuada para entornos con recursos limitados.

Md. Mushibur Rahman, Umme Fawzia Rahim, Enam Ahmed Taufik2026-03-05💻 cs

Structure-aware Prompt Adaptation from Seen to Unseen for Open-Vocabulary Compositional Zero-Shot Learning

Este artículo presenta el método de Adaptación de Prompts Consciente de la Estructura (SPA), una técnica plug-and-play que mejora el aprendizaje cero-shot composicional de vocabulario abierto al aprovechar la consistencia de las estructuras locales semánticas para generalizar de conceptos vistos a no vistos mediante una pérdida de consistencia durante el entrenamiento y una estrategia de adaptación guiada en la inferencia.

Yihang Duan, Jiong Wang, Pengpeng Zeng + 5 more2026-03-05💻 cs

DeepScan: A Training-Free Framework for Visually Grounded Reasoning in Large Vision-Language Models

DeepScan es un marco de razonamiento visualmente fundamentado sin entrenamiento para modelos de lenguaje y visión grandes que, inspirado en la capacidad humana de localizar evidencia en entornos ruidosos mediante un escaneo jerárquico, enfoque y razonamiento mejorado, mejora significativamente el rendimiento en tareas visuales de granularidad fina sin costes de adaptación adicionales.

Yangfu Li, Hongjian Zhan, Jiawei Chen + 3 more2026-03-05💻 cs