EarthScape: A Multimodal Dataset for Surficial Geologic Mapping and Earth Surface Analysis

El artículo presenta EarthScape, un conjunto de datos multimodal listo para IA diseñado para automatizar y escalar la cartografía geológica superficial mediante la integración de modelos de elevación, imágenes aéreas y datos vectoriales en un pipeline reproducible que demuestra que las características del terreno son el predictor más fiable para este tipo de análisis.

Matthew Massey, Nusrat Munia, Abdullah-Al-Zubaer Imran2026-03-09💻 cs

Evaluating quality metrics through the lenses of psychophysical measurements of low-level vision

Este artículo introduce un conjunto de pruebas basadas en mediciones psicofísicas de la visión de bajo nivel para evaluar la capacidad de 34 métricas de calidad de imagen y video existentes para modelar aspectos clave de la percepción humana, como la sensibilidad al contraste y el enmascaramiento, revelando limitaciones y patrones de comportamiento que no se detectan con los protocolos de evaluación estándar.

Dounia Hammou, Yancheng Cai, Pavan Madhusudanarao, Christos G. Bampis, Rafał K. Mantiuk2026-03-09💻 cs

FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment

El artículo presenta FindAnything, un marco de mapeo en mundo abierto que integra información visión-idioma en submapas volumétricos centrados en objetos mediante la agregación eficiente de características, logrando una comprensión semántica precisa y escalable en tiempo real incluso en dispositivos con recursos limitados como los MAVs.

Sebastián Barbas Laina, Simon Boche, Sotiris Papatheodorou, Simon Schaefer, Jaehyung Jung, Helen Oleynikova, Stefan Leutenegger2026-03-09🤖 cs.AI

Alchemist: Turning Public Text-to-Image Data into Generative Gold

Este paper presenta Alchemist, un conjunto de datos de ajuste fino supervisado compacto pero altamente efectivo creado mediante un nuevo método que utiliza un modelo generativo preentrenado como estimador de muestras de alto impacto, el cual mejora sustancialmente la calidad estética y la alineación de cinco modelos públicos de texto a imagen sin comprometer su diversidad.

Valerii Startsev, Alexander Ustyuzhanin, Alexey Kirillov, Dmitry Baranchuk, Sergey Kastryulin2026-03-09💻 cs

Instance Data Condensation for Image Super-Resolution

Este artículo presenta un nuevo marco de condensación de datos a nivel de instancia (IDC) para la superresolución de imágenes, que mediante la extracción de características de Fourier locales aleatorias y la coincidencia de distribuciones de características multinivel, logra generar un conjunto de datos sintético condensado al 10% del original DIV2K que iguala el rendimiento y la estabilidad de entrenamiento del conjunto completo.

Tianhao Peng, Ho Man Kwan, Yuxuan Jiang, Ge Gao, Fan Zhang, Xiaozhong Xu, Shan Liu, David Bull2026-03-09💻 cs

VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs

El artículo presenta VisioMath, un nuevo benchmark de 1.800 problemas matemáticos de nivel K-12 que evalúa la capacidad de los Modelos Multimodales Grandes para realizar razonamiento comparativo basado en diagramas visualmente similares, revelando que su principal limitación es la desalineación entre imagen y texto y demostrando que estrategias de alineación pueden mejorar significativamente su rendimiento.

Can Li, Ying Liu, Ting Zhang, Mei Wang, Hua Huang2026-03-09🤖 cs.AI

NarrLV: Towards a Comprehensive Narrative-Centric Evaluation for Long Video Generation

El artículo presenta NarrLV, el primer benchmark diseñado para evaluar de manera integral la capacidad de expresión narrativa en la generación de videos largos mediante la introducción de "átomos narrativos temporales" y una métrica basada en modelos de lenguaje multimodal que demuestra una fuerte alineación con el juicio humano.

X. Feng, H. Yu, M. Wu, S. Hu, J. Chen, C. Zhu, J. Wu, X. Chu, K. Huang2026-03-09💻 cs

ExDD: Explicit Dual Distribution Learning for Surface Defect Detection via Diffusion Synthesis

El artículo presenta ExDD, un marco innovador para la detección de defectos industriales que supera las limitaciones de los enfoques de una sola clase mediante el modelado explícito de distribuciones duales de características, el uso de modelos de difusión para sintetizar defectos y una puntuación de ratio que fusiona métricas de distancia para lograr un rendimiento superior en el conjunto de datos KSDD2.

Muhammad Aqeel, Federico Leonardi, Francesco Setti2026-03-09🤖 cs.AI

A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature

Este trabajo presenta un sistema multiagente basado en modelos de lenguaje grandes multimodales que supera significativamente al estado del arte en la extracción automatizada y robusta de información química de la literatura, logrando un puntaje F1 del 76,27% en gráficos de reacciones complejos y demostrando una amplia versatilidad en diversas tareas de extracción de datos.

Yufan Chen, Ching Ting Leung, Bowen Yu, Jianwei Sun, Yong Huang, Linyan Li, Hao Chen, Hanyu Gao2026-03-09🤖 cs.AI

MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing

Este trabajo presenta MAP, un método de decodificación sin entrenamiento que mitiga las alucinaciones en los Modelos Grandes de Visión y Lenguaje interpretando sus estados ocultos como un mapa semántico 2D y refinando las representaciones mediante operaciones de atención a nivel de mapa para mejorar la consistencia factual.

Chenxi Li, Yichen Guo, Benfang Qian, Jinhao You, Kai Tang, Yaosong Du, Zonghao Zhang, Xiande Huang2026-03-09🤖 cs.AI