Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

El artículo presenta Graph-of-Mark (GoM), una técnica de prompting visual basada en grafos que mejora el razonamiento espacial de los modelos de lenguaje multimodales al superponer grafos de escena en las imágenes, logrando aumentos significativos en tareas de localización y preguntas visuales sin necesidad de entrenamiento adicional.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

Este artículo presenta un sistema de inferencia optimizado para modelos de generación de video basados en DiT que, mediante el uso de codificación posicional 3D secuencial-paralela con un índice de tiempo global y técnicas de fusión de operadores, logra reducir significativamente la latencia y el consumo de memoria para habilitar la generación de videos en tiempo real sin comprometer la calidad.

Chao Yuan, Pan Li2026-03-10💻 cs

SJD-PV: Speculative Jacobi Decoding with Phrase Verification for Autoregressive Image Generation

El artículo presenta SJD-PV, un marco de aceleración sin entrenamiento que utiliza verificación especulativa a nivel de frases para agrupar tokens visuales correlacionados, logrando una decodificación hasta un 30% más rápida en modelos de generación de imágenes autoregresivos sin comprometer la calidad visual.

Zhehao Yu, Baoquan Zhang, Bingqi Shan, Xinhao Liu, Dongliang Zhou, Guotao Liang, Guangming Ye, Yunming Ye2026-03-10💻 cs

calibfusion: Transformer-Based Differentiable Calibration for Radar-Camera Fusion Detection in Water-Surface Environments

El artículo presenta CalibFusion, un detector de fusión radar-cámara basado en transformadores que realiza una calibración extrínseca diferenciable y refinada de extremo a extremo para mejorar la detección en entornos acuáticos, superando las limitaciones de los métodos existentes ante la falta de texturas y el ruido por ondas.

Yuting Wan, Liguo Sun, Jiuwu Hao, Pin LV2026-03-10💻 cs

Unmixing microinfrared spectroscopic images of cross-sections of historical oil paintings

Este artículo presenta un autoencoder CNN no supervisado con una función de pérdida de distancia angular espectral ponderada (WSAD) para realizar la desmezcla ciega de imágenes hiperespectrales de micro-FTIR en secciones transversales de pinturas al óleo históricas, mejorando la interpretación de materiales complejos como se demuestra en un análisis del Políptico de la Adoración del Cordero Místico de los hermanos Van Eyck.

Shivam Pande, Nicolas Nadisic, Francisco Mederos-Henry, Aleksandra Pizurica2026-03-10🤖 cs.LG

AutoFigure-Edit: Generating Editable Scientific Illustration

AutoFigure-Edit es un sistema integral que genera ilustraciones científicas totalmente editables y adaptables a estilos específicos a partir de textos científicos extensos, combinando la comprensión de contexto largo, el guiado por imágenes de referencia y la edición nativa en SVG.

Zhen Lin, Qiujie Xie, Minjun Zhu, Shichen Li, Qiyao Sun, Enhao Gu, Yiran Ding, Ke Sun, Fang Guo, Panzhong Lu, Zhiyuan Ning, Yixuan Weng, Yue Zhang2026-03-10💻 cs

XAI and Few-shot-based Hybrid Classification Model for Plant Leaf Disease Prognosis

Este trabajo presenta un modelo híbrido de clasificación basado en aprendizaje con pocos ejemplos e inteligencia artificial explicable que integra redes siamesas y prototípicas con Grad-CAM para identificar con alta precisión y transparencia las etapas de enfermedades en hojas de maíz, arroz y trigo, incluso con datos anotados limitados.

Diana Susan Joseph, Pranav M Pawar, Raja Muthalagu, Mithun Mukharjee2026-03-10🤖 cs.LG

Chart Deep Research in LVLMs via Parallel Relative Policy Optimization

Este artículo presenta PRPO, un método de optimización de políticas paralelas que resuelve conflictos en el entrenamiento de modelos visuales para el análisis profundo de gráficos, junto con MCDR-Bench, una nueva plataforma de evaluación objetiva que supera las limitaciones de las técnicas actuales al medir capacidades de razonamiento analítico avanzado.

Jiajin Tang, Gaoyang, Wenjie Wang, Sibei Yang, Xing Chen2026-03-10🤖 cs.LG

ECHO: Event-Centric Hypergraph Operations via Multi-Agent Collaboration for Multimedia Event Extraction

El artículo presenta ECHO, un marco de colaboración multiagente que utiliza operaciones de hipergrafos y una estrategia de "enlace antes de vincular" para refinar iterativamente una representación intermedia de eventos multimedia, logrando así superar significativamente a los métodos actuales en la extracción de eventos al mitigar la propagación de errores.

Hailong Chu, Shuo Zhang, Yunlong Chu, Shutai Huang, Xingyue Zhang, Tinghe Yan, Jinsong Zhang, Lei Li2026-03-10💻 cs

Three-dimensional reconstruction and segmentation of an aggregate stockpile for size and shape analyses

Este artículo presenta un enfoque innovador de reconstrucción y segmentación 3D de pilas de áridos mediante técnicas de Estructura a partir del Movimiento (SfM) y algoritmos de segmentación aplicados a imágenes de dispositivos móviles, con el objetivo de facilitar el análisis de tamaño y forma para tareas de aseguramiento y control de calidad en el campo.

Erol Tutumluer, Haohang Huang, Jiayi Luo, Issam Qamhia, John M. Hart2026-03-10💻 cs

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

El artículo presenta TimeSpot, un nuevo benchmark que evalúa la capacidad de los modelos de visión y lenguaje para inferir atributos geográficos y temporales a partir de imágenes del mundo real, revelando que, aunque el ajuste fino mejora los resultados, los modelos actuales aún carecen de un razonamiento geo-temporal robusto y físicamente fundamentado.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan Parvez2026-03-10💬 cs.CL

High-Resolution Image Reconstruction with Unsupervised Learning and Noisy Data Applied to Ion-Beam Dynamics for Particle Accelerators

Este trabajo presenta un marco de aprendizaje no supervisado que utiliza filtrado convolucional y redes neuronales para reconstruir imágenes de haces de iones con alta fidelidad y eliminar el ruido en condiciones de baja relación señal-ruido, permitiendo la detección de estructuras de halo más allá de siete desviaciones estándar sin necesidad de conjuntos de datos de entrenamiento.

Francis Osswald (IPHC), Mohammed Chahbaoui (UNISTRA), Xinyi Liang (SU)2026-03-10🤖 cs.LG

Spectral Gaps and Spatial Priors: Studying Hyperspectral Downstream Adaptation Using TerraMind

Este estudio evalúa la adaptación del modelo fundacional geoespacial TerraMind a tareas de imágenes hiperespectrales mediante estrategias de selección de bandas, demostrando que, aunque el modelo puede ajustarse con una caída moderada de rendimiento, los modelos nativos de aprendizaje profundo siguen siendo superiores y subraya la necesidad de tokenización espectral nativa en futuras arquitecturas multimodales.

Julia Anna Leonardi, Johannes Jakubik, Paolo Fraccaro, Maria Antonia Brovelli2026-03-10💻 cs