cs.CV artículos | Gist.Science

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

El artículo presenta Graph-of-Mark (GoM), una técnica de prompting visual basada en grafos que mejora el razonamiento espacial de los modelos de lenguaje multimodales al superponer grafos de escena en las imágenes, logrando aumentos significativos en tareas de localización y preguntas visuales sin necesidad de entrenamiento adicional.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

Este artículo presenta un sistema de inferencia optimizado para modelos de generación de video basados en DiT que, mediante el uso de codificación posicional 3D secuencial-paralela con un índice de tiempo global y técnicas de fusión de operadores, logra reducir significativamente la latencia y el consumo de memoria para habilitar la generación de videos en tiempo real sin comprometer la calidad.

Chao Yuan, Pan Li2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

El artículo demuestra que, en tareas médicas de visión y lenguaje, la cadena de pensamiento a menudo reduce el rendimiento al exacerbar la incertidumbre perceptiva, y propone intervenciones de anclaje visual para mejorar la precisión y la alineación multimodal.

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

SJD-PV: Speculative Jacobi Decoding with Phrase Verification for Autoregressive Image Generation

El artículo presenta SJD-PV, un marco de aceleración sin entrenamiento que utiliza verificación especulativa a nivel de frases para agrupar tokens visuales correlacionados, logrando una decodificación hasta un 30% más rápida en modelos de generación de imágenes autoregresivos sin comprometer la calidad visual.

Zhehao Yu, Baoquan Zhang, Bingqi Shan, Xinhao Liu, Dongliang Zhou, Guotao Liang, Guangming Ye, Yunming Ye2026-03-10💻 cs

calibfusion: Transformer-Based Differentiable Calibration for Radar-Camera Fusion Detection in Water-Surface Environments

El artículo presenta CalibFusion, un detector de fusión radar-cámara basado en transformadores que realiza una calibración extrínseca diferenciable y refinada de extremo a extremo para mejorar la detección en entornos acuáticos, superando las limitaciones de los métodos existentes ante la falta de texturas y el ruido por ondas.

Yuting Wan, Liguo Sun, Jiuwu Hao, Pin LV2026-03-10💻 cs

Does Semantic Noise Initialization Transfer from Images to Videos? A Paired Diagnostic Study

Este estudio demuestra que, a diferencia de lo observado en modelos de imágenes, la inicialización con ruido semántico no mejora significativamente la generación de video texto-a-video, ya que los resultados no superan estadísticamente a la línea base de ruido gaussiano y presentan una señal inestable.

Yixiao Jing, Chaoyu Zhang, Zixuan Zhong, Peizhou Huang2026-03-10💻 cs

Unmixing microinfrared spectroscopic images of cross-sections of historical oil paintings

Este artículo presenta un autoencoder CNN no supervisado con una función de pérdida de distancia angular espectral ponderada (WSAD) para realizar la desmezcla ciega de imágenes hiperespectrales de micro-FTIR en secciones transversales de pinturas al óleo históricas, mejorando la interpretación de materiales complejos como se demuestra en un análisis del Políptico de la Adoración del Cordero Místico de los hermanos Van Eyck.

Shivam Pande, Nicolas Nadisic, Francisco Mederos-Henry, Aleksandra Pizurica2026-03-10🤖 cs.LG

AutoFigure-Edit: Generating Editable Scientific Illustration

AutoFigure-Edit es un sistema integral que genera ilustraciones científicas totalmente editables y adaptables a estilos específicos a partir de textos científicos extensos, combinando la comprensión de contexto largo, el guiado por imágenes de referencia y la edición nativa en SVG.

Zhen Lin, Qiujie Xie, Minjun Zhu, Shichen Li, Qiyao Sun, Enhao Gu, Yiran Ding, Ke Sun, Fang Guo, Panzhong Lu, Zhiyuan Ning, Yixuan Weng, Yue Zhang2026-03-10💻 cs

XAI and Few-shot-based Hybrid Classification Model for Plant Leaf Disease Prognosis

Este trabajo presenta un modelo híbrido de clasificación basado en aprendizaje con pocos ejemplos e inteligencia artificial explicable que integra redes siamesas y prototípicas con Grad-CAM para identificar con alta precisión y transparencia las etapas de enfermedades en hojas de maíz, arroz y trigo, incluso con datos anotados limitados.

Diana Susan Joseph, Pranav M Pawar, Raja Muthalagu, Mithun Mukharjee2026-03-10🤖 cs.LG

Chart Deep Research in LVLMs via Parallel Relative Policy Optimization

Este artículo presenta PRPO, un método de optimización de políticas paralelas que resuelve conflictos en el entrenamiento de modelos visuales para el análisis profundo de gráficos, junto con MCDR-Bench, una nueva plataforma de evaluación objetiva que supera las limitaciones de las técnicas actuales al medir capacidades de razonamiento analítico avanzado.

Jiajin Tang, Gaoyang, Wenjie Wang, Sibei Yang, Xing Chen2026-03-10🤖 cs.LG

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

El artículo presenta MultiGen, un enfoque que introduce una memoria externa persistente y editable en motores de juegos basados en difusión para superar las limitaciones de control del usuario y la coherencia en simulaciones multijugador interactivas.

Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel Ruiz2026-03-10💻 cs

VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images

El artículo presenta VB, un nuevo benchmark diseñado para evaluar la capacidad de los modelos de visión y lenguaje para determinar la visibilidad en imágenes y abstenerse de responder cuando la evidencia es insuficiente, demostrando que GPT-4o y Gemini 3.1 Pro lideran este razonamiento entre los modelos evaluados.

Neil Tripathi2026-03-10💻 cs

RADAR: A Multimodal Benchmark for 3D Image-Based Radiology Report Review

El documento presenta RADAR, un nuevo benchmark multimodal basado en imágenes 3D de tomografía computarizada abdominal que evalúa la capacidad de los modelos para analizar discrepancias clínicas y revisar ediciones en informes radiológicos dentro de un flujo de trabajo real de revisión por expertos.

Zhaoyi Sun, Minal Jagtiani, Wen-wai Yim, Fei Xia, Martin Gunn, Meliha Yetisgen, Asma Ben Abacha2026-03-10💻 cs

ECHO: Event-Centric Hypergraph Operations via Multi-Agent Collaboration for Multimedia Event Extraction

El artículo presenta ECHO, un marco de colaboración multiagente que utiliza operaciones de hipergrafos y una estrategia de "enlace antes de vincular" para refinar iterativamente una representación intermedia de eventos multimedia, logrando así superar significativamente a los métodos actuales en la extracción de eventos al mitigar la propagación de errores.

Hailong Chu, Shuo Zhang, Yunlong Chu, Shutai Huang, Xingyue Zhang, Tinghe Yan, Jinsong Zhang, Lei Li2026-03-10💻 cs

Three-dimensional reconstruction and segmentation of an aggregate stockpile for size and shape analyses

Este artículo presenta un enfoque innovador de reconstrucción y segmentación 3D de pilas de áridos mediante técnicas de Estructura a partir del Movimiento (SfM) y algoritmos de segmentación aplicados a imágenes de dispositivos móviles, con el objetivo de facilitar el análisis de tamaño y forma para tareas de aseguramiento y control de calidad en el campo.

Erol Tutumluer, Haohang Huang, Jiayi Luo, Issam Qamhia, John M. Hart2026-03-10💻 cs

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

El artículo presenta TimeSpot, un nuevo benchmark que evalúa la capacidad de los modelos de visión y lenguaje para inferir atributos geográficos y temporales a partir de imágenes del mundo real, revelando que, aunque el ajuste fino mejora los resultados, los modelos actuales aún carecen de un razonamiento geo-temporal robusto y físicamente fundamentado.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan Parvez2026-03-10💬 cs.CL

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

El artículo presenta "Narrative Weaver", un marco innovador que integra planificación narrativa multimodal y un banco de memoria dinámico para generar contenido visual coherente y controlable a largo plazo, complementado con el lanzamiento del primer dataset de referencia para storyboards publicitarios.

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

High-Resolution Image Reconstruction with Unsupervised Learning and Noisy Data Applied to Ion-Beam Dynamics for Particle Accelerators

Este trabajo presenta un marco de aprendizaje no supervisado que utiliza filtrado convolucional y redes neuronales para reconstruir imágenes de haces de iones con alta fidelidad y eliminar el ruido en condiciones de baja relación señal-ruido, permitiendo la detección de estructuras de halo más allá de siete desviaciones estándar sin necesidad de conjuntos de datos de entrenamiento.

Francis Osswald (IPHC), Mohammed Chahbaoui (UNISTRA), Xinyi Liang (SU)2026-03-10🤖 cs.LG

Spectral Gaps and Spatial Priors: Studying Hyperspectral Downstream Adaptation Using TerraMind

Este estudio evalúa la adaptación del modelo fundacional geoespacial TerraMind a tareas de imágenes hiperespectrales mediante estrategias de selección de bandas, demostrando que, aunque el modelo puede ajustarse con una caída moderada de rendimiento, los modelos nativos de aprendizaje profundo siguen siendo superiores y subraya la necesidad de tokenización espectral nativa en futuras arquitecturas multimodales.

Julia Anna Leonardi, Johannes Jakubik, Paolo Fraccaro, Maria Antonia Brovelli2026-03-10💻 cs

One-Shot Badminton Shuttle Detection for Mobile Robots

Este artículo presenta un marco robusto de detección de un solo disparo para volantes de bádminton en robots móviles, que incluye un nuevo conjunto de datos anotado semi-automáticamente y un modelo YOLOv8 optimizado para funcionar eficazmente en entornos dinámicos y egocéntricos.

Florentin Dipner, William Talbot, Turcan Tuna, Andrei Cramariuc, Marco Hutter2026-03-10💻 cs

← Anterior Siguiente →