RESAR-BEV: An Explainable Progressive Residual Autoregressive Approach for Camera-Radar Fusion in BEV Segmentation

El artículo presenta RESAR-BEV, un marco de fusión cámara-radar explicable y progresivo para la segmentación en vista cenital que supera a los métodos existentes mediante un aprendizaje autoregresivo residual, una representación robusta de BEV y una supervisión desacoplada, logrando un rendimiento de vanguardia (54.0% mIoU) y tiempo real (14.6 FPS) en el conjunto de datos nuScenes.

Zhiwen Zeng, Yunfei Yin, Zheng Yuan + 2 more2026-03-06💻 cs

DHECA-SuperGaze: Dual Head-Eye Cross-Attention and Super-Resolution for Unconstrained Gaze Estimation

Este artículo presenta DHECA-SuperGaze, un método de aprendizaje profundo que mejora la estimación de la mirada en entornos no controlados mediante la integración de superresolución y un módulo de atención cruzada dual cabeza-ojo, corrigiendo además errores en el conjunto de datos Gaze360 y logrando un rendimiento superior al estado del arte en múltiples métricas y configuraciones.

Franko Šikić, Donik Vršnak, Sven Lončarić2026-03-06💻 cs

OSPO: Object-Centric Self-Improving Preference Optimization for Text-to-Image Generation

El artículo presenta OSPO, un marco de optimización de preferencias auto-mejorable centrado en objetos que, sin depender de datos o modelos externos, utiliza máscaras basadas en atención y una pérdida SimPO ponderada por objetos para mejorar significativamente la alineación texto-imagen y reducir las alucinaciones en la generación de imágenes.

Yoonjin Oh, Yongjin Kim, Hyomin Kim + 2 more2026-03-06💻 cs

EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models

Este artículo presenta EDITOR, un método de inversión de prompts para modelos de difusión texto-a-imagen que combina la inicialización con modelos de descripción de imágenes, la refinación en el espacio latente y la conversión a texto, logrando una superioridad en similitud visual, alineación textual e interpretabilidad frente a técnicas existentes, además de habilitar diversas aplicaciones creativas y analíticas.

Mingzhe Li, Kejing Xia, Gehao Zhang + 5 more2026-03-06💻 cs

HypeVPR: Exploring Hyperbolic Space for Perspective to Equirectangular Visual Place Recognition

El artículo presenta HypeVPR, un marco de aprendizaje jerárquico en espacio hiperbólico diseñado para mejorar el reconocimiento de lugares entre imágenes panorámicas y de perspectiva mediante la captura eficiente de estructuras jerárquicas, lo que permite un control flexible entre precisión y eficiencia mientras se reduce el almacenamiento y se acelera la recuperación.

Suhan Woo, Seongwon Lee, Jinwoo Jang + 1 more2026-03-06💻 cs

HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals

Este trabajo presenta HSG-12M, un conjunto de datos a gran escala de 16,7 millones de multigrafos espaciales derivados de los espectros de energía de cristales no hermitianos, generado mediante la herramienta automatizada Poly2Graph para superar la falta de datos de alta calidad en física cuántica y fomentar el aprendizaje geométrico avanzado en grafos.

Xianquan Yan, Hakan Akgün, Kenji Kawaguchi + 2 more2026-03-06🔬 cond-mat.mes-hall

Graph-Based Multi-Modal Light-weight Network for Adaptive Brain Tumor Segmentation

Este trabajo presenta GMLN-BTS, una red ligera basada en grafos para la segmentación de tumores cerebrales que, mediante un codificador adaptativo, un módulo de interacción multimodal y un refinamiento de vóxeles, logra un rendimiento de vanguardia con solo 4,58 millones de parámetros, reduciendo la complejidad computacional en un 98% en comparación con los modelos Transformer 3D convencionales.

Guohao Huo, Ruiting Dai, Zitong Wang + 2 more2026-03-06💻 cs

SAMPO-Path: Segmentation Intent-Aligned Preference Optimization for Pathology Foundation Model Segmentation

El artículo presenta SAMPO, un marco de optimización de preferencias que alinea los modelos fundacionales de visión con la intención clínica de segmentación en imágenes de patología, mejorando la precisión y la robustez frente a prompts imperfectos mediante la adaptación de la Optimización Directa de Preferencias (DPO) y estrategias de aprendizaje híbridas.

Yonghuang Wu, Wenwen Zeng, Xuan Xie + 3 more2026-03-06💻 cs

Distant Object Localisation from Noisy Image Segmentation Sequences

Este artículo presenta un sistema fiable para la localización de objetos lejanos en tareas de vigilancia crítica, como la monitorización de incendios forestales con drones, demostrando que la combinación de triangulación multivista o filtros de partículas con segmentación de imágenes y recursos computacionales a bordo permite estimar la posición, forma y incertidumbre de los objetos sin necesidad de reconstrucción 3D compleja ni configuraciones de sensores especializadas.

Julius Pesonen, Arno Solin, Eija Honkavaara2026-03-06💻 cs