Manifold-Preserving Superpixel Hierarchies and Embeddings for the Exploration of High-Dimensional Images

Este artículo presenta una jerarquía de superpíxeles para imágenes de alta dimensión que integra la información espacial y de atributos para permitir una exploración coherente tanto en el espacio de la imagen como en el de los atributos, superando las limitaciones de los métodos jerárquicos tradicionales que ignoran la disposición espacial de los píxeles.

Alexander Vieth, Boudewijn Lelieveldt, Elmar Eisemann + 2 more2026-03-02💻 cs

A multimodal slice discovery framework for systematic failure detection and explanation in medical image classification

Este trabajo presenta el primer marco automatizado de auditoría multimodal para la detección sistemática y explicación de fallos en clasificadores de imágenes médicas, demostrando mediante experimentos en el conjunto de datos MIMIC-CXR-JPG que el uso de información multimodal mejora la eficacia de la auditoría en comparación con los enfoques unimodales.

Yixuan Liu, Kanwal K. Bhatia, Ahmed E. Fetit2026-03-02🤖 cs.LG

Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume

El artículo presenta UMPIRE, un marco de cuantificación de incertidumbre sin entrenamiento para modelos de lenguaje grandes multimodales que calcula el volumen semántico ajustado por incoherencia utilizando características internas del modelo, logrando una detección de errores y calibración superiores en diversas modalidades y escenarios sin depender de herramientas externas.

Gregory Kang Ruey Lau, Hieu Dao, Nicole Kan Hui Lin + 1 more2026-03-02💬 cs.CL

Enhancing Spatial Understanding in Image Generation via Reward Modeling

Este trabajo presenta un nuevo método que mejora la comprensión espacial en la generación de imágenes mediante la construcción del conjunto de datos SpatialReward-Dataset y el modelo de recompensa SpatialScore, los cuales permiten un aprendizaje por refuerzo en línea que supera a los modelos propietarios existentes en la evaluación y generación precisa de relaciones espaciales complejas.

Zhenyu Tang, Chaoran Feng, Yufan Deng + 5 more2026-03-02💻 cs

Joint Geometric and Trajectory Consistency Learning for One-Step Real-World Super-Resolution

El artículo presenta GTASR, un paradigma de entrenamiento ligero para la superresolución de imágenes en escenarios reales que supera las limitaciones de los modelos de consistencia existentes mediante una alineación de trayectoria y una rectificación estructural dual, logrando así una generación de alta calidad en un solo paso con baja latencia.

Chengyan Deng, Zhangquan Chen, Li Yu + 3 more2026-03-02💻 cs

Mode Seeking meets Mean Seeking for Fast Long Video Generation

Este trabajo propone un paradigma de entrenamiento que combina la búsqueda de modos y la búsqueda de medias mediante un Transformador de Difusión Desacoplado para generar videos largos de alta fidelidad y coherencia en pocos pasos, superando la escasez de datos de larga duración al alinear la estructura narrativa global con la realismo local aprendido de un modelo maestro de videos cortos.

Shengqu Cai, Weili Nie, Chao Liu + 8 more2026-03-02🤖 cs.LG

SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation

El artículo presenta SGIFormer, un método novedoso para la segmentación de instancias en nubes de puntos 3D que combina una inicialización de consultas guiada por semántica y un decodificador transformador intercalado mejorado geométricamente para lograr un rendimiento superior y un equilibrio entre precisión y eficiencia en escenarios a gran escala.

Lei Yao, Yi Wang, Moyun Liu + 1 more2026-02-27💻 cs