MSVBench: Towards Human-Level Evaluation of Multi-Shot Video Generation

Este trabajo presenta MSVBench, el primer benchmark integral para la generación de videos multi-toma que introduce un marco de evaluación híbrido combinando modelos multimodales grandes y expertos, logrando una correlación del 94.4% con juicios humanos y proporcionando señales de supervisión escalables para alinear el rendimiento de los modelos con estándares humanos.

Haoyuan Shi, Yunxin Li, Nanhao Deng + 5 more2026-03-02💻 cs

MINT: Multimodal Imaging-to-Speech Knowledge Transfer for Early Alzheimer's Screening

El artículo presenta MINT, un marco innovador de transferencia de conocimiento multimodal que alinea las representaciones del habla con un espacio de biomarcadores neurales derivados de resonancia magnética para permitir un cribado biológicamente fundamentado de la enfermedad de Alzheimer en etapas tempranas sin necesidad de neuroimagen durante la inferencia.

Vrushank Ahire, Yogesh Kumar, Anouck Girard + 1 more2026-03-02🤖 cs.AI

SR3R: Rethinking Super-Resolution 3D Reconstruction With Feed-Forward Gaussian Splatting

El artículo presenta SR3R, un marco de aprendizaje profundo de alimentación directa que reformula la reconstrucción 3D de superresolución como un mapeo directo desde vistas escasas de baja resolución hacia representaciones 3DGS de alta resolución, logrando una generalización robusta y una fidelidad superior al aprender automáticamente geometrías y apariencias de alta frecuencia a partir de datos multiescena.

Xiang Feng, Xiangbo Wang, Tieshi Zhong + 7 more2026-03-02💻 cs

Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection

SteerVAD es un marco novedoso que mejora la detección de anomalías en videos utilizando modelos multimodales grandes congelados mediante la identificación de expertos latentes y la aplicación de señales de rectificación dinámicas para orientar y corregir sus representaciones internas, logrando un rendimiento superior con datos de entrenamiento mínimos.

Zhaolin Cai, Fan Li, Huiyu Duan + 2 more2026-03-02💻 cs

Spatio-Temporal Garment Reconstruction Using Diffusion Mapping via Pattern Coordinates

Este trabajo propone un marco unificado que combina patrones de costura implícitos con un modelo de difusión generativo para reconstruir con alta fidelidad la geometría de prendas de vestir en 3D a partir de imágenes monoculares y secuencias de video, logrando una consistencia temporal robusta y una generalización efectiva a escenas reales tanto para prendas ajustadas como holgadas.

Yingxuan You, Ren Li, Corentin Dumery + 3 more2026-03-02💻 cs

Quant Experts: Token-aware Adaptive Error Reconstruction with Mixture of Experts for Large Vision-Language Models Quantization

Este trabajo presenta Quant Experts (QE), un método de cuantización post-entrenamiento para modelos de visión y lenguaje que utiliza una arquitectura de expertos mixtos adaptativa y consciente de los tokens para compensar dinámicamente los errores de cuantización mediante expertos compartidos y enrutados, mejorando así la precisión en diversos modelos y configuraciones sin necesidad de reentrenamiento completo.

Chenwei Jia, Baoting Li, Xuchong Zhang + 3 more2026-03-02🤖 cs.AI

Toward Guarantees for Clinical Reasoning in Vision Language Models via Formal Verification

Este trabajo presenta un marco de verificación neurosimbólico que utiliza solutores SMT y bases de conocimiento clínico para auditar y garantizar la consistencia lógica de los informes radiológicos generados por modelos de visión y lenguaje, eliminando así las alucinaciones y mejorando la precisión diagnóstica más allá de las métricas léxicas tradicionales.

Vikash Singh, Debargha Ganguly, Haotian Yu + 5 more2026-03-02💬 cs.CL

Multimodal Optimal Transport for Unsupervised Temporal Segmentation in Surgical Robotics

Este trabajo presenta TASOT, un método no supervisado que utiliza el transporte óptimo multimodal combinando información visual y textual para lograr una segmentación temporal precisa de fases y pasos quirúrgicos sin necesidad de costosas preentrenamientos a gran escala, superando significativamente a los métodos existentes en varios conjuntos de datos de referencia.

Omar Mohamed, Edoardo Fazzari, Ayah Al-Naji + 4 more2026-03-02🤖 cs.AI

Manifold-Preserving Superpixel Hierarchies and Embeddings for the Exploration of High-Dimensional Images

Este artículo presenta una jerarquía de superpíxeles para imágenes de alta dimensión que integra la información espacial y de atributos para permitir una exploración coherente tanto en el espacio de la imagen como en el de los atributos, superando las limitaciones de los métodos jerárquicos tradicionales que ignoran la disposición espacial de los píxeles.

Alexander Vieth, Boudewijn Lelieveldt, Elmar Eisemann + 2 more2026-03-02💻 cs