CREM: Compression-Driven Representation Enhancement for Multimodal Retrieval and Comprehension

El artículo presenta CREM, un marco unificado que mejora el rendimiento de recuperación multimodal mediante un diseño de prompts basado en compresión y una estrategia de entrenamiento que integra objetivos generativos y contrastivos, logrando así un estado del arte en tareas de recuperación sin sacrificar la capacidad de generación del modelo.

Lihao Liu, Yan Wang, Biao Yang + 10 more2026-02-24💻 cs

BriMA: Bridged Modality Adaptation for Multi-Modal Continual Action Quality Assessment

El artículo presenta BriMA, un enfoque innovador para la evaluación continua de la calidad de las acciones multimodal que aborda el desequilibrio de modalidades mediante un módulo de imputación guiado por memoria y un mecanismo de repetición consciente de la modalidad, logrando mejoras significativas en el rendimiento bajo condiciones de datos incompletos.

Kanglei Zhou, Chang Li, Qingyi Pan + 1 more2026-02-24💻 cs

EMAD: Evidence-Centric Grounded Multimodal Diagnosis for Alzheimer's Disease

El artículo presenta EMAD, un marco de visión-linguaje que genera informes diagnósticos de la enfermedad de Alzheimer explicables y clínicamente coherentes al vincular cada afirmación con evidencia multimodal específica y estructuras anatómicas en resonancias magnéticas 3D, utilizando técnicas de destilación y ajuste fino por refuerzo para garantizar la transparencia y la precisión.

Qiuhui Chen, Xuancheng Yao, Zhenglei Zhou + 2 more2026-02-24💻 cs

PositionOCR: Augmenting Positional Awareness in Multi-Modal Models via Hybrid Specialist Integration

El artículo presenta PositionOCR, una arquitectura híbrida eficiente en parámetros que integra las capacidades de localización posicional de modelos especializados en detección de texto con el razonamiento contextual de los modelos de lenguaje grandes para superar las limitaciones de los modelos multimodales actuales en tareas de reconocimiento y anclaje de texto.

Chen Duan, Zhentao Guo, Pei Fu + 3 more2026-02-24💻 cs

UniE2F: A Unified Diffusion Framework for Event-to-Frame Reconstruction with Video Foundation Models

El artículo presenta UniE2F, un marco unificado que aprovecha los modelos de difusión de video preentrenados para reconstruir cuadros de video de alta fidelidad a partir de datos de cámaras de eventos, superando la pérdida de información espacial mediante una guía de residuos intercuadro basada en eventos y habilitando tareas de interpolación y predicción en ceros disparos.

Gang Xu, Zhiyu Zhu, Junhui Hou2026-02-24💻 cs

SegMoTE: Token-Level Mixture of Experts for Medical Image Segmentation

El artículo presenta SegMoTE, un marco eficiente y adaptable basado en SAM que utiliza una mezcla de expertos a nivel de token y un mecanismo de tokenización progresiva para lograr un rendimiento superior en la segmentación de imágenes médicas con una fracción mínima de datos de anotación, resolviendo así los desafíos de generalización y transferencia negativa en escenarios clínicos diversos.

Yujie Lu, Jingwen Li, Sibo Ju + 5 more2026-02-24💻 cs

Controlled Face Manipulation and Synthesis for Data Augmentation

Este trabajo presenta un método de manipulación facial en el espacio latente semántico que, mediante proyección ortogonal y condicionamiento dependiente, genera datos sintéticos de alta calidad para equilibrar y diversificar conjuntos de datos de análisis de unidades de acción, mejorando significativamente la precisión y la desvinculación de los detectores de expresiones sin introducir artefactos ni perder la identidad.

Joris Kirchner, Amogh Gudi, Marian Bittner + 1 more2026-02-24🤖 cs.LG