ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving

ImagiDrive es un marco unificado de imaginación y planificación para la conducción autónoma que integra un agente basado en Modelos de Lenguaje Visual con un imaginador de escenas basado en Modelos Mundiales de Conducción, permitiendo refinar iterativamente las decisiones de trayectoria mediante la generación y evaluación de escenarios futuros, lo que demuestra un rendimiento superior en los conjuntos de datos nuScenes y NAVSIM.

Jingyu Li, Bozhou Zhang, Xin Jin + 3 more2026-03-03💻 cs

CineTrans: Learning to Generate Videos with Cinematic Transitions via Masked Diffusion Models

El artículo presenta CineTrans, un marco novedoso que utiliza modelos de difusión enmascarados y un nuevo conjunto de datos (Cine250K) para generar videos coherentes de múltiples planos con transiciones cinematográficas estables, superando las limitaciones de los métodos actuales mediante un mecanismo de control basado en máscaras que funciona sin entrenamiento adicional.

Xiaoxue Wu, Bingjie Gao, Yu Qiao + 2 more2026-03-03💻 cs

MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding

El artículo presenta MOON, el primer modelo generativo basado en MLLM para el aprendizaje de representaciones de productos en comercio electrónico, que aborda desafíos como el ruido de fondo y la alineación multimodal mediante un módulo MoE guiado y una estrategia de muestreo negativo, logrando un rendimiento competitivo en tareas de comprensión de productos y estableciendo un nuevo benchmark multimodal.

Daoze Zhang, Chenghan Fu, Zhanheng Nie + 7 more2026-03-03🤖 cs.AI

Disentangled Multi-modal Learning of Histology and Transcriptomics for Cancer Characterization

Los autores proponen un marco de aprendizaje multimodal desentrelazado que integra histología y transcriptómica mediante la separación de subespacios tumorales y del microambiente, la alineación de señales a múltiples escalas y la distilación de conocimiento, superando así las limitaciones de heterogeneidad y dependencia de datos apareados para mejorar el diagnóstico y pronóstico del cáncer.

Yupei Zhang, Xiaofei Wang, Anran Liu + 2 more2026-03-03⚡ eess

Time-Aware One Step Diffusion Network for Real-World Image Super-Resolution

El artículo presenta TADSR, una red de difusión de un solo paso que utiliza codificadores VAE y una función de pérdida VSD conscientes del tiempo para alinear dinámicamente los priores generativos de un modelo preentrenado con diferentes pasos temporales, logrando así un estado del arte en superresolución de imágenes reales con un equilibrio controlable entre fidelidad y realismo.

Tianyi Zhang, Zheng-Peng Duan, Peng-Tao Jiang + 4 more2026-03-03⚡ eess

RTGMFF: Enhanced fMRI-based Brain Disorder Diagnosis via ROI-driven Text Generation and Multimodal Feature Fusion

El artículo presenta RTGMFF, un marco innovador que combina la generación de texto a nivel de regiones de interés (ROI) con la fusión de características multimodales mediante un codificador híbrido y un módulo de alineación semántica para mejorar el diagnóstico de trastornos cerebrales a partir de imágenes fMRI, superando los métodos actuales en las bases de datos ADHD-200 y ABIDE.

Junhao Jia, Yifei Sun, Yunyou Liu + 5 more2026-03-03💻 cs

Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

Este trabajo presenta T2I-CoReBench, un nuevo benchmark exhaustivo y complejo diseñado para evaluar las capacidades de composición y razonamiento de los modelos de texto a imagen, revelando que, aunque la composición tiene limitaciones en escenarios densos, el razonamiento sigue siendo un cuello de botella crítico donde todos los modelos actuales fallan al inferir elementos implícitos.

Ouxiang Li, Yuan Wang, Xinting Hu + 7 more2026-03-03💻 cs

UniView: Enhancing Novel View Synthesis From A Single Image By Unifying Reference Features

El artículo presenta UniView, un modelo que mejora la síntesis de nuevas vistas a partir de una sola imagen al unificar características de imágenes de referencia seleccionadas mediante un modelo de lenguaje multimodal y un mecanismo de atención desacoplado, logrando así superar a los métodos actuales en la preservación de detalles y la reducción de distorsiones.

Haowang Cui, Rui Chen, Jiaze Wang + 2 more2026-03-03💻 cs

Brain-HGCN: A Hyperbolic Graph Convolutional Network for Brain Functional Network Analysis

El artículo presenta Brain-HGCN, un marco de aprendizaje profundo basado en geometría hiperbólica que modela con alta fidelidad la jerarquía de las redes funcionales cerebrales mediante el modelo de Lorentz y mecanismos de atención con signo, logrando un rendimiento superior en la clasificación de trastornos psiquiátricos frente a los métodos euclidianos tradicionales.

Junhao Jia, Yunyou Liu, Cheng Yang + 4 more2026-03-03💻 cs