ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving

O artigo apresenta o ImagiDrive, um novo quadro unificado para direção autônoma que integra um agente baseado em Modelos de Linguagem e Visão (VLM) com um imaginador de cenas baseado em Modelos de Mundo de Direção (DWM), criando um ciclo de imaginação e planejamento iterativo que refina as decisões de trajetória através da geração de cenários futuros, demonstrando superioridade em testes nos conjuntos de dados nuScenes e NAVSIM.

Jingyu Li, Bozhou Zhang, Xin Jin + 3 more2026-03-03💻 cs

MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding

Este artigo apresenta o MOON, o primeiro modelo generativo baseado em MLLM para aprendizado de representação de produtos em e-commerce, que supera as limitações das arquiteturas existentes ao empregar um módulo MoE guiado, detecção de regiões semânticas e uma estratégia de amostragem negativa, além de lançar o benchmark MBE para avaliação de tarefas de compreensão de produtos.

Daoze Zhang, Chenghan Fu, Zhanheng Nie + 7 more2026-03-03🤖 cs.AI

Disentangled Multi-modal Learning of Histology and Transcriptomics for Cancer Characterization

Este artigo propõe um quadro de aprendizado multi-modal desconectado que integra histopatologia e transcriptômica para caracterização de câncer, superando desafios como heterogeneidade de dados e dependência de pares através de fusão em subespaços, consistência de expressão gênica multi-escala e distilação de conhecimento para inferência sem transcriptoma.

Yupei Zhang, Xiaofei Wang, Anran Liu + 2 more2026-03-03⚡ eess

Time-Aware One Step Diffusion Network for Real-World Image Super-Resolution

O artigo apresenta o TADSR, uma rede de difusão de um único passo com percepção temporal que supera as limitações de métodos anteriores ao utilizar codificadores e funções de perda adaptativos aos timesteps, permitindo a extração mais eficaz de priores generativos de modelos de difusão pré-treinados para super-resolução de imagens do mundo real com resultados state-of-the-art e controle flexível entre fidelidade e realismo.

Tianyi Zhang, Zheng-Peng Duan, Peng-Tao Jiang + 4 more2026-03-03⚡ eess

RTGMFF: Enhanced fMRI-based Brain Disorder Diagnosis via ROI-driven Text Generation and Multimodal Feature Fusion

O artigo apresenta o RTGMFF, um novo quadro de trabalho que aprimora o diagnóstico de transtornos cerebrais a partir de fMRI ao integrar a geração de texto orientada por regiões de interesse (ROI) com fusão de características multimodais, superando os métodos atuais em precisão diagnóstica nos conjuntos de dados ADHD-200 e ABIDE.

Junhao Jia, Yifei Sun, Yunyou Liu + 5 more2026-03-03💻 cs

UniView: Enhancing Novel View Synthesis From A Single Image By Unifying Reference Features

O artigo apresenta o UniView, um modelo inovador que aprimora a síntese de novas vistas a partir de uma única imagem ao unificar características de imagens de referência recuperadas e selecionadas por um modelo de linguagem multimodal, utilizando um adaptador plug-and-play e um mecanismo de atenção tripla decoplado para reduzir distorções e preservar detalhes.

Haowang Cui, Rui Chen, Jiaze Wang + 2 more2026-03-03💻 cs