ImagiDrive: A Unified Imagination-and-Planning Framework for Autonomous Driving

O artigo apresenta o ImagiDrive, um novo quadro unificado para direção autônoma que integra um agente baseado em Modelos de Linguagem e Visão (VLM) com um imaginador de cenas baseado em Modelos de Mundo de Direção (DWM), criando um ciclo de imaginação e planejamento iterativo que refina as decisões de trajetória através da geração de cenários futuros, demonstrando superioridade em testes nos conjuntos de dados nuScenes e NAVSIM.

Jingyu Li, Bozhou Zhang, Xin Jin + 3 more2026-03-03💻 cs

MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding

Este artigo apresenta o MOON, o primeiro modelo generativo baseado em MLLM para aprendizado de representação de produtos em e-commerce, que supera as limitações das arquiteturas existentes ao empregar um módulo MoE guiado, detecção de regiões semânticas e uma estratégia de amostragem negativa, além de lançar o benchmark MBE para avaliação de tarefas de compreensão de produtos.

Daoze Zhang, Chenghan Fu, Zhanheng Nie + 7 more2026-03-03🤖 cs.AI

Disentangled Multi-modal Learning of Histology and Transcriptomics for Cancer Characterization

Este artigo propõe um quadro de aprendizado multi-modal desconectado que integra histopatologia e transcriptômica para caracterização de câncer, superando desafios como heterogeneidade de dados e dependência de pares através de fusão em subespaços, consistência de expressão gênica multi-escala e distilação de conhecimento para inferência sem transcriptoma.

Yupei Zhang, Xiaofei Wang, Anran Liu + 2 more2026-03-03⚡ eess

Time-Aware One Step Diffusion Network for Real-World Image Super-Resolution

O artigo apresenta o TADSR, uma rede de difusão de um único passo com percepção temporal que supera as limitações de métodos anteriores ao utilizar codificadores e funções de perda adaptativos aos timesteps, permitindo a extração mais eficaz de priores generativos de modelos de difusão pré-treinados para super-resolução de imagens do mundo real com resultados state-of-the-art e controle flexível entre fidelidade e realismo.

Tianyi Zhang, Zheng-Peng Duan, Peng-Tao Jiang + 4 more2026-03-03⚡ eess

RTGMFF: Enhanced fMRI-based Brain Disorder Diagnosis via ROI-driven Text Generation and Multimodal Feature Fusion

O artigo apresenta o RTGMFF, um novo quadro de trabalho que aprimora o diagnóstico de transtornos cerebrais a partir de fMRI ao integrar a geração de texto orientada por regiões de interesse (ROI) com fusão de características multimodais, superando os métodos atuais em precisão diagnóstica nos conjuntos de dados ADHD-200 e ABIDE.

Junhao Jia, Yifei Sun, Yunyou Liu + 5 more2026-03-03💻 cs

UniView: Enhancing Novel View Synthesis From A Single Image By Unifying Reference Features

O artigo apresenta o UniView, um modelo inovador que aprimora a síntese de novas vistas a partir de uma única imagem ao unificar características de imagens de referência recuperadas e selecionadas por um modelo de linguagem multimodal, utilizando um adaptador plug-and-play e um mecanismo de atenção tripla decoplado para reduzir distorções e preservar detalhes.

Haowang Cui, Rui Chen, Jiaze Wang + 2 more2026-03-03💻 cs

Improved 3D Scene Stylization via Text-Guided Generative Image Editing with Region-Based Control

Este artigo apresenta um método aprimorado para estilização de cenas 3D que utiliza edição de imagem generativa guiada por texto com controle baseado em regiões, garantindo consistência de estilo e de visualização através de mecanismos de atenção compartilhada, mapas de profundidade múltiplos e uma nova função de perda para transferência de estilo em áreas específicas.

Haruo Fujiwara, Yusuke Mukuta, Tatsuya Harada2026-03-03💻 cs

Geodesic Prototype Matching via Diffusion Maps for Interpretable Fine-Grained Recognition

Este trabalho apresenta o GeoProto, um método inovador para reconhecimento fino e interpretável que alinha protótipos com a geometria intrínseca de características visuais profundas por meio de mapas de difusão e interpolação de Nyström diferenciável, superando as abordagens baseadas em distância euclidiana ao capturar distinções semânticas sutis.

Junhao Jia, Yunyou Liu, Yifei Sun + 4 more2026-03-03💻 cs