Multiple Inputs and Mixwd data for Alzheimer's Disease Classification Based on 3D Vision Transformer

Este estudo propõe o modelo MIMD-3DVT, uma nova abordagem baseada em Vision Transformer 3D que integra múltiplas entradas de imagens de ressonância magnética e dados mistos (demográficos e cognitivos) para superar as limitações dos métodos atuais e alcançar uma precisão de 97,14% na classificação da Doença de Alzheimer.

Juan A. Castro-Silva, Maria N. Moreno Garcia, Diego H. Peluffo-Ordoñez2026-03-03💻 cs

MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs

O artigo propõe o MIDAS, um novo framework de jailbreak para Modelos de Linguagem Multimodais (MLLMs) que contorna mecanismos de segurança ao decompor intenções maliciosas em subunidades dispersas por múltiplas imagens e reconstruí-las gradualmente por meio de raciocínio visual cruzado, alcançando uma taxa de sucesso média de 81,46% em modelos fechados de última geração.

Yilian Liu, Xiaojun Jia, Guoshun Nan + 6 more2026-03-03🤖 cs.AI

LangGap: Diagnosing and Closing the Language Gap in Vision-Language-Action Models

O artigo apresenta o LangGap, um novo benchmark que expõe a incapacidade dos atuais modelos Visão-Linguagem-Ação de compreender instruções linguísticas diversas e demonstra que, embora a augmentação de dados possa melhorar o desempenho em tarefas específicas, a capacidade de aprendizado desses modelos permanece insuficiente para lidar com a diversidade semântica complexa.

Yuchen Hou, Lin Zhao2026-03-03💬 cs.CL

IdGlow: Dynamic Identity Modulation for Multi-Subject Generation

O artigo apresenta o IdGlow, um framework inovador sem máscaras baseado em dois estágios que resolve o dilema estabilidade-plasticidade na geração de imagens com múltiplos sujeitos, harmonizando identidades diversas e transformações estruturais complexas, como o envelhecimento, através de agendamento adaptativo de timesteps, síntese de prompts orientada por VLM e otimização direta de preferências (DPO).

Honghao Cai, Xiangyuan Wang, Yunhao Bai + 10 more2026-03-03🤖 cs.AI

Exploring Spatiotemporal Feature Propagation for Video-Level Compressive Spectral Reconstruction: Dataset, Model and Benchmark

Este artigo apresenta o primeiro conjunto de dados dinâmicos de imagens hiperespectrais (DynaSpec), um novo modelo de transformação baseado em propagação de características (PG-SVRT) e um benchmark para reconstrução espectral compressiva em nível de vídeo, superando as limitações de consistência temporal e qualidade de reconstrução dos métodos baseados em imagens.

Lijing Cai, Zhan Shi, Chenglong Huang + 6 more2026-03-03💻 cs

Specializing Foundation Models via Mixture of Low-Rank Experts for Comprehensive Head CT Analysis

O artigo propõe o framework MoLRE, que especializa modelos fundamentais de imagem médica através de uma mistura de adaptadores de baixo rank e roteamento suave, demonstrando melhorias consistentes na detecção de achados em tomografias computadorizadas de crânio ao longo de seis modelos de ponta, com ganhos particularmente expressivos em modelos de domínio geral e médico.

Youngjin Yoo, Han Liu, Bogdan Georgescu + 14 more2026-03-03💻 cs