JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

O artigo apresenta o JavisDiT++, um framework unificado que utiliza um design de mistura de especialistas específico por modalidade, uma estratégia de RoPE alinhada temporalmente e otimização direta de preferências áudio-vídeo para superar as limitações dos métodos atuais na geração sincronizada e de alta qualidade de áudio e vídeo a partir de descrições textuais.

Kai Liu, Yanhao Zheng, Kai Wang + 7 more2026-02-24💻 cs

BriMA: Bridged Modality Adaptation for Multi-Modal Continual Action Quality Assessment

O artigo apresenta o BriMA, uma abordagem inovadora para a Avaliação Contínua da Qualidade de Ações Multimodal que supera o desequilíbrio de modalidades em cenários reais através de um módulo de imputação guiado por memória e um mecanismo de replay consciente das modalidades, demonstrando melhorias significativas de desempenho em conjuntos de dados diversos.

Kanglei Zhou, Chang Li, Qingyi Pan + 1 more2026-02-24💻 cs

EMAD: Evidence-Centric Grounded Multimodal Diagnosis for Alzheimer's Disease

O artigo apresenta o EMAD, um framework de visão e linguagem que utiliza mecanismos de fundamentação hierárquica, destilação de conhecimento e ajuste fino por reforço para gerar relatórios diagnósticos de Alzheimer transparentes, clinicamente consistentes e explicitamente fundamentados em evidências multimodais, alcançando desempenho superior no conjunto de dados AD-MultiSense.

Qiuhui Chen, Xuancheng Yao, Zhenglei Zhou + 2 more2026-02-24💻 cs

PositionOCR: Augmenting Positional Awareness in Multi-Modal Models via Hybrid Specialist Integration

O artigo apresenta o PositionOCR, uma arquitetura híbrida eficiente em parâmetros que integra as capacidades de localização espacial de modelos especializados em detecção de texto com o raciocínio contextual de Grandes Modelos de Linguagem, superando os modelos multimodais tradicionais em tarefas de reconhecimento e fundamentação de texto.

Chen Duan, Zhentao Guo, Pei Fu + 3 more2026-02-24💻 cs

SegMoTE: Token-Level Mixture of Experts for Medical Image Segmentation

O artigo apresenta o SegMoTE, um framework adaptativo e eficiente para segmentação de imagens médicas que, ao preservar a interface de prompts e a generalização zero-shot do SAM, utiliza um mecanismo de tokenização progressiva e é treinado em um conjunto de dados altamente curado (MedSeg-HQ) para alcançar desempenho de ponta com custo de anotação extremamente baixo.

Yujie Lu, Jingwen Li, Sibo Ju + 5 more2026-02-24💻 cs

Controlled Face Manipulation and Synthesis for Data Augmentation

Este trabalho apresenta um método de manipulação facial no espaço latente semântico de um gerador pré-treinado que, ao utilizar condicionamento dependente e projeção ortogonal para reduzir o entrelaçamento de atributos, gera dados sintéticos de alta qualidade para aumentar e equilibrar conjuntos de dados de Análise de Unidades de Ação (AU), melhorando significativamente a precisão e a robustez dos detectores de expressão facial com menos dados rotulados.

Joris Kirchner, Amogh Gudi, Marian Bittner + 1 more2026-02-24🤖 cs.LG

RegionRoute: Regional Style Transfer with Diffusion Model

O artigo apresenta o RegionRoute, um framework de difusão supervisionado por atenção que utiliza uma arquitetura LoRA-MoE e novas funções de perda para realizar transferência de estilo regional precisa e sem máscaras, superando as limitações de métodos existentes ao garantir a correspondência estilística em regiões específicas enquanto preserva a identidade do restante da imagem.

Bowen Chen, Jake Zuena, Alan C. Bovik + 1 more2026-02-24💻 cs

MRI Contrast Enhancement Kinetics World Model

Este artigo apresenta o MRI CEKWorld, um modelo de mundo que utiliza Aprendizado de Consistência Espaço-Temporal (STCL) para superar as limitações de baixa resolução temporal e amostragem esparsa na aquisição de ressonância magnética com contraste, gerando dinâmicas contínuas e realistas através de Aprendizado de Alinhamento Latente (LAL) para consistência estrutural e Aprendizado de Diferença Latente (LDL) para suavidade temporal.

Jindi Kong, Yuting He, Cong Xia + 2 more2026-02-24💻 cs