NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation

O artigo apresenta o NeuralRemaster, um método de difusão que preserva as fases dos dados de entrada enquanto randomiza suas magnitudes, permitindo a geração de imagens e vídeos estruturalmente alinhados e geometricamente consistentes para tarefas como re-renderização e transferência sim-to-real, sem custos adicionais de inferência ou alterações na arquitetura do modelo.

Yu Zeng, Charles Ochoa, Mingyuan Zhou + 3 more2026-03-06💻 cs

ViRC: Enhancing Visual Interleaved Mathematical CoT with Reason Chunking

O artigo apresenta o ViRC, um framework que aprimora o raciocínio matemático multimodal em modelos de linguagem através de um mecanismo de "Reason Chunking" que divide o processo em Unidades de Raciocínio Crítico (CRUs), apoiado pelo novo conjunto de dados CRUX e uma estratégia de treinamento progressivo, resultando em um modelo ViRC-7B com desempenho superior em benchmarks matemáticos.

Lihong Wang, Liangqi Li, Weiwei Feng + 6 more2026-03-06💻 cs

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

Este artigo apresenta o PhyGDPO, um framework de otimização direta de preferências em grupo consciente da física, que utiliza um pipeline de construção de dados aumentados por física e um esquema de recompensa guiado por VLM para gerar vídeos texto-para-vídeo que seguem consistentemente as leis físicas, superando os métodos atuais em benchmarks especializados.

Yuanhao Cai, Kunpeng Li, Menglin Jia + 11 more2026-03-06💻 cs

EmboTeam: Grounding LLM Reasoning into Reactive Behavior Trees via PDDL for Embodied Multi-Robot Collaboration

O artigo apresenta o EmboTeam, um framework inovador para planejamento de tarefas em equipes de robôs heterogêneos que integra raciocínio de modelos de linguagem (LLMs), planejamento clássico baseado em PDDL e árvores de comportamento reativas para melhorar significativamente a execução de tarefas de longo prazo em ambientes domésticos.

Haishan Zeng, Mengna Wang, Peng Li2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

Este trabalho avalia a capacidade de modelos fundacionais multimodais de identificar momentos importantes em vídeos de futebol, demonstrando que seu desempenho é próximo ao acaso devido à dependência de uma única modalidade e à falta de sinergia entre fontes, o que destaca a necessidade de arquiteturas modulares e procedimentos de treinamento complementares.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

DDP-WM: Disentangled Dynamics Prediction for Efficient World Models

O artigo apresenta o DDP-WM, um modelo de mundo eficiente que utiliza a previsão de dinâmicas desentrelaçadas para decompor a evolução do estado em interações físicas primárias e atualizações de contexto secundárias, alcançando uma aceleração de inferência de 9 vezes e melhorias significativas no sucesso de planejamento em comparação com modelos densos baseados em Transformers.

Shicheng Yin, Kaixuan Yin, Weixing Chen + 3 more2026-03-06💻 cs

Learning to Select Like Humans: Explainable Active Learning for Medical Imaging

Este artigo propõe um quadro de aprendizado ativo guiado por explicabilidade para análise de imagens médicas que, ao combinar incerteza de classificação e desalinhamento de atenção com regiões de interesse definidas por especialistas, seleciona amostras estrategicamente para melhorar tanto o desempenho preditivo quanto a interpretabilidade clínica com eficiência de dados.

Ifrat Ikhtear Uddin, Longwei Wang, Xiao Qin + 2 more2026-03-06💻 cs

Pailitao-VL: Unified Embedding and Reranker for Real-Time Multi-Modal Industrial Search

O artigo apresenta o Pailitao-VL, um sistema de busca multimodal industrial em tempo real que supera limitações de granularidade e ruído ao adotar uma nova abordagem de reconhecimento de ID absoluto para embeddings e uma política de reclassificação comparativa e calibrada, resultando em desempenho superior e impacto comercial significativo na plataforma de comércio eletrônico do Alibaba.

Lei Chen, Chen Ju, Xu Chen + 13 more2026-03-06💻 cs