VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

O artigo apresenta o VIVID-Med, um novo framework que utiliza um grande modelo de linguagem (LLM) congelado como professor semântico estruturado para pré-treinar vision transformers (ViTs) médicos, resultando em um backbone leve e altamente eficiente que supera modelos existentes com menos dados e demonstra forte generalização em tarefas de classificação de imagens médicas.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe Qiu2026-03-11🤖 cs.AI

PM-Nav: Priori-Map Guided Embodied Navigation in Functional Buildings

O artigo apresenta o PM-Nav, um sistema de navegação corporal guiado por mapas prévios que transforma mapas ambientais em representações semânticas e utiliza prompts hierárquicos de cadeia de pensamento para superar as limitações de navegação em edifícios funcionais com características altamente similares, alcançando melhorias significativas em relação aos métodos existentes tanto em simulação quanto no mundo real.

Jiang Gao, Xiangyu Dong, Haozhou Li, Haoran Zhao, Yaoming Zhou, Xiaoguang Ma2026-03-11🤖 cs.AI

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

O artigo apresenta o DexHiL, um inovador framework de aprendizado com intervenção humana que integra o controle do braço e da mão para o pós-treinamento de modelos Visão-Linguagem-Ação, demonstrando um aumento significativo de 25% nas taxas de sucesso em tarefas de manipulação dextrosa em comparação com métodos de ajuste fino offline.

Yifan Han, Zhongxi Chen, Yuxuan Zhao, Congsheng Xu, Yanming Shao, Yichuan Peng, Yao Mu, Wenzhao Lian2026-03-11🤖 cs.AI

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

O artigo propõe o QUSR, um modelo de difusão para super-resolução de imagens que combina um Priori Consciente da Qualidade (QAP) baseado em Modelos de Linguagem Multimodal e uma Geração de Ruído Guiada pela Incerteza (UNG) para adaptar a intensidade do ruído conforme a complexidade da região, resultando em imagens de alta fidelidade e realismo em cenários do mundo real com degradações desconhecidas.

Junjie Yin, Jiaju Li, Hanfa Xing2026-03-11🤖 cs.AI

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

Este artigo propõe um método de regularização baseado na Probabilidade de Necessidade e Suficiência (PNS) para Aprendizagem Incremental de Classes, que utiliza geradores contrafactuais para mitigar colisões de características causadas por correlações espúrias intra e inter-tarefas, garantindo assim a completude causal e a separabilidade das representações.

Zhen Zhang, Jielei Chu, Tianrui Li2026-03-11🤖 cs.AI

Deep Tabular Research via Continual Experience-Driven Execution

O artigo propõe um novo framework de agentes chamado Deep Tabular Research (DTR) para resolver tarefas analíticas complexas em tabelas não estruturadas, utilizando um processo de tomada de decisão em ciclo fechado que combina mapeamento semântico hierárquico, seleção de caminhos orientada por utilidade e memória contínua baseada em resultados históricos para refinar o raciocínio de longo prazo.

Junnan Dong, Chuang Zhou, Zheng Yuan, Yifei Yu, Siyu An, Di Yin, Xing Sun, Feiyue Huang2026-03-11🤖 cs.AI

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

O artigo apresenta o DataFactory, um framework colaborativo multi-agente que supera as limitações de modelos de linguagem únicos na Resposta a Perguntas sobre Tabelas (TableQA) através da orquestração especializada de agentes, transformação automática de dados em grafos de conhecimento e estratégias de engenharia de contexto, resultando em ganhos significativos de precisão e robustez em benchmarks padrão.

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang Zhao2026-03-11🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

O artigo apresenta o Latent-DARM, um framework de comunicação em espaço latente que integra modelos de difusão discreta (para planejamento) e modelos autorregressivos (para execução), superando as limitações de interfaces baseadas em texto e alcançando alto desempenho em tarefas de raciocínio com uma fração mínima do orçamento de tokens.

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei Chen2026-03-11🤖 cs.AI