Advancing Automated Algorithm Design via Evolutionary Stagewise Design with LLMs

O artigo apresenta o EvoStage, uma nova abordagem evolutiva que utiliza modelos de linguagem (LLMs) em estágios sequenciais com feedback e uma perspectiva global-local para superar as limitações de métodos de caixa preta, resultando no projeto de algoritmos otimizados que superam designs humanos e técnicas existentes em tarefas complexas como o posicionamento de chips.

Chen Lu, Ke Xue, Chengrui Gao, Yunqi Shi, Siyuan Xu, Mingxuan Yuan, Chao Qian, Zhi-Hua Zhou2026-03-10💻 cs

VORL-EXPLORE: A Hybrid Learning Planning Approach to Multi-Robot Exploration in Dynamic Environments

O artigo apresenta o VORL-EXPLORE, uma abordagem híbrida de aprendizado e planejamento para exploração multi-robô em ambientes dinâmicos que utiliza uma estimativa compartilhada de navegabilidade para acoplar alocação de tarefas e execução de movimento, reduzindo contenções e adaptando-se a obstáculos não estacionários através de um mecanismo de arbitragem entre navegação global e políticas reativas.

Ning Liu, Sen Shen, Zheng Li, Sheng Liu, Dongkun Han, Shangke Lyu, Thomas Braunl2026-03-10💻 cs

OSExpert: Computer-Use Agents Learning Professional Skills via Exploration

O artigo apresenta o OSExpert, um agente de uso de computador que supera as limitações atuais ao utilizar uma exploração baseada em busca em profundidade (GUI-DFS) para descobrir funções unitárias e construir um currículo de habilidades, resultando em um ganho de desempenho de cerca de 20% e uma redução de 80% na lacuna de eficiência em relação a especialistas humanos.

Jiateng Liu, Zhenhailong Wang, Rushi Wang, Bingxuan Li, Jeonghwan Kim, Aditi Tiwari, Pengfei Yu, Denghui Zhang, Heng Ji2026-03-10💻 cs

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

O artigo apresenta o \$OneMillion-Bench, um novo benchmark composto por 400 tarefas curadas por especialistas em áreas como Direito, Finanças e Saúde, projetado para avaliar a confiabilidade e a profundidade profissional de agentes de linguagem em cenários complexos do mundo real que exigem raciocínio de longo prazo e uso de ferramentas, superando as limitações dos testes existentes.

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

CMMR-VLN: Vision-and-Language Navigation via Continual Multimodal Memory Retrieval

O artigo apresenta o CMMR-VLN, um framework de navegação visão-linguagem que aprimora agentes baseados em LLMs através de uma memória multimodal estruturada e mecanismos de reflexão, permitindo a recuperação seletiva de experiências passadas e alcançando melhorias significativas nas taxas de sucesso em cenários de longo alcance e desconhecidos.

Haozhou Li, Xiangyu Dong, Huiyan Jiang, Yaoming Zhou, Xiaoguang Ma2026-03-10💻 cs

Aero-Promptness: Drag-Aware Aerodynamic Manipulability for Propeller-driven Vehicles

Este trabalho apresenta a Manipulabilidade Aerodinâmica Consciente do Arrasto (DAAM), um framework geométrico para alocação de controle em multirotores redundantes que utiliza uma métrica Riemanniana baseada na capacidade de aceleração remanescente para penalizar a saturação induzida pelo arrasto e garantir alocações ótimas invariantes a escalas de coordenadas, enquanto caracteriza analiticamente a suavidade local e as descontinuidades globais decorrentes dos limites físicos dos atuadores.

Antonio Franchi2026-03-10🔢 math

ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation

O artigo propõe o framework ViSA, uma arquitetura colaborativa de três fases que aprimora a navegação aérea visão-linguagem ao permitir que modelos de visão e linguagem realizem raciocínio direto em planos de imagem sem treinamento adicional, alcançando uma melhoria de 70,3% na taxa de sucesso em comparação com métodos existentes.

Haoyu Tong, Xiangyu Dong, Xiaoguang Ma, Haoran Zhao, Yaoming Zhou, Chenghao Lin2026-03-10💻 cs

FedMomentum: Preserving LoRA Training Momentum in Federated Fine-Tuning

O artigo propõe o FedMomentum, um novo framework para ajuste fino federado de modelos de linguagem que utiliza decomposição em valores singulares (SVD) para agregar atualizações LoRA de forma estruturada e preservar o momentum do treinamento, superando as limitações de convergência e expressividade dos métodos existentes.

Peishen Yan, Yang Hua, Hao Wang, Jiaru Zhang, Xiaoyu Wu, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

Not Like Transformers: Drop the Beat Representation for Dance Generation with Mamba-Based Diffusion Model

O artigo apresenta o MambaDance, uma nova abordagem para geração de dança que substitui os modelos Transformer por uma arquitetura baseada em Mamba dentro de um processo de difusão em duas etapas e utiliza uma representação de batida musical baseada em Gaussiana para gerar movimentos sincronizados e coerentes em sequências de qualquer duração.

Sangjune Park, Inhyeok Choi, Donghyeon Soon, Youngwoo Jeon, Kyungdon Joo2026-03-10💻 cs

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

O artigo apresenta o DyLLM, um framework de inferência sem treinamento para Modelos de Linguagem de Difusão (MDLMs) que acelera a geração de texto em até 9,6 vezes ao identificar e processar apenas os "tokens salientes" que mudam significativamente entre os passos de denoising, reutilizando as ativações dos demais tokens para reduzir o custo computacional sem comprometer a precisão.

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho Ahn2026-03-10💬 cs.CL

GCGNet: Graph-Consistent Generative Network for Time Series Forecasting with Exogenous Variables

O artigo apresenta o GCGNet, uma Rede Generativa Consistente em Grafos que supera as limitações dos métodos existentes ao modelar simultaneamente correlações temporais e entre canais de variáveis exógenas de forma robusta a ruídos, utilizando um gerador variacional, um alinhador de estrutura de grafos e um refinador para alcançar desempenho superior em previsões de séries temporais.

Zhengyu Li, Xiangfei Qiu, Yuhan Zhu, Xingjian Wu, Jilin Hu, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Este artigo apresenta uma solução robusta para o 10º Desafio de Reconhecimento de Expressão da ABAW, utilizando um framework multimodal com atenção cruzada segura e dropout de modalidade para lidar eficazmente com oclusões, dados ausentes e desequilíbrio de classes, alcançando 60,79% de precisão no conjunto de validação Aff-Wild2.

Jun Yu, Naixiang Zheng, Guoyuan Wang, Yunxiang Zhang, Lingsi Zhu, Jiaen Liang, Wei Huang, Shengping Liu2026-03-10💻 cs

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

O artigo apresenta o CDRRM, um modelo de recompensa escalável e interpretável que utiliza um paradigma de "contraste-síntese" para gerar rubricas de alta qualidade a partir de poucos dados, superando os vieses e limitações das abordagens tradicionais de alinhamento de LLMs.

Dengcan Liu, Fengkai Yang, Xiaohan Wang, Shurui Yan, Jiajun Chai, Jiahao Li, Yikun Ban, Zhendong Mao, Wei Lin, Guojun Yin2026-03-10🤖 cs.LG