Scaling Machine Learning Interatomic Potentials with Mixtures of Experts

Este artigo apresenta o desenvolvimento e análise de arquiteturas de Mistura de Especialistas (MoE) e Mistura de Especialistas Lineares (MoLE) para Potenciais Interatômicos Baseados em Aprendizado de Máquina (MLIPs), demonstrando que o uso de ativação esparsa com especialistas compartilhados e roteamento elemento a elemento resulta em um modelo com precisão de última geração e especialização química interpretável.

Yuzhi Liu, Duo Zhang, Anyang Peng, Weinan E, Linfeng Zhang, Han Wang2026-03-10🤖 cs.LG

\$OneMillion-Bench: How Far are Language Agents from Human Experts?

O artigo apresenta o \$OneMillion-Bench, um novo benchmark composto por 400 tarefas curadas por especialistas em áreas como Direito, Finanças e Saúde, projetado para avaliar a confiabilidade e a profundidade profissional de agentes de linguagem em cenários complexos do mundo real que exigem raciocínio de longo prazo e uso de ferramentas, superando as limitações dos testes existentes.

Qianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong2026-03-10🤖 cs.LG

MJ1: Multimodal Judgment via Grounded Verification

O artigo apresenta o MJ1, um juiz multimodal de 3B parâmetros treinado com aprendizado por reforço que, ao impor uma cadeia de verificação fundamentada e consistência contrafactual, supera modelos muito maiores no benchmark MMRB2, demonstrando que a verificação fundamentada e o treinamento baseado em consistência melhoram significativamente o julgamento multimodal sem aumentar a escala do modelo.

Bhavesh Kumar, Dylan Feng, Leonard Tang2026-03-10🤖 cs.LG

SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning

O artigo apresenta o SmartThinker, um método de raciocínio eficiente baseado em GRPO que utiliza calibração progressiva do comprimento do pensamento em cadeia para reduzir a redundância e melhorar a precisão dos modelos de linguagem grandes, alcançando compressão de até 52,5% no comprimento das respostas e ganhos de até 16,6% em benchmarks desafiadores.

Chenzhi Hu, Qinzhe Hu, Yuhang Xu, Junyi Chen, Ruijie Wang, Shengzhong Liu, Jianxin Li, Fan Wu, Guihai Chen2026-03-10🤖 cs.LG

Amortizing Maximum Inner Product Search with Learned Support Functions

Este artigo propõe uma abordagem de busca de produto interno máximo (MIPS) amortizada que utiliza redes neurais, especificamente o SupportNet e o KeyNet, para prever diretamente as soluções ótimas ao modelar a função de suporte convexa dos vetores-chave, permitindo assim uma compressão eficiente de bancos de dados para distribuições de consultas específicas.

Theo X. Olausson, João Monteiro, Michal Klein, Marco Cuturi2026-03-10🤖 cs.LG

FedMomentum: Preserving LoRA Training Momentum in Federated Fine-Tuning

O artigo propõe o FedMomentum, um novo framework para ajuste fino federado de modelos de linguagem que utiliza decomposição em valores singulares (SVD) para agregar atualizações LoRA de forma estruturada e preservar o momentum do treinamento, superando as limitações de convergência e expressividade dos métodos existentes.

Peishen Yan, Yang Hua, Hao Wang, Jiaru Zhang, Xiaoyu Wu, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

GCGNet: Graph-Consistent Generative Network for Time Series Forecasting with Exogenous Variables

O artigo apresenta o GCGNet, uma Rede Generativa Consistente em Grafos que supera as limitações dos métodos existentes ao modelar simultaneamente correlações temporais e entre canais de variáveis exógenas de forma robusta a ruídos, utilizando um gerador variacional, um alinhador de estrutura de grafos e um refinador para alcançar desempenho superior em previsões de séries temporais.

Zhengyu Li, Xiangfei Qiu, Yuhan Zhu, Xingjian Wu, Jilin Hu, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

O artigo apresenta o CDRRM, um modelo de recompensa escalável e interpretável que utiliza um paradigma de "contraste-síntese" para gerar rubricas de alta qualidade a partir de poucos dados, superando os vieses e limitações das abordagens tradicionais de alinhamento de LLMs.

Dengcan Liu, Fengkai Yang, Xiaohan Wang, Shurui Yan, Jiajun Chai, Jiahao Li, Yikun Ban, Zhendong Mao, Wei Lin, Guojun Yin2026-03-10🤖 cs.LG

Stabilized Fine-Tuning with LoRA in Federated Learning: Mitigating the Side Effect of Client Size and Rank via the Scaling Factor

Este artigo apresenta o SFed-LoRA, um novo framework de aprendizado federado que deriva um fator de escala ótimo para mitigar a instabilidade e o colapso de gradiente na adaptação de baixo rank (LoRA) causados pela agregação de múltiplos clientes, permitindo assim a eficácia de ranks elevados sem alterar a arquitetura do modelo ou aumentar a latência de inferência.

Jiayu Huang, Xiaohu Wu, Tiantian He, Qicheng Lao2026-03-10🤖 cs.LG

Adversarial Domain Adaptation Enables Knowledge Transfer Across Heterogeneous RNA-Seq Datasets

Este estudo propõe um framework de aprendizado profundo baseado em adaptação de domínio adversarial que permite a transferência eficaz de conhecimento entre conjuntos de dados de RNA-seq heterogêneos, melhorando significativamente a precisão na classificação de tipos de câncer e tecidos, especialmente em cenários com dados limitados.

Kevin Dradjat, Massinissa Hamidi, Blaise Hanczar2026-03-10🤖 cs.LG

Deterministic Differentiable Structured Pruning for Large Language Models

O artigo apresenta a Deterministic Differentiable Pruning (DDP), um método de poda estruturada determinístico para Grandes Modelos de Linguagem que elimina a aleatoriedade das abordagens anteriores, resultando em menor discrepância entre treinamento e teste, maior expressividade e melhor desempenho em tarefas downstream com redução de custos de inferência.

Weiyu Huang, Pengle Zhang, Xiaolu Zhang, Jun Zhou, Jun Zhu, Jianfei Chen2026-03-10🤖 cs.LG

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Este artigo apresenta o framework DC-W2S, que utiliza um mecanismo de consenso duplo para filtrar sinais de supervisão ruidosa e treinar modelos de recompensa de processo robustos para raciocínio biológico, eliminando a necessidade de anotação extensiva por especialistas.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

Tau-BNO: Brain Neural Operator for Tau Transport Model

O artigo apresenta o Tau-BNO, um modelo substituto baseado em operadores neurais que acelera drasticamente a simulação da propagação de proteínas tau no cérebro, superando os desafios computacionais do Modelo de Transporte de Rede (NTM) e permitindo inferência de parâmetros e descoberta de mecanismos com alta precisão.

Nuutti Barron, Heng Rao, Urmi Saha, Yu Gu, Zhenghao Liu, Ge Yu, Defu Yang, Ashish Raj, Minghan Chen2026-03-10🤖 cs.LG

Model-based Offline RL via Robust Value-Aware Model Learning with Implicitly Differentiable Adaptive Weighting

O artigo propõe o ROMI, um método de aprendizado por reforço offline baseado em modelo que supera as limitações de conservadorismo excessivo e instabilidade do RAMBO ao introduzir uma abordagem de aprendizado de modelo robusta e consciente do valor, utilizando um esquema de otimização bi-nível com ponderação adaptativa implicitamente diferenciável para garantir atualizações estáveis e melhor generalização fora da distribuição.

Zhongjian Qiao, Jiafei Lyu, Boxiang Lyu, Yao Shu, Siyang Gao, Shuang Qiu2026-03-10🤖 cs.LG

SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action

O artigo apresenta o SaiVLA-0, uma arquitetura de Visão-Linguagem-Ação inspirada na neurociência que utiliza uma estrutura tripartida (Cérebro-Ponte-Cerebelo) para criar um sistema modular e consciente de computação, capaz de reduzir o tempo de treinamento e aumentar significativamente a taxa de sucesso em tarefas robóticas.

Xiang Shi, Wenlong Huang, Menglin Zou, Xinhai Sun2026-03-10🤖 cs.LG