MJ1: Multimodal Judgment via Grounded Verification

O artigo apresenta o MJ1, um juiz multimodal de 3B parâmetros treinado com aprendizado por reforço que, ao impor uma cadeia de verificação fundamentada e consistência contrafactual, supera modelos muito maiores no benchmark MMRB2, demonstrando que a verificação fundamentada e o treinamento baseado em consistência melhoram significativamente o julgamento multimodal sem aumentar a escala do modelo.

Bhavesh Kumar, Dylan Feng, Leonard Tang2026-03-10🤖 cs.LG

SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning

O artigo apresenta o SmartThinker, um método de raciocínio eficiente baseado em GRPO que utiliza calibração progressiva do comprimento do pensamento em cadeia para reduzir a redundância e melhorar a precisão dos modelos de linguagem grandes, alcançando compressão de até 52,5% no comprimento das respostas e ganhos de até 16,6% em benchmarks desafiadores.

Chenzhi Hu, Qinzhe Hu, Yuhang Xu, Junyi Chen, Ruijie Wang, Shengzhong Liu, Jianxin Li, Fan Wu, Guihai Chen2026-03-10🤖 cs.LG

Amortizing Maximum Inner Product Search with Learned Support Functions

Este artigo propõe uma abordagem de busca de produto interno máximo (MIPS) amortizada que utiliza redes neurais, especificamente o SupportNet e o KeyNet, para prever diretamente as soluções ótimas ao modelar a função de suporte convexa dos vetores-chave, permitindo assim uma compressão eficiente de bancos de dados para distribuições de consultas específicas.

Theo X. Olausson, João Monteiro, Michal Klein, Marco Cuturi2026-03-10🤖 cs.LG

FedMomentum: Preserving LoRA Training Momentum in Federated Fine-Tuning

O artigo propõe o FedMomentum, um novo framework para ajuste fino federado de modelos de linguagem que utiliza decomposição em valores singulares (SVD) para agregar atualizações LoRA de forma estruturada e preservar o momentum do treinamento, superando as limitações de convergência e expressividade dos métodos existentes.

Peishen Yan, Yang Hua, Hao Wang, Jiaru Zhang, Xiaoyu Wu, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

GCGNet: Graph-Consistent Generative Network for Time Series Forecasting with Exogenous Variables

O artigo apresenta o GCGNet, uma Rede Generativa Consistente em Grafos que supera as limitações dos métodos existentes ao modelar simultaneamente correlações temporais e entre canais de variáveis exógenas de forma robusta a ruídos, utilizando um gerador variacional, um alinhador de estrutura de grafos e um refinador para alcançar desempenho superior em previsões de séries temporais.

Zhengyu Li, Xiangfei Qiu, Yuhan Zhu, Xingjian Wu, Jilin Hu, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

O artigo apresenta o CDRRM, um modelo de recompensa escalável e interpretável que utiliza um paradigma de "contraste-síntese" para gerar rubricas de alta qualidade a partir de poucos dados, superando os vieses e limitações das abordagens tradicionais de alinhamento de LLMs.

Dengcan Liu, Fengkai Yang, Xiaohan Wang, Shurui Yan, Jiajun Chai, Jiahao Li, Yikun Ban, Zhendong Mao, Wei Lin, Guojun Yin2026-03-10🤖 cs.LG

Stabilized Fine-Tuning with LoRA in Federated Learning: Mitigating the Side Effect of Client Size and Rank via the Scaling Factor

Este artigo apresenta o SFed-LoRA, um novo framework de aprendizado federado que deriva um fator de escala ótimo para mitigar a instabilidade e o colapso de gradiente na adaptação de baixo rank (LoRA) causados pela agregação de múltiplos clientes, permitindo assim a eficácia de ranks elevados sem alterar a arquitetura do modelo ou aumentar a latência de inferência.

Jiayu Huang, Xiaohu Wu, Tiantian He, Qicheng Lao2026-03-10🤖 cs.LG

Adversarial Domain Adaptation Enables Knowledge Transfer Across Heterogeneous RNA-Seq Datasets

Este estudo propõe um framework de aprendizado profundo baseado em adaptação de domínio adversarial que permite a transferência eficaz de conhecimento entre conjuntos de dados de RNA-seq heterogêneos, melhorando significativamente a precisão na classificação de tipos de câncer e tecidos, especialmente em cenários com dados limitados.

Kevin Dradjat, Massinissa Hamidi, Blaise Hanczar2026-03-10🤖 cs.LG

Deterministic Differentiable Structured Pruning for Large Language Models

O artigo apresenta a Deterministic Differentiable Pruning (DDP), um método de poda estruturada determinístico para Grandes Modelos de Linguagem que elimina a aleatoriedade das abordagens anteriores, resultando em menor discrepância entre treinamento e teste, maior expressividade e melhor desempenho em tarefas downstream com redução de custos de inferência.

Weiyu Huang, Pengle Zhang, Xiaolu Zhang, Jun Zhou, Jun Zhu, Jianfei Chen2026-03-10🤖 cs.LG

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Este artigo apresenta o framework DC-W2S, que utiliza um mecanismo de consenso duplo para filtrar sinais de supervisão ruidosa e treinar modelos de recompensa de processo robustos para raciocínio biológico, eliminando a necessidade de anotação extensiva por especialistas.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

Tau-BNO: Brain Neural Operator for Tau Transport Model

O artigo apresenta o Tau-BNO, um modelo substituto baseado em operadores neurais que acelera drasticamente a simulação da propagação de proteínas tau no cérebro, superando os desafios computacionais do Modelo de Transporte de Rede (NTM) e permitindo inferência de parâmetros e descoberta de mecanismos com alta precisão.

Nuutti Barron, Heng Rao, Urmi Saha, Yu Gu, Zhenghao Liu, Ge Yu, Defu Yang, Ashish Raj, Minghan Chen2026-03-10🤖 cs.LG

Model-based Offline RL via Robust Value-Aware Model Learning with Implicitly Differentiable Adaptive Weighting

O artigo propõe o ROMI, um método de aprendizado por reforço offline baseado em modelo que supera as limitações de conservadorismo excessivo e instabilidade do RAMBO ao introduzir uma abordagem de aprendizado de modelo robusta e consciente do valor, utilizando um esquema de otimização bi-nível com ponderação adaptativa implicitamente diferenciável para garantir atualizações estáveis e melhor generalização fora da distribuição.

Zhongjian Qiao, Jiafei Lyu, Boxiang Lyu, Yao Shu, Siyang Gao, Shuang Qiu2026-03-10🤖 cs.LG

SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action

O artigo apresenta o SaiVLA-0, uma arquitetura de Visão-Linguagem-Ação inspirada na neurociência que utiliza uma estrutura tripartida (Cérebro-Ponte-Cerebelo) para criar um sistema modular e consciente de computação, capaz de reduzir o tempo de treinamento e aumentar significativamente a taxa de sucesso em tarefas robóticas.

Xiang Shi, Wenlong Huang, Menglin Zou, Xinhai Sun2026-03-10🤖 cs.LG

TRIAGE: Type-Routed Interventions via Aleatoric-Epistemic Gated Estimation in Robotic Manipulation and Adaptive Perception -- Don't Treat All Uncertainty the Same

O artigo apresenta o TRIAGE, um framework pós-hoc leve que decompõe a incerteza em componentes aleatórios e epistêmicos para orientar respostas específicas do sistema, como recuperação de observações ou moderação de controle, resultando em melhorias significativas tanto no sucesso de manipulação robótica quanto na eficiência computacional da percepção adaptativa.

Divake Kumar, Sina Tayebati, Devashri Naik, Patrick Poggi, Amanda Sofie Rios, Nilesh Ahuja, Amit Ranjan Trivedi2026-03-10🤖 cs.LG