cs.LG artigos | Gist.Science

MJ1: Multimodal Judgment via Grounded Verification

O artigo apresenta o MJ1, um juiz multimodal de 3B parâmetros treinado com aprendizado por reforço que, ao impor uma cadeia de verificação fundamentada e consistência contrafactual, supera modelos muito maiores no benchmark MMRB2, demonstrando que a verificação fundamentada e o treinamento baseado em consistência melhoram significativamente o julgamento multimodal sem aumentar a escala do modelo.

Bhavesh Kumar, Dylan Feng, Leonard Tang2026-03-10🤖 cs.LG

SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning

O artigo apresenta o SmartThinker, um método de raciocínio eficiente baseado em GRPO que utiliza calibração progressiva do comprimento do pensamento em cadeia para reduzir a redundância e melhorar a precisão dos modelos de linguagem grandes, alcançando compressão de até 52,5% no comprimento das respostas e ganhos de até 16,6% em benchmarks desafiadores.

Chenzhi Hu, Qinzhe Hu, Yuhang Xu, Junyi Chen, Ruijie Wang, Shengzhong Liu, Jianxin Li, Fan Wu, Guihai Chen2026-03-10🤖 cs.LG

Amortizing Maximum Inner Product Search with Learned Support Functions

Este artigo propõe uma abordagem de busca de produto interno máximo (MIPS) amortizada que utiliza redes neurais, especificamente o SupportNet e o KeyNet, para prever diretamente as soluções ótimas ao modelar a função de suporte convexa dos vetores-chave, permitindo assim uma compressão eficiente de bancos de dados para distribuições de consultas específicas.

Theo X. Olausson, João Monteiro, Michal Klein, Marco Cuturi2026-03-10🤖 cs.LG

FedMomentum: Preserving LoRA Training Momentum in Federated Fine-Tuning

O artigo propõe o FedMomentum, um novo framework para ajuste fino federado de modelos de linguagem que utiliza decomposição em valores singulares (SVD) para agregar atualizações LoRA de forma estruturada e preservar o momentum do treinamento, superando as limitações de convergência e expressividade dos métodos existentes.

Peishen Yan, Yang Hua, Hao Wang, Jiaru Zhang, Xiaoyu Wu, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

Capacity-Aware Mixture Law Enables Efficient LLM Data Optimization

O artigo apresenta o CAMEL, uma lei de mistura consciente da capacidade que permite otimizar a seleção de dados para treinar grandes modelos de linguagem de forma eficiente, reduzindo custos computacionais em 50% e melhorando o desempenho em até 3% através da previsão de desempenho em modelos maiores.

Jingwei Li, Xinran Gu, Jingzhao Zhang2026-03-10🤖 cs.LG

GCGNet: Graph-Consistent Generative Network for Time Series Forecasting with Exogenous Variables

O artigo apresenta o GCGNet, uma Rede Generativa Consistente em Grafos que supera as limitações dos métodos existentes ao modelar simultaneamente correlações temporais e entre canais de variáveis exógenas de forma robusta a ruídos, utilizando um gerador variacional, um alinhador de estrutura de grafos e um refinador para alcançar desempenho superior em previsões de séries temporais.

Zhengyu Li, Xiangfei Qiu, Yuhan Zhu, Xingjian Wu, Jilin Hu, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

O artigo apresenta o CDRRM, um modelo de recompensa escalável e interpretável que utiliza um paradigma de "contraste-síntese" para gerar rubricas de alta qualidade a partir de poucos dados, superando os vieses e limitações das abordagens tradicionais de alinhamento de LLMs.

Dengcan Liu, Fengkai Yang, Xiaohan Wang, Shurui Yan, Jiajun Chai, Jiahao Li, Yikun Ban, Zhendong Mao, Wei Lin, Guojun Yin2026-03-10🤖 cs.LG

Stabilized Fine-Tuning with LoRA in Federated Learning: Mitigating the Side Effect of Client Size and Rank via the Scaling Factor

Este artigo apresenta o SFed-LoRA, um novo framework de aprendizado federado que deriva um fator de escala ótimo para mitigar a instabilidade e o colapso de gradiente na adaptação de baixo rank (LoRA) causados pela agregação de múltiplos clientes, permitindo assim a eficácia de ranks elevados sem alterar a arquitetura do modelo ou aumentar a latência de inferência.

Jiayu Huang, Xiaohu Wu, Tiantian He, Qicheng Lao2026-03-10🤖 cs.LG

Adversarial Domain Adaptation Enables Knowledge Transfer Across Heterogeneous RNA-Seq Datasets

Este estudo propõe um framework de aprendizado profundo baseado em adaptação de domínio adversarial que permite a transferência eficaz de conhecimento entre conjuntos de dados de RNA-seq heterogêneos, melhorando significativamente a precisão na classificação de tipos de câncer e tecidos, especialmente em cenários com dados limitados.

Kevin Dradjat, Massinissa Hamidi, Blaise Hanczar2026-03-10🤖 cs.LG

Deterministic Differentiable Structured Pruning for Large Language Models

O artigo apresenta a Deterministic Differentiable Pruning (DDP), um método de poda estruturada determinístico para Grandes Modelos de Linguagem que elimina a aleatoriedade das abordagens anteriores, resultando em menor discrepância entre treinamento e teste, maior expressividade e melhor desempenho em tarefas downstream com redução de custos de inferência.

Weiyu Huang, Pengle Zhang, Xiaolu Zhang, Jun Zhou, Jun Zhu, Jianfei Chen2026-03-10🤖 cs.LG

Hybrid Quantum Neural Network for Multivariate Clinical Time Series Forecasting

Este artigo propõe uma arquitetura híbrida quântico-clássica que integra um Circuito Quântico Variacional a uma rede GRU para prever múltiplos sinais fisiológicos em horizontes de tempo curtos, demonstrando precisão competitiva e maior robustez a ruídos e dados faltantes em cenários clínicos de pequeno porte.

Irene Iele, Floriano Caprio, Paolo Soda, Matteo Tortora2026-03-10🤖 cs.LG

Tiny Autoregressive Recursive Models

Este artigo propõe e avalia o modelo Autoregressive TRM, descobrindo que, embora mecanismos de refinamento em duas etapas mostrem potencial, a arquitetura específica do Autoregressive TRM não oferece ganhos de desempenho confiáveis em comparação com modelos autoregressivos padrão em tarefas algorítmicas de nível de caractere.

Paulius Rauba, Claudio Fanconi, Mihaela van der Schaar2026-03-10🤖 cs.LG

EAGLE-Pangu: Accelerator-Safe Tree Speculative Decoding on Ascend NPUs

O artigo apresenta o EAGLE-Pangu, um sistema reprodutível que implementa decodificação especulativa em árvore segura para aceleradores em NPUs Ascend com backend Pangu, alcançando um aumento médio de 1,27x no throughput de decodificação em comparação com a decodificação greed-only do modelo professor.

Chang Han, Yijie Hu, Jingling Liu2026-03-10🤖 cs.LG

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Este artigo apresenta o framework DC-W2S, que utiliza um mecanismo de consenso duplo para filtrar sinais de supervisão ruidosa e treinar modelos de recompensa de processo robustos para raciocínio biológico, eliminando a necessidade de anotação extensiva por especialistas.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

Invisible Safety Threat: Malicious Finetuning for LLM via Steganography

Este artigo demonstra que é possível criar uma ameaça de segurança invisível em modelos de linguagem grandes (LLMs) ao ajustá-los para usar esteganografia, permitindo que gerem respostas maliciosas ocultas dentro de conversas aparentemente benignas, contornando assim os mecanismos de segurança e filtros de conteúdo.

Guangnian Wan, Xinyin Ma, Gongfan Fang, Xinchao Wang2026-03-10🤖 cs.LG

Tau-BNO: Brain Neural Operator for Tau Transport Model

O artigo apresenta o Tau-BNO, um modelo substituto baseado em operadores neurais que acelera drasticamente a simulação da propagação de proteínas tau no cérebro, superando os desafios computacionais do Modelo de Transporte de Rede (NTM) e permitindo inferência de parâmetros e descoberta de mecanismos com alta precisão.

Nuutti Barron, Heng Rao, Urmi Saha, Yu Gu, Zhenghao Liu, Ge Yu, Defu Yang, Ashish Raj, Minghan Chen2026-03-10🤖 cs.LG

Model-based Offline RL via Robust Value-Aware Model Learning with Implicitly Differentiable Adaptive Weighting

O artigo propõe o ROMI, um método de aprendizado por reforço offline baseado em modelo que supera as limitações de conservadorismo excessivo e instabilidade do RAMBO ao introduzir uma abordagem de aprendizado de modelo robusta e consciente do valor, utilizando um esquema de otimização bi-nível com ponderação adaptativa implicitamente diferenciável para garantir atualizações estáveis e melhor generalização fora da distribuição.

Zhongjian Qiao, Jiafei Lyu, Boxiang Lyu, Yao Shu, Siyang Gao, Shuang Qiu2026-03-10🤖 cs.LG

SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action

O artigo apresenta o SaiVLA-0, uma arquitetura de Visão-Linguagem-Ação inspirada na neurociência que utiliza uma estrutura tripartida (Cérebro-Ponte-Cerebelo) para criar um sistema modular e consciente de computação, capaz de reduzir o tempo de treinamento e aumentar significativamente a taxa de sucesso em tarefas robóticas.

Xiang Shi, Wenlong Huang, Menglin Zou, Xinhai Sun2026-03-10🤖 cs.LG

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

O artigo apresenta o FoleyFlow, um modelo que gera áudio sincronizado com vídeos utilizando alinhamento multimodal baseado em mascaramento e um fluxo condicional dinâmico para garantir coerência semântica e rítmica, superando os métodos existentes em benchmarks padrão.

Shentong Mo, Yibing Song2026-03-10🤖 cs.LG

TRIAGE: Type-Routed Interventions via Aleatoric-Epistemic Gated Estimation in Robotic Manipulation and Adaptive Perception -- Don't Treat All Uncertainty the Same

O artigo apresenta o TRIAGE, um framework pós-hoc leve que decompõe a incerteza em componentes aleatórios e epistêmicos para orientar respostas específicas do sistema, como recuperação de observações ou moderação de controle, resultando em melhorias significativas tanto no sucesso de manipulação robótica quanto na eficiência computacional da percepção adaptativa.

Divake Kumar, Sina Tayebati, Devashri Naik, Patrick Poggi, Amanda Sofie Rios, Nilesh Ahuja, Amit Ranjan Trivedi2026-03-10🤖 cs.LG

← Anterior Próximo →