Personalized Multi-Agent Average Reward TD-Learning via Joint Linear Approximation

Este artigo propõe um método de aprendizado TD cooperativo em tempo único para agentes personalizados que compartilham uma representação linear, demonstrando que a decomposição em um subespaço comum e cabeças locais mitiga conflitos de sinais heterogêneos, alcança aceleração linear e supera desafios analíticos decorrentes de amostragem de Markov e dinâmicas de erro interconectadas.

Leo Muxing Wang, Pengkun Yang, Lili Su2026-03-10🤖 cs.LG

Embedding interpretable 1\ell_1-regression into neural networks for uncovering temporal structure in cell imaging

Este artigo propõe a integração de um modelo de regressão vetorial autoregressiva (VAR) com regularização 1\ell_1 dentro de um autoencoder convolucional para extrair dinâmicas temporais esparsas e interpretáveis de dados de imagem de células, permitindo simultaneamente a redução de dimensionalidade, a visualização de contribuições espaciais e testes estatísticos de sequências temporais.

Fabian Kabus, Maren Hackenberg, Julia Hindel, Thibault Cholvin, Antje Kilias, Thomas Brox, Abhinav Valada, Marlene Bartos, Harald Binder2026-03-10🤖 cs.LG

Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers

Este artigo apresenta o GramCol e o IMAP, métodos que localizam espacial e temporalmente conceitos de movimento e objetos em Transformers de Difusão de Vídeo sem necessidade de cálculo de gradiente ou atualização de parâmetros, oferecendo mapas de saliência interpretáveis para tarefas como segmentação semântica zero-shot.

Youngjun Jun, Seil Kang, Woojung Han, Seong Jae Hwang2026-03-10🤖 cs.LG

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

O artigo apresenta o CGL, um framework de aprendizado contínuo para agentes de interface gráfica que combina ajuste fino supervisionado e aprendizado por reforço com mecanismos de ajuste dinâmico e cirurgia de gradientes para equilibrar adaptação a novas tarefas e retenção de conhecimento, validado por um novo benchmark chamado AndroidControl-CL.

Zhenquan Yao, Zitong Huang, Yihan Zeng, Jianhua Han, Hang Xu, Chun-Mei Feng, Jianwei Ma, Wangmeng Zuo2026-03-10🤖 cs.LG

Information Routing in Atomistic Foundation Models: How Task Alignment and Equivariance Shape Linear Disentanglement

O artigo apresenta a Decomposição de Sonda Composicional (CPD) para demonstrar que a alinhamento da tarefa de treinamento e a arquitetura equivariante são fatores determinantes que moldam a acessibilidade linear e a disjunção de informações geométricas e composicionais em modelos de base atômica, revelando que modelos treinados em propriedades específicas (como o gap HOMO-LUMO) organizam seus representações de forma mais eficiente do que aqueles treinados apenas em energia.

Joshua Steier2026-03-10🤖 cs.LG

XInsight: Integrative Stage-Consistent Psychological Counseling Support Agents for Digital Well-Being

O artigo apresenta o XInsight, um framework multiagente inspirado em aconselhamento psicológico que integra o paradigma de Exploração-Insight-Ação com um ciclo de Raciocínio-Intervenção-Reflexão para fornecer suporte digital estruturado e interpretável, validado por meio do novo benchmark XInsight-Bench.

Fei Wang, Jiangnan Yang, Junjie Chen, Yuxin Liu, Kun Li, Yanyan Wei, Dan Guo, Meng Wang2026-03-10🤖 cs.LG

Isotonic Layer: A Universal Framework for Generic Recommendation Debiasing

O artigo apresenta a "Isotonic Layer", uma nova estrutura diferenciável que integra ajuste linear por partes em arquiteturas neurais para garantir viés monotônico global, permitindo calibração granular e adaptativa que mitiga vieses sistemáticos e melhora a precisão preditiva e a consistência de classificação em sistemas de recomendação em larga escala.

Hailing Cheng, Yafang Yang, Hemeng Tao, Fengyu Zhang2026-03-10🤖 cs.LG

How Attention Sinks Emerge in Large Language Models: An Interpretability Perspective

Este artigo investiga a origem dos "sumidouros de atenção" em Grandes Modelos de Linguagem, identificando um mecanismo específico chamado "P0 Sink Circuit" que permite a modelos reconhecerem o primeiro token sem informação semântica, surgindo precocemente no treinamento e concentrando-se nas primeiras camadas, o que pode servir como indicador de convergência.

Runyu Peng, Ruixiao Li, Mingshu Chen, Yunhua Zhou, Qipeng Guo, Xipeng Qiu2026-03-10🤖 cs.LG

Hierarchical Latent Structures in Data Generation Process Unify Mechanistic Phenomena across Scale

Este trabalho demonstra que estruturas latentes hierárquicas no processo de geração de dados unificam a explicação do surgimento de fenômenos mecanísticos distintos em modelos de linguagem, utilizando corpora sintéticos gerados por gramáticas livres de contexto probabilísticas para investigar e validar essas descobertas tanto em dados sintéticos quanto em modelos reais.

Jonas Rohweder, Subhabrata Dutta, Iryna Gurevych2026-03-10🤖 cs.LG

FuzzingRL: Reinforcement Fuzz-Testing for Revealing VLM Failures

O artigo apresenta o FuzzingRL, uma abordagem que combina fuzzing e ajuste fino por reforço adversarial para gerar automaticamente perguntas que exploram sistematicamente as vulnerabilidades de Modelos de Linguagem e Visão (VLMs), reduzindo significativamente sua precisão e demonstrando eficácia na transferência entre diferentes modelos.

Jiajun Xu, Jiageng Mao, Ang Qi, Weiduo Yuan, Alexander Romanus, Helen Xia, Vitor Campagnolo Guizilini, Yue Wang2026-03-10🤖 cs.LG

Scale Dependent Data Duplication

O artigo demonstra que a duplicação de dados é dependente da escala, evidenciando que, à medida que os modelos aumentam sua capacidade, documentos semanticamente equivalentes geram gradientes cada vez mais alinhados e causam colisões semânticas aceleradas, o que degrada o desempenho de modelos grandes e exige novas leis de escala para prever com precisão o impacto da unicidade limitada do corpus de pré-treinamento.

Joshua Kazdan, Noam Levi, Rylan Schaeffer, Jessica Chudnovsky, Abhay Puri, Bo He, Mehmet Donmez, Sanmi Koyejo, David Donoho2026-03-10🤖 cs.LG

Know When You're Wrong: Aligning Confidence with Correctness for LLM Error Detection

O artigo apresenta um método de pontuação de confiança normalizada para detectar erros e alucinações em modelos de linguagem, demonstrando que o ajuste fino supervisionado (SFT) melhora a calibração da confiança enquanto métodos de aprendizado por reforço a prejudicam, propondo uma solução de pós-ajuste para restaurar a confiabilidade e otimizar sistemas de geração aumentada por recuperação (RAG).

Xie Xiaohu, Liu Xiaohu, Yao Benjamin2026-03-10🤖 cs.LG

Structure-Aware Set Transformers: Temporal and Variable-Type Attention Biases for Asynchronous Clinical Time Series

O artigo apresenta o STAR Set Transformer, um modelo que melhora a previsão em séries temporais clínicas assimétricas ao incorporar vieses de atenção suaves para capturar a localidade temporal e a compatibilidade entre variáveis, superando as abordagens baseadas em grades e conjuntos de pontos em tarefas de cuidados intensivos.

Joohyung Lee, Kwanhyung Lee, Changhun Kim, Eunho Yang2026-03-10🤖 cs.LG

Multi-Agent DRL for V2X Resource Allocation: Disentangling Challenges and Benchmarking Solutions

Este artigo apresenta uma abordagem sistemática para avaliar algoritmos de aprendizado por reforço multiagente na alocação de recursos em redes C-V2X, utilizando um conjunto de benchmarks e dados gerados por simulação para identificar que a robustez e a generalização das políticas em topologias veiculares diversas são os principais desafios, demonstrando também a superioridade de métodos ator-crítico sobre abordagens baseadas em valor.

Siyuan Wang, Lei Lei, Pranav Maheshwari, Sam Bellefeuille, Kan Zheng, Dusit Niyato2026-03-10🤖 cs.LG