LoRA-Ensemble: Efficient Uncertainty Modelling for Self-Attention Networks

O artigo apresenta o LoRA-Ensemble, um método eficiente e parametrizado para modelagem de incerteza em redes de autoatenção que utiliza adaptações de baixo rank para criar um ensemble implícito, superando técnicas existentes e igualando ou superando a precisão de ensembles explícitos com melhor calibração.

Dominik J. Mühlematter, Michelle Halbheer, Alexander Becker, Dominik Narnhofer, Helge Aasen, Konrad Schindler, Mehmet Ozgur Turkoglu2026-03-10🤖 cs.LG

Exploring Diffusion Models' Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks

Este artigo investiga a fase de corrupção observada no ajuste fino de poucos exemplos de Modelos de Difusão, identifica sua causa na distribuição de aprendizado restrita e propõe o uso de Redes Neurais Bayesianas para mitigar esse problema, melhorando a fidelidade, qualidade e diversidade das imagens geradas sem custos adicionais de inferência.

Xiaoyu Wu, Jiaru Zhang, Yang Hua, Bohan Lyu, Hao Wang, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

DKDL-Net: A Lightweight Bearing Fault Detection Model via Decoupled Knowledge Distillation and Low-Rank Adaptation Fine-tuning

Este artigo propõe o DKDL-Net, um modelo leve de detecção de falhas em rolamentos que combina destilação de conhecimento desacoplada e ajuste fino de baixo rank para alcançar uma precisão de 99,48% com apenas 6.838 parâmetros, superando os modelos existentes em eficiência computacional e desempenho.

Ovanes Petrosian, Li Pengyi, He Yulong + 4 more2026-03-10🤖 cs.LG

Estimating Treatment Effects under Algorithmic Interference: A Structured Neural Networks Approach

Este artigo propõe uma abordagem semiparamétrica estruturada baseada em redes neurais para corrigir o viés causado pela interferência algorítmica em experimentos de plataformas de conteúdo, permitindo a estimativa precisa do efeito global do tratamento ao modelar explicitamente a competição por exposição entre criadores.

Ruohan Zhan, Shichao Han, Yuchen Hu, Zhenling Jiang2026-03-10🤖 cs.LG

Mini-batch Estimation for Deep Cox Models: Statistical Foundations and Practical Guidance

Este artigo estabelece as fundações estatísticas do estimador de máxima verossimilhança parcial em mini-lotes (mb-MPLE) para redes neurais de Cox, demonstrando sua consistência e eficiência assintótica, enquanto oferece orientações práticas para o ajuste de hiperparâmetros e a convergência do gradiente descendente estocástico em aplicações de larga escala.

Lang Zeng, Weijing Tang, Zhao Ren, Ying Ding2026-03-10🤖 cs.LG

Variational Learning of Gaussian Process Latent Variable Models through Stochastic Gradient Annealed Importance Sampling

Este artigo propõe um método de Amostragem de Importância Annealed (AIS) combinado com reparametrização eficiente para otimizar o aprendizado variacional de Modelos de Variáveis Latentes de Processo Gaussiano (GPLVMs), superando as limitações de abordagens anteriores em espaços de alta dimensão e alcançando melhores limites variacionais e convergência em diversos conjuntos de dados.

Jian Xu, Shian Du, Junmei Yang, Qianli Ma, Delu Zeng, John Paisley2026-03-10🤖 cs.LG

From Model Explanation to Data Misinterpretation: A Cautionary Analysis of Post Hoc Explainers in Business Research

Este estudo alerta que o uso de explicadores *post hoc* como SHAP e LIME para validar hipóteses em pesquisas de negócios é problemático, pois, apesar de sua alta precisão preditiva, eles frequentemente falham em recuperar com fidelidade as relações reais dos dados devido a fatores como correlação e o efeito Rashomon, devendo ser utilizados apenas como ferramentas exploratórias e não confirmatórias.

Tong Wang (Jeffrey), Ronilo Ragodos (Jeffrey), Lu Feng (Jeffrey), Yu (Jeffrey), Hu2026-03-10🤖 cs.LG

Reconsidering the energy efficiency of spiking neural networks

Este artigo propõe uma reavaliação rigorosa da eficiência energética das Redes Neurais de Spiking (SNNs) em comparação com Redes Neurais Artificiais Quantizadas (QNNs), utilizando um modelo analítico abrangente que considera custos de movimentação de dados e memória, demonstrando que as SNNs só superam as QNNs em regimes operacionais específicos (como baixas taxas de disparo) e que, em cenários otimizados, podem dobrar a vida útil da bateria de dispositivos como relógios inteligentes.

Zhanglu Yan, Zhenyu Bai, Weng-Fai Wong2026-03-10🤖 cs.LG

BNEM: A Boltzmann Sampler Based on Bootstrapped Noised Energy Matching

Este artigo apresenta o BNEM, um amostrador baseado em Boltzmann que utiliza a técnica de correspondência de energia com ruído (NEM) combinada com um método de bootstrap para gerar amostras independentes e identicamente distribuídas a partir de funções de energia, alcançando desempenho superior e maior robustez em comparação com trabalhos anteriores.

RuiKang OuYang, Bo Qiang, José Miguel Hernández-Lobato2026-03-10🤖 cs.LG

Landscape of Policy Optimization for Finite Horizon MDPs with General State and Action

Este artigo estabelece que, para uma classe de MDPs de horizonte finito com espaços de estado e ação gerais, o problema de otimização de políticas satisfaz a condição Polyak-Łojasiewicz-Kurdyka, garantindo a convergência global não assintótica de métodos de gradiente de política com complexidade de amostra O~(ϵ1)\tilde{\mathcal{O}}(\epsilon^{-1}) e fornecendo as primeiras garantias teóricas para sistemas de inventário e saldos de caixa estocásticos.

Xin Chen, Yifan Hu, Minda Zhao2026-03-10🤖 cs.LG

Neural delay differential equations: learning non-Markovian closures for partially known dynamical systems

Este artigo apresenta as Equações Diferenciais com Atraso Neurais (NDDEs), um framework contínuo inspirado no formalismo de Mori-Zwanzig que utiliza um conjunto finito de atrasos temporais para aprender dinâmicas não-Markovianas de sistemas parcialmente observáveis de forma mais eficiente e precisa do que métodos existentes como LSTMs e ANODEs.

Thibault Monsel, Onofrio Semeraro, Lionel Mathelin, Guillaume Charpiat2026-03-10🤖 cs.LG