LoRA-Ensemble: Efficient Uncertainty Modelling for Self-Attention Networks

Il paper introduce LoRA-Ensemble, un metodo efficiente basato su Low-Rank Adaptation che, condividendo una rete pre-addestrata con proiezioni di attenzione a basso rango individuali, supera le tecniche implicite esistenti e raggiunge prestazioni e calibrazione dell'incertezza paragonabili o superiori a un ensemble esplicito, riducendo al contempo costi computazionali e memoria.

Dominik J. Mühlematter, Michelle Halbheer, Alexander Becker, Dominik Narnhofer, Helge Aasen, Konrad Schindler, Mehmet Ozgur Turkoglu2026-03-10🤖 cs.LG

Exploring Diffusion Models' Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks

Questo paper identifica e modella teoricamente la fase di "corruzione" durante il fine-tuning few-shot dei modelli di diffusione, proponendo l'integrazione di reti neurali bayesiane per mitigare tale fenomeno e migliorare la fedeltà, la qualità e la diversità delle immagini generate senza costi aggiuntivi di inferenza.

Xiaoyu Wu, Jiaru Zhang, Yang Hua, Bohan Lyu, Hao Wang, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

DKDL-Net: A Lightweight Bearing Fault Detection Model via Decoupled Knowledge Distillation and Low-Rank Adaptation Fine-tuning

Il paper presenta DKDL-Net, un modello leggero per il rilevamento dei guasti dei cuscinetti che combina distillazione della conoscenza disaccoppiata e fine-tuning adattivo a basso rango per raggiungere un'accuratezza del 99,48% con un numero di parametri significativamente ridotto rispetto agli stati dell'arte.

Ovanes Petrosian, Li Pengyi, He Yulong + 4 more2026-03-10🤖 cs.LG

Mini-batch Estimation for Deep Cox Models: Statistical Foundations and Practical Guidance

Questo lavoro stabilisce le basi statistiche e fornisce indicazioni pratiche per l'uso della discesa del gradiente stocastica nei modelli di Cox profondi, dimostrando che l'estimatore di massima verosimiglianza parziale su mini-batch è consistente, asintoticamente normale e particolarmente efficace per applicazioni su larga scala dove i metodi tradizionali risultano intrattabili.

Lang Zeng, Weijing Tang, Zhao Ren, Ying Ding2026-03-10🤖 cs.LG

Variational Learning of Gaussian Process Latent Variable Models through Stochastic Gradient Annealed Importance Sampling

Questo lavoro propone un metodo di apprendimento variazionale per i Modelli a Variabili Latenti con Processi Gaussiani che utilizza il campionamento per importanza annealato stocastico per superare le limitazioni degli approcci esistenti in spazi ad alta dimensionalità, ottenendo legami variazionali più stretti e una convergenza più robusta.

Jian Xu, Shian Du, Junmei Yang, Qianli Ma, Delu Zeng, John Paisley2026-03-10🤖 cs.LG

From Model Explanation to Data Misinterpretation: A Cautionary Analysis of Post Hoc Explainers in Business Research

Questo studio avverte che l'uso diffuso di spiegatori post hoc come SHAP e LIME nella ricerca aziendale per validare ipotesi è fuorviante, poiché le loro spiegazioni spesso non riflettono fedelmente le relazioni reali nei dati a causa di fattori come la correlazione delle variabili e l'effetto Rashomon, suggerendo invece di impiegarli esclusivamente come strumenti esplorativi.

Tong Wang (Jeffrey), Ronilo Ragodos (Jeffrey), Lu Feng (Jeffrey), Yu (Jeffrey), Hu2026-03-10🤖 cs.LG

Reconsidering the energy efficiency of spiking neural networks

Questo studio offre una rivalutazione rigorosa dell'efficienza energetica delle reti neurali a impulsi (SNN), dimostrando che, sebbene spesso sopravvalutate, possono raddoppiare l'autonomia della batteria rispetto alle reti neurali quantizzate (QNN) solo in specifici regimi operativi caratterizzati da finestre temporali moderate e bassi tassi di impulsi, una volta considerati i costi reali del movimento dei dati.

Zhanglu Yan, Zhenyu Bai, Weng-Fai Wong2026-03-10🤖 cs.LG

Input-to-State Stable Coupled Oscillator Networks for Closed-form Model-based Control in Latent Space

Questo lavoro propone una rete di oscillatori accoppiati (CON) che, garantendo una struttura lagrangiana, stabilità input-stato e una mappatura invertibile tra input e forze latenti, abilita un controllo efficace nello spazio latente basato su modelli a forma chiusa per sistemi fisici complessi, come dimostrato con successo su un robot soffice utilizzando solo immagini.

Maximilian Stölzle, Cosimo Della Santina2026-03-10🤖 cs.LG

Landscape of Policy Optimization for Finite Horizon MDPs with General State and Action

Questo articolo dimostra che, per una classe di MDP a orizzonte finito con spazi di stato e azione generali, il paesaggio di ottimizzazione della politica soddisfa la condizione PŁK, garantendo la convergenza globale dei metodi del gradiente della politica con complessità campionaria O~(ϵ1)\tilde{\mathcal{O}}(\epsilon^{-1}) e fornendo le prime garanzie teoriche per sistemi di inventario e bilanci di cassa stocastici.

Xin Chen, Yifan Hu, Minda Zhao2026-03-10🤖 cs.LG

Open-World Reinforcement Learning over Long Short-Term Imagination

Il paper presenta LS-Imagine, un metodo che supera i limiti di visione a breve termine degli agenti di apprendimento per rinforzo visivo in ambienti open-world, introducendo un modello del mondo "lungo ma a breve termine" che simula transizioni di stato saltate e mappe di affordanza per migliorare l'esplorazione e l'ottimizzazione di ricompense a lungo termine, come dimostrato nei risultati su MineDojo.

Jiajian Li, Qi Wang, Yunbo Wang, Xin Jin, Yang Li, Wenjun Zeng, Xiaokang Yang2026-03-10🤖 cs.LG