cs.LG articoli | Gist.Science

LoRA-Ensemble: Efficient Uncertainty Modelling for Self-Attention Networks

Il paper introduce LoRA-Ensemble, un metodo efficiente basato su Low-Rank Adaptation che, condividendo una rete pre-addestrata con proiezioni di attenzione a basso rango individuali, supera le tecniche implicite esistenti e raggiunge prestazioni e calibrazione dell'incertezza paragonabili o superiori a un ensemble esplicito, riducendo al contempo costi computazionali e memoria.

Dominik J. Mühlematter, Michelle Halbheer, Alexander Becker, Dominik Narnhofer, Helge Aasen, Konrad Schindler, Mehmet Ozgur Turkoglu2026-03-10🤖 cs.LG

Fast Explanations via Policy Gradient-Optimized Explainer

Il documento presenta FEX, un nuovo framework che utilizza l'ottimizzazione del gradiente della politica per generare spiegazioni basate su attribuzioni in tempo reale, riducendo drasticamente i tempi di inferenza e l'uso di memoria rispetto ai metodi tradizionali senza comprometterne la qualità o l'applicabilità.

Deng Pan, Nuno Moniz, Nitesh Chawla2026-03-10🤖 cs.LG

Exploring Diffusion Models' Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks

Questo paper identifica e modella teoricamente la fase di "corruzione" durante il fine-tuning few-shot dei modelli di diffusione, proponendo l'integrazione di reti neurali bayesiane per mitigare tale fenomeno e migliorare la fedeltà, la qualità e la diversità delle immagini generate senza costi aggiuntivi di inferenza.

Xiaoyu Wu, Jiaru Zhang, Yang Hua, Bohan Lyu, Hao Wang, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

DKDL-Net: A Lightweight Bearing Fault Detection Model via Decoupled Knowledge Distillation and Low-Rank Adaptation Fine-tuning

Il paper presenta DKDL-Net, un modello leggero per il rilevamento dei guasti dei cuscinetti che combina distillazione della conoscenza disaccoppiata e fine-tuning adattivo a basso rango per raggiungere un'accuratezza del 99,48% con un numero di parametri significativamente ridotto rispetto agli stati dell'arte.

Ovanes Petrosian, Li Pengyi, He Yulong + 4 more2026-03-10🤖 cs.LG

Estimating Treatment Effects under Algorithmic Interference: A Structured Neural Networks Approach

Questo articolo propone un nuovo framework semiparametrico basato su reti neurali strutturate e sull'apprendimento automatico doppio per stimare gli effetti dei trattamenti nelle piattaforme a due lati, risolvendo il problema del bias causato dall'interferenza algoritmica tra creatori che competono per l'esposizione.

Ruohan Zhan, Shichao Han, Yuchen Hu, Zhenling Jiang2026-03-10🤖 cs.LG

LAMBDA: A Large Model Based Data Agent

LAMBDA è un sistema open-source e privo di codice basato su modelli linguistici di grandi dimensioni che utilizza agenti multipli (programmatore e ispettore) e un'interfaccia utente per facilitare l'analisi dei dati attraverso l'integrazione tra intelligenza umana e artificiale.

Maojun Sun, Ruijian Han, Binyan Jiang + 4 more2026-03-10🤖 cs.AI

OTAD: An Optimal Transport-Induced Robust Model for Agnostic Adversarial Attack

Il paper presenta OTAD, un nuovo modello di difesa avversaria basato sul trasporto ottimo che combina l'addestramento su dati reali con l'interpolazione tramite problemi di integrazione convessa per garantire continuità di Lipschitz locale, offrendo così robustezza certificata e alta espressività su diverse architetture di deep learning.

Kuo Gai, Sicong Wang, Shihua Zhang2026-03-10🤖 cs.LG

Mini-batch Estimation for Deep Cox Models: Statistical Foundations and Practical Guidance

Questo lavoro stabilisce le basi statistiche e fornisce indicazioni pratiche per l'uso della discesa del gradiente stocastica nei modelli di Cox profondi, dimostrando che l'estimatore di massima verosimiglianza parziale su mini-batch è consistente, asintoticamente normale e particolarmente efficace per applicazioni su larga scala dove i metodi tradizionali risultano intrattabili.

Lang Zeng, Weijing Tang, Zhao Ren, Ying Ding2026-03-10🤖 cs.LG

Variational Learning of Gaussian Process Latent Variable Models through Stochastic Gradient Annealed Importance Sampling

Questo lavoro propone un metodo di apprendimento variazionale per i Modelli a Variabili Latenti con Processi Gaussiani che utilizza il campionamento per importanza annealato stocastico per superare le limitazioni degli approcci esistenti in spazi ad alta dimensionalità, ottenendo legami variazionali più stretti e una convergenza più robusta.

Jian Xu, Shian Du, Junmei Yang, Qianli Ma, Delu Zeng, John Paisley2026-03-10🤖 cs.LG

The Z-Gromov-Wasserstein Distance

Questo articolo introduce la distanza Z-Gromov-Wasserstein come un quadro teorico unificato che generalizza le metriche esistenti per confrontare reti Z, dimostrando che essa definisce una metrica completa e geodetica sullo spazio delle reti Z e fornendo al contempo limiti inferiori calcolabili per applicazioni pratiche.

Martin Bauer, Facundo Mémoli, Tom Needham + 1 more2026-03-10🤖 cs.LG

From Model Explanation to Data Misinterpretation: A Cautionary Analysis of Post Hoc Explainers in Business Research

Questo studio avverte che l'uso diffuso di spiegatori post hoc come SHAP e LIME nella ricerca aziendale per validare ipotesi è fuorviante, poiché le loro spiegazioni spesso non riflettono fedelmente le relazioni reali nei dati a causa di fattori come la correlazione delle variabili e l'effetto Rashomon, suggerendo invece di impiegarli esclusivamente come strumenti esplorativi.

Tong Wang (Jeffrey), Ronilo Ragodos (Jeffrey), Lu Feng (Jeffrey), Yu (Jeffrey), Hu2026-03-10🤖 cs.LG

Reconsidering the energy efficiency of spiking neural networks

Questo studio offre una rivalutazione rigorosa dell'efficienza energetica delle reti neurali a impulsi (SNN), dimostrando che, sebbene spesso sopravvalutate, possono raddoppiare l'autonomia della batteria rispetto alle reti neurali quantizzate (QNN) solo in specifici regimi operativi caratterizzati da finestre temporali moderate e bassi tassi di impulsi, una volta considerati i costi reali del movimento dei dati.

Zhanglu Yan, Zhenyu Bai, Weng-Fai Wong2026-03-10🤖 cs.LG

Input-to-State Stable Coupled Oscillator Networks for Closed-form Model-based Control in Latent Space

Questo lavoro propone una rete di oscillatori accoppiati (CON) che, garantendo una struttura lagrangiana, stabilità input-stato e una mappatura invertibile tra input e forze latenti, abilita un controllo efficace nello spazio latente basato su modelli a forma chiusa per sistemi fisici complessi, come dimostrato con successo su un robot soffice utilizzando solo immagini.

Maximilian Stölzle, Cosimo Della Santina2026-03-10🤖 cs.LG

xTED: Cross-Domain Adaptation via Diffusion-Based Trajectory Editing

Il paper propone xTED, un framework innovativo che utilizza un modello di diffusione per adattare direttamente le traiettorie tra domini diversi a livello dei dati, correggendo le discrepanze senza richiedere architetture complesse e migliorando le prestazioni nell'apprendimento delle politiche.

Haoyi Niu, Qimao Chen, Tenglong Liu, Jianxiong Li, Guyue Zhou, Yi Zhang, Jianming Hu, Xianyuan Zhan2026-03-10🤖 cs.LG

BNEM: A Boltzmann Sampler Based on Bootstrapped Noised Energy Matching

Il paper presenta BNEM, un campionatore basato su Boltzmann che utilizza una tecnica di bootstrapping applicata al Noised Energy Matching (NEM) per generare campioni IID da distribuzioni di energia note, ottenendo prestazioni all'avanguardia e maggiore robustezza rispetto ai metodi esistenti.

RuiKang OuYang, Bo Qiang, José Miguel Hernández-Lobato2026-03-10🤖 cs.LG

Landscape of Policy Optimization for Finite Horizon MDPs with General State and Action

Questo articolo dimostra che, per una classe di MDP a orizzonte finito con spazi di stato e azione generali, il paesaggio di ottimizzazione della politica soddisfa la condizione PŁK, garantendo la convergenza globale dei metodi del gradiente della politica con complessità campionaria $\tilde{\mathcal{O}}(\epsilon^{-1})$ e fornendo le prime garanzie teoriche per sistemi di inventario e bilanci di cassa stocastici.

Xin Chen, Yifan Hu, Minda Zhao2026-03-10🤖 cs.LG

Neural delay differential equations: learning non-Markovian closures for partially known dynamical systems

Il paper introduce le Neural Delay Differential Equations (NDDE), un approccio continuo basato sul formalismo di Mori-Zwanzig che utilizza ritardi temporali fissi per modellare dinamiche non-Markoviane in sistemi parzialmente osservabili, superando le prestazioni di metodi esistenti come LSTM e ANODE.

Thibault Monsel, Onofrio Semeraro, Lionel Mathelin, Guillaume Charpiat2026-03-10🤖 cs.LG

Open-World Reinforcement Learning over Long Short-Term Imagination

Il paper presenta LS-Imagine, un metodo che supera i limiti di visione a breve termine degli agenti di apprendimento per rinforzo visivo in ambienti open-world, introducendo un modello del mondo "lungo ma a breve termine" che simula transizioni di stato saltate e mappe di affordanza per migliorare l'esplorazione e l'ottimizzazione di ricompense a lungo termine, come dimostrato nei risultati su MineDojo.

Jiajian Li, Qi Wang, Yunbo Wang, Xin Jin, Yang Li, Wenjun Zeng, Xiaokang Yang2026-03-10🤖 cs.LG

How Learning Dynamics Drive Adversarially Robust Generalization?

Questo studio introduce un quadro analitico PAC-Bayesiano basato sulla dinamica di apprendimento per spiegare meccanicamente il sovradattamento robusto nell'addestramento avversariale, rivelando come l'evoluzione del mean e della covarianza posteriore sia legata a parametri come il tasso di apprendimento e la curvatura del paesaggio di perdita.

Yuelin Xu, Xiao Zhang2026-03-10🤖 cs.LG

Transformers as Implicit State Estimators: In-Context Learning in Dynamical Systems

Questo lavoro dimostra che i transformer, sfruttando l'apprendimento in contesto, possono inferire implicitamente gli stati nascosti e prevedere l'output di sistemi dinamici lineari e non lineari con prestazioni paragonabili ai filtri di Kalman, senza richiedere aggiornamenti dei gradienti o la conoscenza esplicita del modello.

Usman Akram, Haris Vikalo2026-03-10🤖 cs.LG

← Precedente Successivo →