cs.LG articoli | Gist.Science

Marginals Before Conditionals

Il paper descrive un compito minimo che dimostra come le reti neurali apprendano inizialmente la distribuzione marginale, stabilizzandosi su un plateau di errore pari a log K, prima di subire una transizione collettiva verso l'apprendimento completo della condizionale, un processo governato dal rumore del gradiente e preceduto dall'assemblaggio interno di un meccanismo di routing.

Mihir Sahasrabudhe2026-03-12🤖 cs.LG

Stochastic Port-Hamiltonian Neural Networks: Universal Approximation with Passivity Guarantees

Il paper introduce le reti neurali stocastiche port-Hamiltoniane (SPH-NN), che garantiscono la passività e approssimano universalmente i coefficienti di sistemi dinamici stocastici con dissipazione, dimostrando sperimentalmente una migliore stabilità a lungo termine e un errore energetico ridotto rispetto alle reti neurali tradizionali.

Luca Di Persio, Matthias Ehrhardt, Youness Outaleb2026-03-12🤖 cs.LG

Large Spikes in Stochastic Gradient Descent: A Large-Deviations View

Questo studio analizza la fase di "catapult" nell'addestramento SGD di reti neurali superficiali, fornendo una teoria quantitativa che identifica un criterio esplicito basato su una funzione $G$ per prevedere la probabilità di grandi picchi nel kernel NTK in base al tasso di apprendimento, alla larghezza della rete e ai dati.

Benjamin Gess, Daniel Heydecker2026-03-12🤖 cs.LG

Amnesia: Adversarial Semantic Layer Specific Activation Steering in Large Language Models

Il documento presenta "Amnesia", un attacco avversario leggero che manipola gli stati interni dei transformer per aggirare i meccanismi di sicurezza dei modelli linguistici open-weight, permettendo loro di generare contenuti dannosi senza necessità di ulteriore addestramento.

Ali Raza, Gurang Gupta, Nikolay Matyunin, Jibesh Patra2026-03-12🤖 cs.AI

Mitigating Frequency Learning Bias in Quantum Models via Multi-Stage Residual Learning

Il paper propone un metodo di apprendimento residuo multi-stadio per i modelli quantistici che, ispirandosi alle reti neurali Fourier classiche, mitiga il pregiudizio nell'apprendimento delle frequenze e migliora significativamente la capacità di approssimare funzioni con componenti frequenziali multiple.

Ammar Daskin2026-03-12⚛️ quant-ph

Digging Deeper: Learning Multi-Level Concept Hierarchies

Il paper introduce Multi-Level Concept Splitting (MLCS) e Deep-HiCEMs, un approccio che scopre gerarchie concettuali multi-livello partendo da supervisione di alto livello e permette interventi a diversi livelli di astrazione, superando i limiti dei modelli precedenti che gestivano solo gerarchie superficiali.

Oscar Hill, Mateo Espinosa Zarlenga, Mateja Jamnik2026-03-12🤖 cs.LG

KernelSkill: A Multi-Agent Framework for GPU Kernel Optimization

Il paper presenta KernelSkill, un framework multi-agente che migliora l'ottimizzazione dei kernel GPU sostituendo le euristiche implicite dei modelli linguistici con competenze esperte guidate dalla conoscenza e una memoria duale, ottenendo risultati superiori rispetto alle soluzioni precedenti.

Qitong Sun, Jun Han, Tianlin Li, Zhe Tang, Sheng Chen, Fei Yang, Aishan Liu, Xianglong Liu, Yang Liu2026-03-12🤖 cs.LG

ES-dLLM: Efficient Inference for Diffusion Large Language Models by Early-Skipping

Il paper presenta ES-dLLM, un framework di inferenza senza addestramento che accelera i modelli di linguaggio a diffusione (dLLM) saltando i token meno importanti nei livelli iniziali, ottenendo un significativo aumento della velocità di generazione senza compromettere la qualità.

Zijian Zhu, Fei Ren, Zhanhong Tan, Kaisheng Ma2026-03-12🤖 cs.LG

A Survey of Weight Space Learning: Understanding, Representation, and Generation

Questo lavoro presenta la prima tassonomia unificata dell'Apprendimento dello Spazio dei Pesi, un nuovo campo di ricerca che tratta i pesi delle reti neurali come un dominio strutturato e analizzabile, suddividendo i metodi esistenti nelle dimensioni di comprensione, rappresentazione e generazione per abilitare applicazioni avanzate come il trasferimento di conoscenza e la ricostruzione senza dati.

Xiaolong Han, Zehong Wang, Bo Zhao, Binchi Zhang, Jundong Li, Damian Borth, Rose Yu, Haggai Maron, Yanfang Ye, Lu Yin, Ferrante Neri2026-03-12🤖 cs.LG

Equivariant Asynchronous Diffusion: An Adaptive Denoising Schedule for Accelerated Molecular Conformation Generation

Il paper introduce Equivariant Asynchronous Diffusion (EAD), un modello di diffusione innovativo che combina schedule di denoising asincrone e dinamiche per catturare le gerarchie molecolari e accelerare la generazione di conformazioni 3D, ottenendo prestazioni all'avanguardia.

Junyi An, Chao Qu, Yun-Fei Shi, Zhijian Zhou, Fenglei Cao, Yuan Qi2026-03-12🧬 q-bio

Rethinking Adam for Time Series Forecasting: A Simple Heuristic to Improve Optimization under Distribution Shifts

Il paper propone TS_Adam, una variante leggera dell'ottimizzatore Adam che rimuove la correzione di secondo ordine per migliorare l'adattabilità alle distribuzioni non stazionarie nelle previsioni temporali, ottenendo riduzioni significative dell'errore rispetto all'Adam standard.

Yuze Dong, Jinsong Wu2026-03-12🤖 cs.LG

Code-Space Response Oracles: Generating Interpretable Multi-Agent Policies with Large Language Models

Il paper introduce CSRO, un nuovo framework che sostituisce gli oracoli di apprendimento per rinforzo con modelli linguistici di grandi dimensioni per generare politiche multi-agente interpretabili sotto forma di codice, superando così il problema delle "scatole nere" tipico dei metodi tradizionali.

Daniel Hennes, Zun Li, John Schultz, Marc Lanctot2026-03-12🤖 cs.AI

Denoising the US Census: Succinct Block Hierarchical Regression

Questo lavoro introduce BlueDown, un nuovo metodo di post-elaborazione basato su una regressione gerarchica lineare ottimalmente efficiente e su operazioni algebriche sintetiche, che produce stime demografiche più accurate e coerenti per il Censimento degli Stati Uniti rispetto al sistema attuale TopDown, mantenendo le stesse garanzie di privacy e vincoli strutturali.

Badih Ghazi, Pritish Kamath, Ravi Kumar, Pasin Manurangsi, Adam Sealfon2026-03-12🤖 cs.LG

Hardware Efficient Approximate Convolution with Tunable Error Tolerance for CNNs

Il paper propone un paradigma di "sparsità morbida" basato su un proxy hardware efficiente dei bit più significativi, integrato come istruzione RISC-V, che riduce drasticamente le operazioni MAC e il consumo energetico nelle CNN senza compromettere l'accuratezza, superando di cinque volte le tecniche tradizionali di skipping degli zeri.

Vishal Shashidhar, Anupam Kumari, Roy P Paily2026-03-12🤖 cs.LG

CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR

Il paper presenta CLIPO, un metodo che integra l'apprendimento contrastivo nell'ottimizzazione della politica per generalizzare il Reinforcement Learning con Ricompense Verificabili (RLVR), correggendo le allucinazioni e migliorando la robustezza dei modelli linguistici grandi (LLM) garantendo la coerenza dei passaggi intermedi di ragionamento oltre alla sola correttezza della risposta finale.

Sijia Cui, Pengyu Cheng, Jiajun Song, Yongbo Gai, Guojun Zhang, Zhechao Yu, Jianhe Lin, Xiaoxi Jiang, Guanjun Jiang2026-03-12🤖 cs.LG

Lost in the Middle at Birth: An Exact Theory of Transformer Position Bias

Questo paper dimostra che il fenomeno "Lost in the Middle", caratterizzato da una curva di performance a U, è una proprietà geometrica intrinseca dell'architettura del decoder causale con connessioni residue presente già all'inizializzazione, indipendentemente dall'addestramento o dalle codifiche posizionali.

Borun D Chowdhury2026-03-12🤖 cs.LG

Unbalanced Optimal Transport Dictionary Learning for Unsupervised Hyperspectral Image Clustering

Questo articolo propone un metodo di apprendimento del dizionario basato su barycentri di Wasserstein non bilanciati per migliorare il clustering non supervisionato di immagini iperspettrali, superando i limiti degli approcci precedenti legati alla necessità di bilanciare i profili spettrali e alla scarsa robustezza al rumore.

Joshua Lentz, Nicholas Karris, Alex Cloninger, James M. Murphy2026-03-12📊 stat

A neural operator for predicting vibration frequency response curves from limited data

Questo studio presenta un operatore neurale integrato con uno schema numerico implicito che, addestrato su un limitato set di dati, riesce a prevedere con il 99,87% di accuratezza le curve di risposta in frequenza di sistemi vibranti, garantendo una generalizzazione efficace senza l'uso di funzioni di regolarizzazione basate sulla fisica.

D. Bluedorn, A. Badawy, B. E. Saunders, D. Roettgen, A. Abdelkefi2026-03-12🤖 cs.LG

Mashup Learning: Faster Finetuning by Remixing Past Checkpoints

Il paper propone "Mashup Learning", un metodo che migliora l'adattamento dei modelli linguistici a nuovi compiti e accelera il loro addestramento fondendo i checkpoint storici più rilevanti per creare un'inizializzazione superiore rispetto all'addestramento da zero.

Sofia Maria Lo Cicero Vaina, Artem Chumachenko, Max Ryabinin2026-03-12🤖 cs.LG

ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning

Il paper propone ReMix, un nuovo metodo di instradamento basato sul reinforcement learning che utilizza pesi non apprendibili per garantire un'attivazione equilibrata di tutti i LoRA nei modelli Mixture-of-LoRAs, superando così il problema dello squilibrio dei pesi e migliorando significativamente le prestazioni rispetto agli stati dell'arte nel fine-tuning efficiente dei parametri.

Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, Yiwen Meng, Ren Chen, Jiarui Feng, Dongqi Fu, Qifan Wang, Jiayi Liu, Jun Xiao, Xiangjun Fan, Benyu Zhang, Hong Li, Zhining Liu, Hyunsik Yoo, Zhichen Zeng, Tianxin Wei, Hanghang Tong2026-03-12🤖 cs.LG

← Precedente Successivo →