cs.LG articoli | Gist.Science

Thin Keys, Full Values: Reducing KV Cache via Low-Dimensional Attention Selection

Il paper propone di ridurre la dimensione delle chiavi (keys) nell'attenzione dei transformer, sfruttando l'asimmetria tra la selezione (a bassa dimensionalità) e il trasferimento di valori (ad alta dimensionalità), per ottenere un risparmio significativo della cache KV con una minima perdita di qualità del modello.

Hengshuai Yao, Guan Wang2026-03-06💻 cs

Agent Memory Below the Prompt: Persistent Q4 KV Cache for Multi-Agent LLM Inference on Edge Devices

Questo paper presenta un sistema per l'inferenza multi-agente LLM su dispositivi edge che risolve i vincoli di memoria persistendo le cache KV quantizzate a 4 bit su disco, permettendo il ripristino diretto dello stato di attenzione e riducendo il tempo di primo token fino a 136 volte rispetto al ricalcolo completo, con un impatto minimo sulla qualità del modello.

Yakov Pyotr Shkolnikov2026-03-06💻 cs

Flowers: A Warp Drive for Neural PDE Solvers

Il paper introduce Flowers, un'architettura neurale efficiente e scalabile per la risoluzione di equazioni differenziali alle derivate parziali (PDE) basata esclusivamente su operazioni di "warping" multi-head che, eliminando trasformate di Fourier e meccanismi di attenzione, supera le prestazioni dei modelli esistenti su una vasta gamma di benchmark fisici.

Till Muser, Alexandra Spitzer, Matti Lassas + 2 more2026-03-06💻 cs

Uncertainty-Calibrated Spatiotemporal Field Diffusion with Sparse Supervision

Il paper presenta SOLID, un framework di diffusione condizionato da maschere che apprende la dinamica spazio-temporale esclusivamente da osservazioni sparse senza richiedere dati densi, permettendo la ricostruzione di campi completi con mappe di incertezza ben calibrate.

Kevin Valencia, Xihaier Luo, Shinjae Yoo + 1 more2026-03-06💻 cs

Auction-Based RIS Allocation With DRL: Controlling the Cost-Performance Trade-Off

Questo studio propone un meccanismo di allocazione delle superfici intelligenti riconfigurabili (RIS) basato su aste ascendenti simultanee e agenti di apprendimento per rinforzo profondo (DRL) che ottimizzano il compromesso tra costi e prestazioni nelle reti wireless multi-cellula, permettendo un controllo flessibile dell'aggressività delle offerte.

Martin Mark Zan, Stefan Schwarz2026-03-06💻 cs

ZorBA: Zeroth-order Federated Fine-tuning of LLMs with Heterogeneous Block Activation

Il paper propone ZorBA, un framework di fine-tuning federato per grandi modelli linguistici che utilizza ottimizzazione di ordine zero e attivazione eterogenea dei blocchi per ridurre drasticamente l'uso di VRAM e l'overhead di comunicazione mantenendo un'alta efficienza di convergenza.

Chuiyang Meng, Ming Tang, Vincent W. S. Wong2026-03-06💻 cs

ASFL: An Adaptive Model Splitting and Resource Allocation Framework for Split Federated Learning

Il documento propone ASFL, un framework di apprendimento federato diviso adattivo che ottimizza la velocità di convergenza, il ritardo e il consumo energetico nei network wireless mediante un algoritmo di ottimizzazione online che gestisce dinamicamente la suddivisione del modello e l'allocazione delle risorse.

Chuiyang Meng, Ming Tang, Vincent W. S. Wong2026-03-06💻 cs

CogGen: Cognitive-Load-Informed Fully Unsupervised Deep Generative Modeling for Compressively Sampled MRI Reconstruction

Il paper presenta CogGen, un modello generativo profondo completamente non supervisionato che migliora la ricostruzione della risonanza magnetica campionata in modo compresso regolando il "carico cognitivo" attraverso una strategia di apprendimento curricolare che passa gradualmente dal fitting dei dati a bassa frequenza a quelli ad alta frequenza, superando così i limiti di convergenza e di sovrapposizione dei metodi tradizionali.

Qingyong Zhu, Yumin Tan, Xiang Gu + 1 more2026-03-06💻 cs

Explainable Regime Aware Investing

Il documento presenta un framework di investimento regime-aware spiegabile basato su un modello HMM di Wasserstein strettamente causale che, adattando dinamicamente la complessità dei regimi e preservandone l'identità, ottiene performance rischio-rendimento superiori e un minor drawdown rispetto ai benchmark tradizionali e a metodi non parametrici.

Amine Boukardagha2026-03-06💻 cs

AMV-L: Lifecycle-Managed Agent Memory for Tail-Latency Control in Long-Running LLM Systems

Il paper presenta AMV-L, un framework di gestione della memoria per agenti LLM a lungo termine che, sostituendo le tradizionali politiche basate sull'età con un ciclo di vita guidato dal valore e un set di candidati limitato, garantisce un controllo preciso della latenza di coda e migliora significativamente il throughput e la stabilità rispetto ai sistemi esistenti.

Emmanuel Bamidele2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

Il paper introduce SkillNet, un'infrastruttura aperta che crea, valuta e organizza competenze AI su larga scala attraverso un'ontologia unificata e un repository di oltre 200.000 competenze, migliorando significativamente le prestazioni degli agenti riducendo la necessità di reinventare soluzioni già esistenti.

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed ⓘ💻 cs

An Explainable Ensemble Framework for Alzheimer's Disease Prediction Using Structured Clinical and Cognitive Data

Questo studio presenta un framework di ensemble spiegabile che, combinando tecniche di bilanciamento dei dati e algoritmi come XGBoost e Random Forest, raggiunge un'accurata e trasparente previsione dell'Alzheimer basata su dati clinici e cognitivi strutturati.

Nishan Mitra2026-03-06💻 cs

MPBMC: Multi-Property Bounded Model Checking with GNN-guided Clustering

Questo articolo presenta MPBMC, un approccio ibrido che utilizza embedding di reti neurali grafiche e statistiche di runtime per raggruppare funzionalmente le proprietà e accelerare la verifica formale tramite model checking limitato.

Soumik Guha Roy, Sumana Ghosh, Ansuman Banerjee + 2 more2026-03-06💻 cs

On Emergences of Non-Classical Statistical Characteristics in Classical Neural Networks

Il paper propone l'NCnet, un'architettura di rete neurale classica che, attraverso la competizione dei gradienti tra neuroni condivisi, esibisce dinamiche di addestramento con correlazioni non-classiche misurabili tramite l'ineguaglianza CHSH, offrendo una nuova prospettiva per comprendere le interazioni interne e le prestazioni di generalizzazione delle reti profonde.

Hanyu Zhao, Yang Wu, Yuexian Hou2026-03-06⚛️ quant-ph

Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

Questo studio rivela una nuova modalità di fallimento nei modelli linguistici visivi multimodali, dimostrando che l'ottimizzazione di una funzione di perdita volta a massimizzare l'instabilità numerica genera immagini che degradano significativamente le prestazioni del modello con modifiche minime, un fenomeno distinto dalle tradizionali perturbazioni avversarie.

Wai Tuck Wong, Jun Sun, Arunesh Sinha2026-03-06💻 cs

Learning Unified Distance Metric for Heterogeneous Attribute Data Clustering

Questo articolo propone il paradigma di apprendimento HARR (Heterogeneous Attribute Reconstruction and Representation), un metodo privo di parametri e garantito nella convergenza che trasforma attributi eterogenei in uno stato omogeneo proiettandoli in spazi apprendibili unificati per migliorare l'accuratezza e l'efficienza del clustering su dati misti.

Yiqun Zhang, Mingjie Zhao, Yizhou Chen + 2 more2026-03-06💻 cs

VSPrefill: Vertical-Slash Sparse Attention with Lightweight Indexing for Long-Context Prefilling

Il paper presenta VSPrefill, un meccanismo di attenzione sparsa basato su pattern verticali e diagonali che, tramite un indice leggero e strategie adattive, riduce la complessità del prefilling a scala lineare ottenendo un'accelerazione di 4,95 volte su contesti lunghi fino a 128k senza compromettere significativamente l'accuratezza.

Chen Guanzhong2026-03-06💻 cs

MAD-SmaAt-GNet: A Multimodal Advection-Guided Neural Network for Precipitation Nowcasting

Il documento presenta MAD-SmaAt-GNet, una rete neurale multimodale addestrata per migliorare le previsioni di precipitazione a breve termine integrando l'architettura SmaAt-UNet con un encoder multimodale e un componente di avvezione basato sulla fisica, ottenendo una riduzione significativa dell'errore quadratico medio rispetto ai modelli di base.

Samuel van Wonderen, Siamak Mehrkanoon2026-03-06💻 cs

Understanding the Dynamics of Demonstration Conflict in In-Context Learning

Questo studio rivela che i modelli linguistici di grandi dimensioni elaborano le dimostrazioni conflittuali nell'apprendimento contestuale attraverso una struttura computazionale a due fasi, identificando specifiche "teste" di attenzione vulnerabili e suscettibili che, se disattivate miratamente, migliorano le prestazioni del modello di oltre il 10%.

Difan Jiao, Di Wang, Lijie Hu2026-03-06💻 cs

Act-Observe-Rewrite: Multimodal Coding Agents as In-Context Policy Learners for Robot Manipulation

Il paper presenta Act-Observe-Rewrite (AOR), un framework in cui un agente multimodale basato su LLM migliora autonomamente le politiche di manipolazione robotica riscrivendo il codice di controllo tra un'esecuzione e l'altra, basandosi sulle osservazioni visive e sui risultati degli episodi senza necessità di gradienti, dimostrazioni o ingegneria delle ricompense.

Vaishak Kumar2026-03-06💻 cs

← Precedente Successivo →