FedEMA-Distill: Exponential Moving Average Guided Knowledge Distillation for Robust Federated Learning

Il paper propone FedEMA-Distill, un metodo di apprendimento federato robusto ed efficiente che combina una media mobile esponenziale con la distillazione della conoscenza basata sui logit aggregati per mitigare l'eterogeneità dei dati, ridurre il carico di comunicazione e resistere ad attacchi avversari senza richiedere modifiche ai client.

Hamza Reguieg, Mohamed El Kamili, Essaid Sabir2026-03-06💻 cs

When Scaling Fails: Network and Fabric Effects on Distributed GPU Training Performance

Questo studio empirico dimostra che le prestazioni dell'addestramento distribuito su GPU su larga scala sono spesso dominate da fattori di rete e di fabric, come la topologia e la congestione, che causano un ritorno decrescente e comportamenti instabili non rilevati dagli strumenti di profilazione standard, fornendo al contempo principi diagnostici pratici per mitigare questi problemi.

Dinesh Gopalan, Ratul Ali2026-03-06💻 cs

Agent Memory Below the Prompt: Persistent Q4 KV Cache for Multi-Agent LLM Inference on Edge Devices

Questo paper presenta un sistema per l'inferenza multi-agente LLM su dispositivi edge che risolve i vincoli di memoria persistendo le cache KV quantizzate a 4 bit su disco, permettendo il ripristino diretto dello stato di attenzione e riducendo il tempo di primo token fino a 136 volte rispetto al ricalcolo completo, con un impatto minimo sulla qualità del modello.

Yakov Pyotr Shkolnikov2026-03-06💻 cs

CogGen: Cognitive-Load-Informed Fully Unsupervised Deep Generative Modeling for Compressively Sampled MRI Reconstruction

Il paper presenta CogGen, un modello generativo profondo completamente non supervisionato che migliora la ricostruzione della risonanza magnetica campionata in modo compresso regolando il "carico cognitivo" attraverso una strategia di apprendimento curricolare che passa gradualmente dal fitting dei dati a bassa frequenza a quelli ad alta frequenza, superando così i limiti di convergenza e di sovrapposizione dei metodi tradizionali.

Qingyong Zhu, Yumin Tan, Xiang Gu + 1 more2026-03-06💻 cs

On Emergences of Non-Classical Statistical Characteristics in Classical Neural Networks

Il paper propone l'NCnet, un'architettura di rete neurale classica che, attraverso la competizione dei gradienti tra neuroni condivisi, esibisce dinamiche di addestramento con correlazioni non-classiche misurabili tramite l'ineguaglianza CHSH, offrendo una nuova prospettiva per comprendere le interazioni interne e le prestazioni di generalizzazione delle reti profonde.

Hanyu Zhao, Yang Wu, Yuexian Hou2026-03-06⚛️ quant-ph