Agent Memory Below the Prompt: Persistent Q4 KV Cache for Multi-Agent LLM Inference on Edge Devices

Questo paper presenta un sistema per l'inferenza multi-agente LLM su dispositivi edge che risolve i vincoli di memoria persistendo le cache KV quantizzate a 4 bit su disco, permettendo il ripristino diretto dello stato di attenzione e riducendo il tempo di primo token fino a 136 volte rispetto al ricalcolo completo, con un impatto minimo sulla qualità del modello.

Yakov Pyotr Shkolnikov2026-03-06💻 cs

CogGen: Cognitive-Load-Informed Fully Unsupervised Deep Generative Modeling for Compressively Sampled MRI Reconstruction

Il paper presenta CogGen, un modello generativo profondo completamente non supervisionato che migliora la ricostruzione della risonanza magnetica campionata in modo compresso regolando il "carico cognitivo" attraverso una strategia di apprendimento curricolare che passa gradualmente dal fitting dei dati a bassa frequenza a quelli ad alta frequenza, superando così i limiti di convergenza e di sovrapposizione dei metodi tradizionali.

Qingyong Zhu, Yumin Tan, Xiang Gu + 1 more2026-03-06💻 cs

On Emergences of Non-Classical Statistical Characteristics in Classical Neural Networks

Il paper propone l'NCnet, un'architettura di rete neurale classica che, attraverso la competizione dei gradienti tra neuroni condivisi, esibisce dinamiche di addestramento con correlazioni non-classiche misurabili tramite l'ineguaglianza CHSH, offrendo una nuova prospettiva per comprendere le interazioni interne e le prestazioni di generalizzazione delle reti profonde.

Hanyu Zhao, Yang Wu, Yuexian Hou2026-03-06⚛️ quant-ph