A Survey on Decentralized Federated Learning

Questo lavoro presenta un'analisi sistematica dell'apprendimento federato decentralizzato (DFL) fino al 2026, proponendo una tassonomia unificata basata sulle sfide affrontate, valutando le pratiche di valutazione attuali e delineando future direzioni di ricerca per migliorare sicurezza, privacy e meccanismi di incentivo in ambienti privi di coordinatore centrale.

Edoardo Gabrielli, Anthony Di Pietro, Dario Fenoglio, Giovanni Pica, Gabriele TolomeiWed, 11 Ma🤖 cs.LG

Enhancing Computational Efficiency in Multiscale Systems Using Deep Learning of Coordinates and Flow Maps

Questo articolo presenta un approccio basato sull'apprendimento profondo che combina la scoperta di coordinate e mappe di flusso per migliorare l'efficienza computazionale nella simulazione di sistemi multiscala complessi, ottenendo alta accuratezza predittiva a costi ridotti su modelli come Fitzhugh-Nagumo e Kuramoto-Sivashinsky.

Asif Hamid, Danish Rafiq, Shahkar Ahmad Nahvi, Mohammad Abid BazazWed, 11 Ma🤖 cs.LG

Scalable and Performant Data Loading

Il paper presenta SPDL, una libreria open-source e agnostica rispetto al framework che risolve i colli di bottiglia nel caricamento dei dati per l'IA rilasciando il GIL di Python, ottenendo così un'elaborazione fino al 74% più veloce rispetto a PyTorch DataLoader e un ulteriore guadagno di prestazioni con Python 3.13t a thread liberi.

Moto Hira, Christian Puhrsch, Valentin Andrei, Roman Malinovskyy, Gael Le Lan, Abhinandan Krishnan, Joseph Cummings, Victor Bourgin, Olga Gerasimova, Miguel Martin, Gokul Gunasekaran, Yuta Inoue, Alex J Turner, Raghuraman KrishnamoorthiWed, 11 Ma💻 cs

PhD Thesis Summary: Methods for Reliability Assessment and Enhancement of Deep Neural Network Hardware Accelerators

Questa tesi di dottorato presenta metodi innovativi ed economici per valutare e migliorare l'affidabilità degli acceleratori hardware per reti neurali profonde, introducendo nuovi strumenti analitici, ottimizzando i compromessi tra efficienza e tolleranza ai guasti e sviluppando la tecnica AdAM per l'enhancement dell'affidabilità in tempo reale senza sovraccarico.

Mahdi TaheriWed, 11 Ma🤖 cs.AI

Sensitivity-Guided Framework for Pruned and Quantized Reservoir Computing Accelerators

Questo articolo presenta un framework di compressione per il Reservoir Computing che, sfruttando un meccanismo di pruning basato sulla sensibilità, permette di esplorare sistematicamente i compromessi tra livelli di quantizzazione, tassi di pruning, accuratezza ed efficienza hardware, ottenendo significativi miglioramenti nell'efficienza computazionale e nelle risorse su FPGA senza degradare le prestazioni del modello.

Atousa Jafari, Mahdi Taheri, Hassan Ghasemzadeh Mohammadi, Christian Herglotz, Marco PlatznerWed, 11 Ma🤖 cs.AI

Adaptive Multi-Objective Tiered Storage Configuration for KV Cache in LLM Service

Il paper presenta Kareto, un ottimizzatore adattivo che risolve il problema di configurazione multi-obiettivo della memoria tiered per il KV cache nei servizi LLM, identificando efficientemente il fronte di Pareto per bilanciare costi, throughput e latenza e superando le strategie statiche con miglioramenti significativi nelle prestazioni.

Xianzhe Zheng, Zhengheng Wang, Ruiyan Ma, Rui Wang, Xiyu Wang, Rui Chen, Peng Zhang, Sicheng Pan, Zhangheng Huang, Chenxin Wu, Yi Zhang, Bo Cai, Kan Liu, Teng Ma, Yin Du, Dong Deng, Sai Wu, Guoyun Zhu, Wei Zhang, Feifei LiWed, 11 Ma💻 cs

Zipage: Maintain High Request Concurrency for LLM Reasoning through Compressed PagedAttention

Il paper presenta Zipage, un motore di inferenza per LLM che utilizza la tecnica Compressed PagedAttention per superare i colli di bottiglia della memoria KV cache, garantendo un'elevata concorrenza e un'accelerazione superiore a 2,1 volte mantenendo il 95% delle prestazioni rispetto ai sistemi a KV cache completa.

Mengqi Liao, Lu Wang, Chaoyun Zhang, Bo Qiao, Si Qin, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Huaiyu WanWed, 11 Ma🤖 cs.AI

Extension of ACETONE C code generator for multi-core architectures

Questo lavoro presenta un'estensione del generatore di codice C ACETONE, originariamente limitato all'esecuzione sequenziale, per abilitare la generazione di codice parallelo ottimizzato per architetture multi-core, definendo formalmente il problema dell'assegnazione dei processori e pianificando l'implementazione di euristiche di scheduling e meccanismi di sincronizzazione.

Yanis Aït-Aïssa (IRIT-TRACES), Thomas Carle (IRIT-TRACES), Sergei Chichin, Benjamin Lesage, Claire PagettiWed, 11 Ma💻 cs

FedLECC: Cluster- and Loss-Guided Client Selection for Federated Learning under Non-IID Data

Il paper propone FedLECC, una strategia di selezione dei client per l'Apprendimento Federato che, combinando la similarità nella distribuzione delle etichette e la perdita locale, migliora significativamente l'accuratezza e riduce l'overhead di comunicazione in scenari con dati non-IID.

Daniel M. Jimenez-Gutierrez, Giovanni Giunta, Mehrdad Hassanzadeh, Aris Anagnostopoulos, Ioannis Chatzigiannakis, Andrea VitalettiWed, 11 Ma🤖 cs.AI

The qsqs Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

Il paper introduce la disuguaglianza qsqs, un criterio predittivo che dimostra come le architetture Mixture-of-Experts subiscano una "doppia penalità" strutturale durante l'inferenza a causa della frammentazione della memoria e del routing, rendendole spesso meno efficienti rispetto a modelli densi di qualità equivalente, specialmente in contesti lunghi.

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

Lockbox -- A Zero Trust Architecture for Secure Processing of Sensitive Cloud Workloads

Il documento presenta Lockbox, un'architettura Zero Trust progettata per garantire l'elaborazione sicura di carichi di lavoro cloud sensibili attraverso verifica esplicita, isolamento rigoroso e controllo degli accessi basato su policy, permettendo alle aziende di adottare funzionalità avanzate come l'elaborazione assistita dall'IA senza compromettere la sicurezza.

Vamshi Krishna Thotempudi, Mahima Agarwal, Raghav Batta, Anjali MangalWed, 11 Ma💻 cs

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

Questo articolo presenta la prima applicazione diretta dei tensor core FP64 su GPU NVIDIA per accelerare simulazioni agli elementi finiti di alto ordine, ottenendo significativi miglioramenti nelle prestazioni e nell'efficienza energetica su larga scala e integrandoli nella libreria MFEM per applicazioni critiche come la previsione di tsunami in tempo reale.

Jiqun Tu, Ian Karlin, John Camier, Veselin Dobrev, Tzanio Kolev, Stefan Henneking, Omar GhattasWed, 11 Ma💻 cs