FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation

Il paper presenta FlexServe, un sistema di inferenza per LLM su dispositivi mobili che sfrutta l'isolamento flessibile delle risorse (Flex-Mem e Flex-NPU) all'interno di ARM TrustZone per garantire sicurezza e alte prestazioni, ottenendo significativi miglioramenti nella velocità di generazione rispetto a soluzioni esistenti.

Yinpeng Wu, Yitong Chen, Lixiang Wang, Jinyu Gu, Zhichao Hua, Yubin XiaWed, 11 Ma🤖 cs.LG

EROICA: Online Performance Troubleshooting for Large-scale Model Training

Il paper presenta EROICA, il primo sistema di risoluzione dei problemi di prestazioni online per l'addestramento di modelli su larga scala, che combina profilazione dettagliata e osservabilità differenziale per diagnosticare con successo sia problemi hardware che software su cluster di GPU di produzione.

Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Kun Qian, Tianyin Xu, Pengcheng Zhang, Yang Zhang, Hanyu Zhao, Yong Li, Wei Lin, Dennis Cai, Ennan ZhaiTue, 10 Ma🤖 cs.LG

Mitigating the Memory Bottleneck with Machine Learning-Driven and Data-Aware Microarchitectural Techniques

Questa tesi dimostra che l'adozione di tecniche microarchitettoniche guidate dai dati e dall'apprendimento automatico, che sfruttano le caratteristiche semantiche delle applicazioni e i comportamenti di esecuzione osservati, supera efficacemente i colli di bottiglia della memoria, migliorando significativamente le prestazioni e l'efficienza energetica rispetto alle soluzioni tradizionali.

Rahul BeraTue, 10 Ma🤖 cs.LG

ThunderAgent: A Simple, Fast and Program-Aware Agentic Inference System

ThunderAgent è un sistema di inferenza agenziale semplice, veloce e consapevole del programma che, astruendo i flussi di lavoro come "LLM Programs" e gestendo in modo unificato risorse eterogenee come cache KV e strumenti esterni, supera le limitazioni delle architetture attuali ottenendo significativi miglioramenti nel throughput e nel risparmio di memoria.

Hao Kang, Ziyang Li, Xinyu Yang, Weili Xu, Yinfang Chen, Junxiong Wang, Beidi Chen, Tushar Krishna, Chenfeng Xu, Simran AroraThu, 12 Ma💻 cs

The Compute ICE-AGE: Invariant Compute Envelope under Addressable Graph Evolution

Questo documento presenta i risultati empirici di un'implementazione C++ di un substrato di stato semantico deterministico, denominato "Compute ICE-AGE", che dimostra come l'evoluzione locale di un grafo di memoria risulti in una latenza di traversamento e un consumo energetico invarianti rispetto alla scala, superando i limiti computazionali delle architetture di inferenza AI tradizionali.

Raymond Jay Martin IIMon, 09 Ma🤖 cs.AI