cs.OS articoli | Gist.Science

The Missing Memory Hierarchy: Demand Paging for LLM Context Windows

Il paper introduce Pichay, un sistema di paging su richiesta che tratta la finestra di contesto degli LLM come una gerarchia di memoria virtuale, riducendo drasticamente il consumo di risorse attraverso l'evizione dinamica dei contenuti obsoleti e il ripristino selettivo solo quando necessario.

Tony MasonWed, 11 Ma🤖 cs.AI

FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation

Il paper presenta FlexServe, un sistema di inferenza per LLM su dispositivi mobili che sfrutta l'isolamento flessibile delle risorse (Flex-Mem e Flex-NPU) all'interno di ARM TrustZone per garantire sicurezza e alte prestazioni, ottenendo significativi miglioramenti nella velocità di generazione rispetto a soluzioni esistenti.

Yinpeng Wu, Yitong Chen, Lixiang Wang, Jinyu Gu, Zhichao Hua, Yubin XiaWed, 11 Ma🤖 cs.LG

Ensuring Data Freshness in Multi-Rate Task Chains Scheduling

Questo articolo propone un framework di scheduling basato su offset temporali che, decomponendo i grafi di dipendenza dei dati e sincronizzando i produttori attraverso un algoritmo di ricerca del consenso, garantisce la freschezza dei dati nei sistemi autonomi critici eliminando la latenza artificiale del paradigma LET e l'inefficienza del sovracampionamento.

José Luis Conradi Hoffmann, Antônio Augusto FröhlichWed, 11 Ma💻 cs

EROICA: Online Performance Troubleshooting for Large-scale Model Training

Il paper presenta EROICA, il primo sistema di risoluzione dei problemi di prestazioni online per l'addestramento di modelli su larga scala, che combina profilazione dettagliata e osservabilità differenziale per diagnosticare con successo sia problemi hardware che software su cluster di GPU di produzione.

Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Kun Qian, Tianyin Xu, Pengcheng Zhang, Yang Zhang, Hanyu Zhao, Yong Li, Wei Lin, Dennis Cai, Ennan ZhaiTue, 10 Ma🤖 cs.LG

Improved Leakage Abuse Attacks in Searchable Symmetric Encryption with eBPF Monitoring

Questo lavoro dimostra come il monitoraggio di sistema tramite eBPF possa rivelare nuove forme di perdita di informazioni nella crittografia simmetrica ricercabile, consentendo attacchi di abuso più efficaci e sottolineando la necessità di considerare tali vulnerabilità a livello di sistema nella progettazione delle difese.

Chinecherem DimobiTue, 10 Ma💻 cs

Mitigating the Memory Bottleneck with Machine Learning-Driven and Data-Aware Microarchitectural Techniques

Questa tesi dimostra che l'adozione di tecniche microarchitettoniche guidate dai dati e dall'apprendimento automatico, che sfruttano le caratteristiche semantiche delle applicazioni e i comportamenti di esecuzione osservati, supera efficacemente i colli di bottiglia della memoria, migliorando significativamente le prestazioni e l'efficienza energetica rispetto alle soluzioni tradizionali.

Rahul BeraTue, 10 Ma🤖 cs.LG

Structured Gossip: A Partition-Resilient DNS for Internet-Scale Dynamic Networks

Il paper presenta il "Structured Gossip DNS", un protocollo di risoluzione dei nomi per reti dinamiche su larga scala che utilizza tabelle a dita DHT e operazioni commutative per garantire la resilienza alle partizioni e la consistenza eventuale senza coordinamento globale, riducendo la complessità dei messaggi da $O(n)$ a $O(n/\log n)$ .

Priyanka Sinha, Dilys ThomasTue, 10 Ma💻 cs

Trust Nothing: RTOS Security without Run-Time Software TCB (Extended Version)

Questo lavoro presenta un'architettura di capacità innovativa e un'implementazione FPGA che, disaggregando il sistema operativo Zephyr in componenti isolati, garantisce la sicurezza dei dispositivi embedded senza richiedere modifiche hardware alle periferiche e rendendo tutti i componenti software a runtime non attendibili.

Eric Ackermann, Sven BugielTue, 10 Ma💻 cs

ThunderAgent: A Simple, Fast and Program-Aware Agentic Inference System

ThunderAgent è un sistema di inferenza agenziale semplice, veloce e consapevole del programma che, astruendo i flussi di lavoro come "LLM Programs" e gestendo in modo unificato risorse eterogenee come cache KV e strumenti esterni, supera le limitazioni delle architetture attuali ottenendo significativi miglioramenti nel throughput e nel risparmio di memoria.

Hao Kang, Ziyang Li, Xinyu Yang, Weili Xu, Yinfang Chen, Junxiong Wang, Beidi Chen, Tushar Krishna, Chenfeng Xu, Simran AroraThu, 12 Ma💻 cs

Reexamining Paradigms of End-to-End Data Movement

Questo paper esamina sei paradigmi che influenzano il trasferimento dati, introducendo il modello "Drainage Basin Pattern" per dimostrare come i colli di bottiglia risiedano spesso al di fuori della rete centrale e come un approccio olistico hardware-software sia essenziale per garantire prestazioni prevedibili su larga scala.

Chin Fang, Timothy Stitt, Michael J. McManus, Toshio MoriyaMon, 09 Ma💻 cs

The Compute ICE-AGE: Invariant Compute Envelope under Addressable Graph Evolution

Questo documento presenta i risultati empirici di un'implementazione C++ di un substrato di stato semantico deterministico, denominato "Compute ICE-AGE", che dimostra come l'evoluzione locale di un grafo di memoria risulti in una latenza di traversamento e un consumo energetico invarianti rispetto alla scala, superando i limiti computazionali delle architetture di inferenza AI tradizionali.

Raymond Jay Martin IIMon, 09 Ma🤖 cs.AI