cs.OS Arbeiten | Gist.Science

The Missing Memory Hierarchy: Demand Paging for LLM Context Windows

Die Arbeit stellt Pichay vor, ein Demand-Paging-System für LLM-Kontextfenster, das durch transparente Interposition und Auslagerung veralteter Inhalte die Kontextnutzung um bis zu 93 % reduziert und damit etablierte Konzepte der virtuellen Speicherverwaltung auf die Skalierung von Sprachmodellen anwendet.

Tony MasonWed, 11 Ma🤖 cs.AI

FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation

Das Paper stellt FlexServe vor, ein schnelles und sicheres System für die Inferenz von Large Language Models auf mobilen Geräten, das durch flexible Ressourcenisolierung und spezialisierte Managementmechanismen innerhalb von ARM TrustZone die erheblichen Leistungsnachteile herkömmlicher Ansätze überwindet.

Yinpeng Wu, Yitong Chen, Lixiang Wang, Jinyu Gu, Zhichao Hua, Yubin XiaWed, 11 Ma🤖 cs.LG

Ensuring Data Freshness in Multi-Rate Task Chains Scheduling

Dieses Paper stellt einen neuen, auf Datenfrische basierenden Scheduling-Rahmen für Multi-Rate-Aufgabenketten vor, der durch die Einführung von Just-in-Time-Versatzzeiten und einen Konsens-Versatz-Suchalgorithmus die End-to-End-Datenfrische in sicherheitskritischen Systemen gewährleistet, ohne dabei die Nachteilige Latenz des Logical-Execution-Time-Paradigmas oder die Ineffizienz von Überabtastung in Kauf zu nehmen.

José Luis Conradi Hoffmann, Antônio Augusto FröhlichWed, 11 Ma💻 cs

EROICA: Online Performance Troubleshooting for Large-scale Model Training

Das Paper stellt EROICA vor, ein Online-Troubleshooting-System, das durch feinkörnige Profilierung und differenzielle Beobachtbarkeit Leistungsprobleme in großen GPU-Clustern für das Training großer Modelle effizient diagnostiziert und sich bereits erfolgreich in einer Produktionsumgebung mit rund 100.000 GPUs bewährt hat.

Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Kun Qian, Tianyin Xu, Pengcheng Zhang, Yang Zhang, Hanyu Zhao, Yong Li, Wei Lin, Dennis Cai, Ennan ZhaiTue, 10 Ma🤖 cs.LG

Improved Leakage Abuse Attacks in Searchable Symmetric Encryption with eBPF Monitoring

Diese Arbeit zeigt, dass die Nutzung von eBPF zur Überwachung des Systemverhaltens neue, bisher in SSE-Bedrohungsmodellen unberücksichtigte Leckagen aufdeckt, die bestehende Angriffe verstärken und die Lücke zwischen theoretischer Sicherheit und praktischer Systemexponierung schließen.

Chinecherem DimobiTue, 10 Ma💻 cs

Mitigating the Memory Bottleneck with Machine Learning-Driven and Data-Aware Microarchitectural Techniques

Diese Dissertation schlägt vor, den Engpass im Speichersystem durch den Übergang von datenagnostischen zu dateninformierten Mikroarchitektur-Techniken zu überwinden, die maschinelles Lernen und semantische Datenmerkmale nutzen, um Leistung und Energieeffizienz signifikant zu steigern.

Rahul BeraTue, 10 Ma🤖 cs.LG

Structured Gossip: A Partition-Resilient DNS for Internet-Scale Dynamic Networks

Die Arbeit stellt „Structured Gossip DNS" vor, ein partitionstolerantes DNS-System für Internet-Skala, das durch die Nutzung von DHT-Fingertabellen und passiver Stabilisierung die Nachrichtenkomplexität auf $O(n/\log n)$ reduziert und dabei ohne globale Koordination eine eventual consistency gewährleistet.

Priyanka Sinha, Dilys ThomasTue, 10 Ma💻 cs

Trust Nothing: RTOS Security without Run-Time Software TCB (Extended Version)

Dieses Papier stellt eine neue Capability-Architektur vor, die auf einer FPGA-Implementierung und einem disaggregierten Zephyr-Betriebssystem basiert, um Echtzeit-Embedded-Systeme ohne vertrauenswürdigen Software-Kernel (TCB) gegen Angriffe von Anwendungen, dem Betriebssystem und Peripheriegeräten zu schützen.

Eric Ackermann, Sven BugielTue, 10 Ma💻 cs

ThunderAgent: A Simple, Fast and Program-Aware Agentic Inference System

Das Paper stellt ThunderAgent vor, ein schnelles und programmorientiertes Agentic-Inferenzsystem, das durch die Abstraktion von Workflows als LLM-Programme und eine einheitliche Ressourcenverwaltung die KV-Cache-Trefferquoten maximiert, Speicherungleichgewichte ausgleicht und im Vergleich zu bestehenden Systemen die Durchsatzleistung sowie die Speichereffizienz erheblich verbessert.

Hao Kang, Ziyang Li, Xinyu Yang, Weili Xu, Yinfang Chen, Junxiong Wang, Beidi Chen, Tushar Krishna, Chenfeng Xu, Simran AroraThu, 12 Ma💻 cs

Reexamining Paradigms of End-to-End Data Movement

Diese Studie widerlegt die verbreitete Annahme, dass hohe Netzwerkbandbreite allein für performante Datenübertragung ausreicht, und zeigt durch die Einführung des „Drainage Basin Pattern"-Modells sowie umfangreiche Produktionstests, dass Engpässe häufig außerhalb des Netzwerks liegen und eine ganzheitliche Hardware-Software-Ko-Design-Strategie für zuverlässige Datenbewegung in großem Maßstab erforderlich ist.

Chin Fang, Timothy Stitt, Michael J. McManus, Toshio MoriyaMon, 09 Ma💻 cs

The Compute ICE-AGE: Invariant Compute Envelope under Addressable Graph Evolution

Diese Arbeit präsentiert empirische Ergebnisse einer deterministischen, graphbasierten C++-Implementierung, die zeigt, dass semantische Kontinuität durch lokale Zustandsänderungen statt durch probabilistische Neuorganisation erreicht werden kann, was zu einer invarianten Rechenzeit und thermischen Effizienz führt, die unabhängig von der Gesamtknotengröße ist.

Raymond Jay Martin IIMon, 09 Ma🤖 cs.AI