FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation

Das Paper stellt FlexServe vor, ein schnelles und sicheres System für die Inferenz von Large Language Models auf mobilen Geräten, das durch flexible Ressourcenisolierung und spezialisierte Managementmechanismen innerhalb von ARM TrustZone die erheblichen Leistungsnachteile herkömmlicher Ansätze überwindet.

Yinpeng Wu, Yitong Chen, Lixiang Wang, Jinyu Gu, Zhichao Hua, Yubin XiaWed, 11 Ma🤖 cs.LG

Ensuring Data Freshness in Multi-Rate Task Chains Scheduling

Dieses Paper stellt einen neuen, auf Datenfrische basierenden Scheduling-Rahmen für Multi-Rate-Aufgabenketten vor, der durch die Einführung von Just-in-Time-Versatzzeiten und einen Konsens-Versatz-Suchalgorithmus die End-to-End-Datenfrische in sicherheitskritischen Systemen gewährleistet, ohne dabei die Nachteilige Latenz des Logical-Execution-Time-Paradigmas oder die Ineffizienz von Überabtastung in Kauf zu nehmen.

José Luis Conradi Hoffmann, Antônio Augusto FröhlichWed, 11 Ma💻 cs

EROICA: Online Performance Troubleshooting for Large-scale Model Training

Das Paper stellt EROICA vor, ein Online-Troubleshooting-System, das durch feinkörnige Profilierung und differenzielle Beobachtbarkeit Leistungsprobleme in großen GPU-Clustern für das Training großer Modelle effizient diagnostiziert und sich bereits erfolgreich in einer Produktionsumgebung mit rund 100.000 GPUs bewährt hat.

Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Kun Qian, Tianyin Xu, Pengcheng Zhang, Yang Zhang, Hanyu Zhao, Yong Li, Wei Lin, Dennis Cai, Ennan ZhaiTue, 10 Ma🤖 cs.LG

ThunderAgent: A Simple, Fast and Program-Aware Agentic Inference System

Das Paper stellt ThunderAgent vor, ein schnelles und programmorientiertes Agentic-Inferenzsystem, das durch die Abstraktion von Workflows als LLM-Programme und eine einheitliche Ressourcenverwaltung die KV-Cache-Trefferquoten maximiert, Speicherungleichgewichte ausgleicht und im Vergleich zu bestehenden Systemen die Durchsatzleistung sowie die Speichereffizienz erheblich verbessert.

Hao Kang, Ziyang Li, Xinyu Yang, Weili Xu, Yinfang Chen, Junxiong Wang, Beidi Chen, Tushar Krishna, Chenfeng Xu, Simran AroraThu, 12 Ma💻 cs

Reexamining Paradigms of End-to-End Data Movement

Diese Studie widerlegt die verbreitete Annahme, dass hohe Netzwerkbandbreite allein für performante Datenübertragung ausreicht, und zeigt durch die Einführung des „Drainage Basin Pattern"-Modells sowie umfangreiche Produktionstests, dass Engpässe häufig außerhalb des Netzwerks liegen und eine ganzheitliche Hardware-Software-Ko-Design-Strategie für zuverlässige Datenbewegung in großem Maßstab erforderlich ist.

Chin Fang, Timothy Stitt, Michael J. McManus, Toshio MoriyaMon, 09 Ma💻 cs