FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation

Ce papier présente FlexServe, un système de service LLM rapide et sécurisé pour les appareils mobiles qui surmonte les limitations d'ARM TrustZone grâce à une isolation flexible des ressources (mémoire et NPU), permettant d'accélérer considérablement l'inférence et les flux de travail multi-modèles tout en protégeant les données sensibles.

Yinpeng Wu, Yitong Chen, Lixiang Wang, Jinyu Gu, Zhichao Hua, Yubin XiaWed, 11 Ma🤖 cs.LG

Ensuring Data Freshness in Multi-Rate Task Chains Scheduling

Cet article propose un cadre d'ordonnancement basé sur des contraintes de fraîcheur des données, utilisant un algorithme de recherche d'offsets de consensus pour synchroniser les tâches en flux Juste-À-Temps et garantir la fraîcheur des données dans les systèmes critiques sans la latération artificielle du paradigme LET ni le gaspillage de ressources dû au sur-échantillonnage.

José Luis Conradi Hoffmann, Antônio Augusto FröhlichWed, 11 Ma💻 cs

EROICA: Online Performance Troubleshooting for Large-scale Model Training

Ce papier présente EROICA, le premier système de débogage en ligne capable de diagnostiquer avec un impact minimal les problèmes de performance matériels et logiciels dans les clusters de GPU à grande échelle utilisés pour l'entraînement de modèles massifs.

Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Kun Qian, Tianyin Xu, Pengcheng Zhang, Yang Zhang, Hanyu Zhao, Yong Li, Wei Lin, Dennis Cai, Ennan ZhaiTue, 10 Ma🤖 cs.LG

Mitigating the Memory Bottleneck with Machine Learning-Driven and Data-Aware Microarchitectural Techniques

Cette thèse propose de surmonter le goulot d'étranglement de la mémoire en faisant évoluer la conception microarchitecturale d'une approche agnostique des données vers une approche informée par les données, en utilisant des techniques d'apprentissage automatique et l'exploitation des caractéristiques sémantiques pour optimiser significativement les performances et l'efficacité énergétique.

Rahul BeraTue, 10 Ma🤖 cs.LG

Reexamining Paradigms of End-to-End Data Movement

En s'appuyant sur des déploiements à l'échelle de la production, cette étude remet en cause la vision centrée sur le réseau en démontrant que les goulots d'étranglement de la performance résident souvent dans les facteurs hôtes et logiciels, et propose le modèle conceptuel du « Drainage Basin Pattern » pour optimiser le mouvement de données de bout en bout au-delà de la simple bande passante brute.

Chin Fang, Timothy Stitt, Michael J. McManus, Toshio MoriyaMon, 09 Ma💻 cs

The Compute ICE-AGE: Invariant Compute Envelope under Addressable Graph Evolution

Ce papier présente les résultats empiriques d'une implémentation C++ d'un substrat d'état sémantique déterministe, appelé Compute ICE-AGE, qui démontre une latence de traversal invariante et une absence de corrélation thermique lors de l'évolution d'un graphe de mémoire adressable, prouvant ainsi que l'efficacité computationnelle est limitée par la capacité mémoire plutôt que par le volume de données.

Raymond Jay Martin IIMon, 09 Ma🤖 cs.AI