cs.OS articles | Gist.Science

The Missing Memory Hierarchy: Demand Paging for LLM Context Windows

Ce papier présente Pichay, un système de pagination à la demande transparent pour les fenêtres de contexte des LLM qui, en appliquant des principes de hiérarchie mémoire virtuel, réduit drastiquement la consommation de contexte en évitant le gaspillage de tokens et en gérant dynamiquement les données obsolètes.

Tony MasonWed, 11 Ma🤖 cs.AI

FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation

Ce papier présente FlexServe, un système de service LLM rapide et sécurisé pour les appareils mobiles qui surmonte les limitations d'ARM TrustZone grâce à une isolation flexible des ressources (mémoire et NPU), permettant d'accélérer considérablement l'inférence et les flux de travail multi-modèles tout en protégeant les données sensibles.

Yinpeng Wu, Yitong Chen, Lixiang Wang, Jinyu Gu, Zhichao Hua, Yubin XiaWed, 11 Ma🤖 cs.LG

Ensuring Data Freshness in Multi-Rate Task Chains Scheduling

Cet article propose un cadre d'ordonnancement basé sur des contraintes de fraîcheur des données, utilisant un algorithme de recherche d'offsets de consensus pour synchroniser les tâches en flux Juste-À-Temps et garantir la fraîcheur des données dans les systèmes critiques sans la latération artificielle du paradigme LET ni le gaspillage de ressources dû au sur-échantillonnage.

José Luis Conradi Hoffmann, Antônio Augusto FröhlichWed, 11 Ma💻 cs

EROICA: Online Performance Troubleshooting for Large-scale Model Training

Ce papier présente EROICA, le premier système de débogage en ligne capable de diagnostiquer avec un impact minimal les problèmes de performance matériels et logiciels dans les clusters de GPU à grande échelle utilisés pour l'entraînement de modèles massifs.

Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Kun Qian, Tianyin Xu, Pengcheng Zhang, Yang Zhang, Hanyu Zhao, Yong Li, Wei Lin, Dennis Cai, Ennan ZhaiTue, 10 Ma🤖 cs.LG

Improved Leakage Abuse Attacks in Searchable Symmetric Encryption with eBPF Monitoring

Cet article démontre que la surveillance système via eBPF révèle de nouvelles fuites d'information dans les schémas de chiffrement symétrique searchable (SSE), permettant d'améliorer les attaques par abus de fuite et soulignant la nécessité d'intégrer ces vecteurs d'attaque dans les modèles de défense théoriques.

Chinecherem DimobiTue, 10 Ma💻 cs

Mitigating the Memory Bottleneck with Machine Learning-Driven and Data-Aware Microarchitectural Techniques

Cette thèse propose de surmonter le goulot d'étranglement de la mémoire en faisant évoluer la conception microarchitecturale d'une approche agnostique des données vers une approche informée par les données, en utilisant des techniques d'apprentissage automatique et l'exploitation des caractéristiques sémantiques pour optimiser significativement les performances et l'efficacité énergétique.

Rahul BeraTue, 10 Ma🤖 cs.LG

Structured Gossip: A Partition-Resilient DNS for Internet-Scale Dynamic Networks

Ce papier présente le DNS Structured Gossip, une solution résiliente aux partitions pour les réseaux dynamiques à l'échelle d'Internet qui utilise la stabilisation passive et des vecteurs de version pour garantir une cohérence éventuelle avec une complexité de message réduite, éliminant ainsi le besoin de coordination globale.

Priyanka Sinha, Dilys ThomasTue, 10 Ma💻 cs

Trust Nothing: RTOS Security without Run-Time Software TCB (Extended Version)

Cet article présente une architecture de capacité novatrice et une implémentation FPGA d'un système d'exploitation temps réel (basé sur Zephyr) qui élimine la nécessité d'un noyau logiciel de confiance à l'exécution en isolant strictement tous les composants logiciels et périphériques, même sur du matériel hérité.

Eric Ackermann, Sven BugielTue, 10 Ma💻 cs

ThunderAgent: A Simple, Fast and Program-Aware Agentic Inference System

Le papier présente ThunderAgent, un système d'inférence agentielle simple et rapide qui optimise les performances et l'utilisation des ressources en traitant les flux de travail comme des programmes unifiés pour mieux gérer le cache KV et les environnements d'exécution des outils.

Hao Kang, Ziyang Li, Xinyu Yang, Weili Xu, Yinfang Chen, Junxiong Wang, Beidi Chen, Tushar Krishna, Chenfeng Xu, Simran AroraThu, 12 Ma💻 cs

Reexamining Paradigms of End-to-End Data Movement

En s'appuyant sur des déploiements à l'échelle de la production, cette étude remet en cause la vision centrée sur le réseau en démontrant que les goulots d'étranglement de la performance résident souvent dans les facteurs hôtes et logiciels, et propose le modèle conceptuel du « Drainage Basin Pattern » pour optimiser le mouvement de données de bout en bout au-delà de la simple bande passante brute.

Chin Fang, Timothy Stitt, Michael J. McManus, Toshio MoriyaMon, 09 Ma💻 cs

The Compute ICE-AGE: Invariant Compute Envelope under Addressable Graph Evolution

Ce papier présente les résultats empiriques d'une implémentation C++ d'un substrat d'état sémantique déterministe, appelé Compute ICE-AGE, qui démontre une latence de traversal invariante et une absence de corrélation thermique lors de l'évolution d'un graphe de mémoire adressable, prouvant ainsi que l'efficacité computationnelle est limitée par la capacité mémoire plutôt que par le volume de données.

Raymond Jay Martin IIMon, 09 Ma🤖 cs.AI