The Missing Memory Hierarchy: Demand Paging for LLM Context Windows
本文提出了名为 Pichay 的 LLM 上下文窗口按需分页系统,通过将计算机存储层级理论(如虚拟内存和缺页中断)引入大语言模型,实现了对上下文内容的透明驱逐与按需加载,从而在保持极低故障率的同时将生产环境中的上下文消耗降低了高达 93%。
11 篇论文
本文提出了名为 Pichay 的 LLM 上下文窗口按需分页系统,通过将计算机存储层级理论(如虚拟内存和缺页中断)引入大语言模型,实现了对上下文内容的透明驱逐与按需加载,从而在保持极低故障率的同时将生产环境中的上下文消耗降低了高达 93%。
FlexServe 是一种专为移动设备设计的快速安全 LLM 服务系统,通过引入灵活的资源隔离机制(Flex-Mem 和 Flex-NPU)实现内存与 NPU 在保护模式与未保护模式间的高效切换,并结合 LLM 感知的内存管理、安全推理流水线及多模型调度器,在 ARM TrustZone 环境下显著提升了推理速度与多模型工作流的执行效率。
本文提出了一种基于数据新鲜度约束的任务调度框架,通过引入任务偏移量实现数据生产的准时制(JIT)同步,并借助主导路径分解与共识偏移搜索算法,在消除冗余采样和人为延迟的同时,确保了多速率任务链的端到端数据新鲜度并维持了全局 EDF 的 100% 可调度性。
本文介绍了 EROICA,这是首个面向大规模模型训练的在线性能故障诊断系统,它通过在线剖析和差异可观测性技术,在几乎不影响生产环境的前提下,实现了对涵盖约 10 万张 GPU 集群中软硬件混合故障的细粒度、全覆盖诊断,并在实际部署中取得了 97.5% 的成功率。
本文提出利用 eBPF 系统级监控技术,揭示了传统可搜索对称加密(SSE)威胁模型中未被涵盖的新型泄漏模式,并证明了这些底层系统行为信息可被用于增强现有的泄漏滥用攻击,从而强调了在 SSE 防御设计中必须考虑系统级暴露风险。
该论文针对现代计算系统中日益严重的内存瓶颈问题,主张将微架构设计从数据无关转向数据驱动和数据感知,通过提出四种结合轻量级机器学习与数据语义特征的机制(如强化学习预取器和感知器预测器),显著提升了系统的性能与能效。
本文提出了一种名为“结构化 gossip"的 DNS 方案,通过利用 DHT 手指表实现被动稳定化,在无需全局协调的情况下,将消息复杂度从降低至,从而有效解决了移动自组织网络和边缘计算中网络分区带来的分布式名称解析挑战。
本文提出了一种结合令牌能力架构与 FPGA 实现的新型方案,通过将 Zephyr 实时操作系统的所有运行时组件(包括调度器、分配器和 DMA 驱动)及外设完全去信任化,成功构建了无需运行时软件可信计算基(TCB)且无需修改外设硬件的安全嵌入式系统。
本文提出了 ThunderAgent,一种简单、快速且具备程序感知能力的智能体推理系统,它通过将智能体工作流抽象为 LLM 程序来统一调度异构资源,从而显著提升了 KV 缓存命中率、缓解了内存不平衡问题,并在吞吐量、RL rollout 效率及磁盘内存节省方面大幅超越了现有最先进系统。
本文通过提出“排水盆地模式”概念模型,结合从 10 Gbps 到 100 Gbps 的规模化生产部署验证,揭示了端到端数据传输的瓶颈往往位于网络核心之外,强调需通过软硬件协同设计来突破单纯依赖网络带宽的局限,以实现可预测的高性能数据移动。
该论文展示了基于确定性语义状态基底的 C++ 生产级实现,通过局部状态演化机制在 Apple M2 芯片上实现了不随节点规模(100 万至 2500 万)而增长的恒定延迟与极低能耗,证明了“计算冰河时代”(ICE-AGE)在仅受内存容量限制而非推理重计算成本约束下的可扩展性。