Nezha: A Key-Value Separated Distributed Store with Optimized Raft Integration
本文提出了 Nezha 系统,通过创新性地结合键值分离架构与 Raft 共识协议,优化了持久化策略并引入分级垃圾回收机制,有效解决了传统一致存储中因重叠 I/O 操作导致的性能瓶颈,显著提升了读写吞吐量。
131 篇论文
本文提出了 Nezha 系统,通过创新性地结合键值分离架构与 Raft 共识协议,优化了持久化策略并引入分级垃圾回收机制,有效解决了传统一致存储中因重叠 I/O 操作导致的性能瓶颈,显著提升了读写吞吐量。
本文提出了一种基于云 - 边 - 端分层架构和网络功能虚拟化技术的分层观察 - 调整 - 决策 - 行动(H-OODA)框架,旨在通过融合自主决策与协同控制,提升无人机群在不确定环境下的适应性、可扩展性及决策效率。
本文提出了 PIM-SHERPA,一种纯软件方法,通过解决存内计算(PIM)系统中预填充与解码阶段存在的内存属性不一致及权重布局不一致问题,实现了在 Llama 3.2 模型上以接近理论最大性能运行,同时节省约 47.8% 至 49.7% 的内存容量。
本文提出了 Flash-KMeans,一种专为现代 GPU 设计的 IO 感知且无争用的 K-Means 实现,通过引入 FlashAssign 和 sort-inverse update 等内核级创新,成功将 K-Means 从离线处理转变为高效的在线原语,在 NVIDIA H200 上实现了远超现有库(如 cuML 和 FAISS)的显著加速。
该论文提出了一种基于 XLA 编译器的 Mamba-2 状态空间模型实现方案,通过仅使用标准算子而非定制 CUDA 内核,在 CPU、NVIDIA GPU 和 Google TPU 上实现了可移植的 自回归缓存推理,并达到了与 PyTorch/CUDA 参考实现一致的精度和显著的性能。
本文通过详细案例研究,展示了由异构 XRootD 虚拟机集群、BBR 拥塞控制算法及 TCP 扩展技术构成的 T2_BR_SPRACE 存储前端架构,在真实生产负载下成功实现了高达 51.3 Gb/s 的聚合吞吐量及单流 41.5 Gb/s 的传输峰值性能。
该论文提出了随机化分布式函数计算(RDFC)框架,将其作为一种语义通信范式,证明了在无需共享随机性的情况下即可实现本地差分隐私,并揭示了共享随机性可显著降低通信速率,使其成为隐私感知分布式系统的高效策略。
本文提出了名为 SparseLoom 的演示系统,通过无需重训练的模型拼接技术从稀疏模型中生成变体,从而在边缘 SoC 上实现多 DNN 推理,显著降低了服务等级目标违规率并提升了吞吐量与内存效率。
本文提出了一种基于数据新鲜度约束的任务调度框架,通过引入任务偏移量实现数据生产的准时制(JIT)同步,并借助主导路径分解与共识偏移搜索算法,在消除冗余采样和人为延迟的同时,确保了多速率任务链的端到端数据新鲜度并维持了全局 EDF 的 100% 可调度性。
本文针对科学计算中广泛使用的基于分块架构的有损压缩器,建立了一个适用于有限格点上非均匀随机场的有限块长率失真理论框架,推导了非渐近界并量化了空间相关性、区域几何、异质性及分块尺寸对压缩率与分散度的影响。
该论文提出了一种名为“能力一致性系统”(CCS)的新框架,通过将内存一致性模型(如 MESI)映射到身份授权场景,证明了基于发布一致性(RCC)的撤销策略在高速代理执行环境中能将未授权操作数量从时间依赖的线性增长降低至与代理速度无关的常数级,从而在根本上解决了传统基于时间窗口的访问控制机制在大规模并发下的安全性失效问题。
本文针对分布式计算中服务器独立以概率 发生延迟的通用编码计算场景,理论证明了 BACC 和 LeTCC 两种方案的平均近似误差均能以特定速率收敛至零,并通过实验验证了该结论在包括深度神经网络在内的多种任务中的有效性。
本文介绍了 EROICA,这是首个面向大规模模型训练的在线性能故障诊断系统,它通过在线剖析和差异可观测性技术,在几乎不影响生产环境的前提下,实现了对涵盖约 10 万张 GPU 集群中软硬件混合故障的细粒度、全覆盖诊断,并在实际部署中取得了 97.5% 的成功率。
本文针对现实场景中数据与模型异构的挑战,提出了任务相关性感知的聚合策略及维度不变模块 Co-LoRA,并构建了涵盖 40 个任务的多模态基准,显著提升了个性化联邦学习在异构环境下的性能。
本文提出了名为 NANOMIND 的软硬件协同设计框架,通过将大型多模态模型模块化并动态调度至异构加速器,在电池供电的小型设备上实现了无需联网的高效、低功耗本地推理,显著降低了能耗与显存占用。
该论文主张在经典 - 量子计算系统的集成设计中,应将韧性视为先验约束而非事后补救,并呼吁建立定量的韧性模型与指标,借鉴土木工程方法以评估混合架构的可靠性、量化漏洞传播后果并优化系统改进的成本效益比。
本文提出了 NEST,一种结合结构化动态规划的网络、计算与内存感知设备放置框架,通过统一建模并行策略、网络拓扑及内存约束,显著提升了分布式深度学习训练的吞吐量、内存效率与可扩展性。
本文提出了一种基于配置的运行时编排框架,通过请求时动态生成执行图并实现依赖感知的并行调度,解决了分布式系统中因工作流预定义而导致的集成灵活性不足问题,从而在无需重新部署代码的情况下实现了高效、低延迟的动态数据检索。
本文介绍了 AIReSim,一款专为大规模 AI 集群设计的离散事件模拟器,旨在通过系统性地评估故障、恢复、调度及修复过程中的各种参数配置,帮助设计者优化系统可靠性、确定关键改进点并支持容量规划等“假设分析”场景。
Uber 提出的故障转移架构(UFA)通过根据业务关键性区分服务并引入非关键服务的抢占机制,将稳态资源配比从 2 倍降至 1.3 倍,在消除超过一百万个 CPU 核心的同时,将利用率提升至约 30% 并维持了 99.97% 的高可用性。