Unlocking Python's Cores: Hardware Usage and Energy Implications of Removing the GIL
该研究评估了 Python 3.14.2 无 GIL 实验构建版的性能,发现其虽能通过有效利用多核将独立并行任务的执行时间和能耗降低至四分之一,但会导致内存占用增加,且对顺序任务或存在锁竞争的场景反而会造成能耗上升和性能退化,表明开发者需根据具体工作负载特性谨慎选择是否启用该功能。
138 篇论文
该研究评估了 Python 3.14.2 无 GIL 实验构建版的性能,发现其虽能通过有效利用多核将独立并行任务的执行时间和能耗降低至四分之一,但会导致内存占用增加,且对顺序任务或存在锁竞争的场景反而会造成能耗上升和性能退化,表明开发者需根据具体工作负载特性谨慎选择是否启用该功能。
本文作为《语义时间箭头》系列的第四篇,论证了因缺乏必要的“反射阶段”而导致“前向即完成”(FITO)范畴错误,进而使得文件同步、电子邮件及记忆等日常系统在处理分布式因果时发生语义崩溃,并指出唯有将信息的前向流动与意义构建区分开来,才能解决这一跨领域的结构性缺陷。
本文作为“语义时间箭头”系列的终章,通过构建连接哲学、协议工程与物理基础的“莱布尼茨之桥”,提出以互信息守恒为核心的统一框架,揭示了时间方向源于可逆交换向熵增承诺的转化,并证明经典分布式共识难题实为“FITO"(仅向前时间流)假设的产物而非物理定律的局限。
本文提出了 FluxSieve 架构,通过在数据摄入路径中嵌入轻量级流内预计算与过滤层,统一了流式与分析数据平面,从而在几乎不增加存储和计算开销的前提下,显著提升了大规模云可观测性平台在高并发场景下的查询性能。
本文提出了 PromptTuner,一种通过引入 Prompt Bank 加速收敛和 Workload Scheduler 优化资源调度的 SLO 感知弹性系统,旨在显著降低大模型提示微调任务中的 SLO 违规率并减少资源成本。
本文针对具有共享随机性的匿名网络中的选举问题,通过结合拉斯维加斯和蒙特卡洛算法,全面刻画了任意结构知识下随机选举算法存在的充要条件,并系统分析了从无知识到全拓扑知识等多种具体场景下的可解性。
本文提出了一种基于边缘 - 云架构的 AI 驱动智能交通系统,通过结合 Jetson Orin 边缘加速、时空图神经网络预测及持续联邦学习,实现了在严格资源限制下对大规模城市摄像头网络(高达 2000 FPS 或 1000 路视频流)的实时交通流分析与动态调度。
本文介绍了一种面向分布式云环境的监控系统,该系统通过节点代理采集多层级指标,经健康检查协议传输至控制平面进行持久化存储、聚合分析及多 API(含流式接口)服务,从而为分布式云提供关键的可观测性支持。
本文通过基准测试评估了 FleCSI 框架在 MPI、Legion 和 HPX 三种后端上的性能,发现尽管 Legion 存在扩展性限制,但 HPX 后端在计算密集型辐射流体动力学应用中展现出优于 MPI 的速度提升,而在通信密集型任务中 MPI 仍保持最高效率。
本文提出了一种基于预测的多时间域优化方法,通过根据电网碳强度动态调整高能耗服务(如生成式 AI)的响应质量等级,在满足特定位置可用性约束的前提下,显著降低了大规模服务的年度碳排放。
该论文提出了“数据中心执行保证(DCEA)”方案,通过将机密虚拟机的 TEE 证明与平台级 TPM 证据进行密码学绑定,生成“云证明”以填补现有机制无法验证代码运行物理位置的空白,从而有效防止代理攻击并为隐私敏感工作负载提供可验证的执行位置保障。
OSGym 是一款专为计算机使用智能体设计的可扩展分布式数据引擎,它能够在学术预算内高效并行运行上千个操作系统实例,以低成本、高通用性和灵活定制性支持大规模数据采集与模型训练。
本文探讨了利用多体纠缠资源(如 GHZ 态)实现分布式扇出操作,并结合四维量子位(qudits)来高效执行在分布式量子计算中极具挑战性的全局门(如全局 Mølmer-Sørensen 门),从而为量子电路编译和量子数据中心设计提供新思路。
本文通过对 OpenRCA 基准测试中 1,675 次 LLM 代理运行进行过程级故障分析,构建了包含 12 类陷阱的故障分类体系,揭示了当前云根因分析代理失败主要源于共享架构缺陷而非模型能力不足,并证明仅靠提示工程无法解决核心问题,而优化代理间通信协议可显著降低相关故障率。
本文提出了 SENTINEL 机制,通过轻量级的动量监控与指数移动平均技术,在不增加计算冗余的情况下,有效解决了流水线并行分布式训练在不可信节点环境下面临的拜占庭容错挑战,并实现了大规模语言模型的成功训练与理论收敛保证。
本文提出了一种基于束搜索的时间感知启发式算法,通过增量构建低通信开销的量子比特分配序列,高效解决了分布式量子计算中的电路划分问题,显著降低了通信成本并优于静态基线方法。
PTOPOFL 提出了一种利用持久同调生成的 48 维拓扑特征向量替代梯度进行通信的隐私保护个性化联邦学习框架,通过拓扑引导的聚合策略在显著降低数据重构风险的同时,有效解决了非独立同分布数据下的模型聚合难题并实现了最优性能。
本文提出了一种通过融合前向和后向路径中的量子门来加速量子机器学习经典模拟的方法,显著提高了吞吐量并降低了内存消耗,使得在消费级 GPU 上训练大规模量子模型成为可能。