想象一下你是一名正在试图破解巨大谜团的侦探。你面前堆着数百万个线索（数据点），你需要找出创造这些线索的复杂机器（参数）的确切设置。在粒子物理学领域，这被称为“无分箱极大似然拟合（unbinned maximum likelihood fit）”。

基本上，你是在寻找一个“甜点”（最佳平衡点），让你的数学模型与现实世界的数据完美匹配。问题在于，面对数百万个线索和数百个需要调节的旋钮，这种计算过程极其缓慢，并且非常消耗计算机性能。

于是，MoreFit 登场了。你可以把 MoreFit 想象成一个超级聪明、高速运转的助手，专门设计用于比旧工具更快、更高效地解决这些谜团。

以下是它的工作原理，通过简单的概念进行拆解：

1. “乐高蓝图”（计算图）

传统的软件通常通过为每一个步骤编写冗长且僵化的指令来计算这些谜团。然而，MoreFit 构建的是一个**“计算图（Computation Graph）”**。

想象一下乐高的蓝图。蓝图不仅仅是列出每一块积木，还展示了积木是如何连接的。MoreFit 绘制了这个数学问题的地图。因为拥有了整张地图，它能够洞察全局，并发现人类或僵化程序可能会忽略的低效之处。

2. “自动优化器”（即时编译）

一旦拥有了蓝图，MoreFit 不仅仅是运行指令，它还会根据情况实时重写指令，使其尽可能快。这被称为“即时编译（Just-in-Time compilation）”。

这就像一位厨师在为一大群人准备餐点之前，先看了一眼食谱，然后意识到：“嘿，我每做一道菜都要切一次洋葱。与其为每盘菜都现切一次，不如我先切一大份备用。”

旧方法： 为每一个事件都切一次洋葱（慢）。
MoreFit 的方法： 意识到某些数学部分在不同事件之间是不变的，因此只需计算一次并重复使用结果。这节省了大量时间。

3. “超级团队”（并行处理与异构架构）

旧的方法就像是一个人试图一个接一个地分拣一百万张卡片。MoreFit 意识到分拣卡片是一项“极易并行化（embarrassingly parallel）”的任务——这意味着每个人都可以同时处理一部分，而不会互相干扰。

MoreFit 被设计为可以与混合型计算机团队协作：

GPU（显卡）： 它们就像一群蜜蜂，能够同时执行成千上千个微小的任务。MoreFit 使用开放标准（OpenCL），因此它可以与任何品牌的 GPU 通信，而不局限于特定品牌。
CPU（处理器）： 它们就像一支由高技能专家组成的团队。MoreFit 也可以使用它们，通过组织它们进行完美的同步（向量化）来提高速度。

4. “神奇捷径”（符号微分）

为了找到完美的解决方案，计算机需要知道应该如何转动旋钮才能更接近答案。通常情况下，它必须通过猜测和尝试，这很慢。
MoreFit 使用符号微分（symbolic differentiation）。它不是靠猜，而是利用数学规则写下精确的移动方向。这就像拥有一个 GPS，它能告诉你确切的路线，而不是让司机盲目驾驶寻找正确的街道。这使得“拟合”过程能在短短几次迭代中就收敛（找到答案），而不是经过数百次。

5. “伪实验”工厂（伪实验生成）

在信任侦探的结论之前，你通常想通过创建虚假的犯罪现场并观察他们是否能破解，来测试其方法是否有效。在物理学中，这被称为生成“伪实验（pseudo-experiments）”。
MoreFit 在这方面也极其迅速。因为它完美掌握了游戏规则，它可以比其他工具更快地生成这些虚拟场景，从而让科学家能够运行数千次测试，以确保他们的结果是可靠的。

结果：与时间的赛跑

作者使用两种类型的谜题，将 MoreFit 与另外两个著名的工具（RooFit 和 zfit）进行了对比测试：

简单的质量拟合： 就像测量物体的重量。
复杂的角分布拟合： 就像确定一个旋转物体在三维空间中的旋转状态。

结论：

在处理大量数据时，MoreFit 通常比竞争对手快 10 到 50 倍。
在标准计算机处理器上，它比旧方法显著更快。
在强大的显卡（GPU）上，它几乎比领先的竞争对手快了一个数量级（10 倍）。

总结

MoreFit 是一个将数据拟合视为一个组织有序的建筑工程的新工具。通过绘制智能蓝图、重写指令以消除浪费，并使用大规模的工人团队（GPU 和 CPU）同时作业，它能以极短的时间解决复杂的物理问题。这使得科学家能够以更少的等待时间和更低的能耗，开展更多的科学研究。

技术摘要：MoreFit —— 更优化、更快速且更高效的拟合

问题陈述

通过非分箱最大似然拟合进行参数估计是粒子物理学的基石，它提供了保留完整信息而不产生分箱相关损失的优势。然而，现代实验正在产生前所未有的数据量（通常为 $O(10^6)$ 个事件），需要确定复杂的参数集（通常 $>100$ 个参数）。此外，严格的统计验证，例如使用伪实验进行覆盖率校正（例如 Feldman-Cousins 方法），要求每个参数进行 $O(10^5)$ 次或更多的拟合。这些计算需求使得传统的拟合框架变得既耗时又耗能，因此需要一种能够高效利用异构架构并行性的解决方案。

方法论

MoreFit 是一个专门为非分箱最大似然拟合设计的 C++ 拟合框架，优先考虑并行性和自动优化。其核心策略依赖于计算图，这些计算图被即时编译（JIT）以生成针对特定硬件后端的执行内核。

核心架构

计算图： 概率密度函数（PDF）被表示为包含基本运算、函数、变量和常数的树状结构计算图。这种结构有助于：
- 符号微分： 框架自动应用链式法则来计算解析梯度和海森矩阵（二阶导数），这对于最小化和不确定性估计至关重要。
- 自动优化： 通过分析图来识别并优化冗余计算。
计算后端： MoreFit 利用开放标准来支持异构平台：
- OpenCL 后端： 默认用于 GPU，支持所有主要厂商。它生成用于似然评估、梯度/海森计算以及事件生成的 OpenCL C 内核。它在加速器上采用 Kahan 求和法，以最大限度地减少主机与设备之间的数据传输开销。
- LLVM/Clang 后端： 专为 CPU 设计，该后端通过 JIT 编译 C 内核。它支持单指令多数据（SIMD）向量化，并通过线程池策略实现多线程执行，以避免线程创建的开销。

自动优化技术

MoreFit 采用了几种应用于计算图的新颖自动优化策略：

参数依赖项缓存： 识别似然函数中仅依赖于参数（例如归一化积分）而不依赖于特定事件数据的项，在每次参数更新时在主机上计算一次并进行缓冲。这些缓冲值作为常量传递给计算内核，显著降低了内核的复杂度。
事件依赖项预计算： 对于仅依赖于事件变量（例如衰变分析中的角度项）的项，框架可以在单独的内核步骤中预计算这些值。由此产生的高维数据随后被用于简化的似然内核，从而避免在最小化循环期间重复评估复杂的表达式。
伪实验生成优化： 在生成伪数据期间，所有参数都是固定的。MoreFit 将参数依赖项视为常量，极大地简化了生成图。它支持在加速器上进行生成，使用伪随机数生成器（如 Xoshiro128++），以最大限度地减少主机与设备之间的传输。

核心贡献

框架引入： 提出了 MoreFit，这是一个轻量级、最小依赖的 C++ 库，不依赖于 TensorFlow 或 ROOT（尽管可以实现与 ROOT 的兼容性）。
JIT 编译与图优化： 一种新颖的方法，计算图在 JIT 编译前会被自动分析和优化，从而在无需用户干预的情况下实现显著的性能提升。
异构支持： 一个用于在 GPU（通过 OpenCL）和 CPU（通过带有 SIMD 的 LLVM/Clang）上执行的统一接口，确保了广泛的硬件兼容性。
解析导数： 提供通过符号微分推导出的解析梯度和海森矩阵，与数值微分相比，这提高了收敛速度。

结果

论文将 MoreFit (v0.1) 与使用 AMD 7950X3D CPU 和 NVIDIA Titan V GPU 的 RooFit (v6.32.08) 及 zfit (v0.24.2) 进行了基准测试。测试了两种场景：1D 质量拟合（4 个参数）和多维角度拟合（8 个参数）。

性能增益：
- 质量拟合： 在使用 16 个线程的 CPU 上，在高统计量（ $N=10^6$ ）下，使用解析导数的 MoreFit 比 RooFit 的 SIMD 后端快达 2.4 倍。在 GPU 上，在高统计量下，MoreFit 比 RooFit 的 CUDA 实现快近一个数量级。
- 角度拟合： 在低统计量下，MoreFit 在单个 CPU 线程上的速度比 RooFit 的 SIMD 后端快 6.6 倍；在中/高统计量下，增速提升至 ~11 倍。在 GPU 上，根据数据集大小的不同，MoreFit 的表现优于 zfit 32–48 倍。
解析导数的影响： 使用解析导数显著减少了最小化迭代次数（质量拟合从 ~85 次降至 2–3 次；角度拟合从 ~200 次降至 2–3 次），从而实现了显著的加速，特别是在 GPU 上，这减少了内核提交的开销。
可扩展性： More-Fit 在 CPU 上随线程数扩展良好，在高统计量下使用 16 个线程时，相比单线程可实现高达一个数量级的加速。

重要性与展望

论文声称，MoreFit 展示了使用自动优化的计算图进行参数拟合的力量，实现了比现有框架高出一个数量级甚至更多的性能提升。其重要性在于使计算密集型的统计技术（如覆盖率校正）变得可行且可持续。通过依赖开放、与供应商无关的标准，MoreFit 旨在实现跨多种硬件的广泛使用。

作者承认 MoreFit 仍处于早期开发阶段。目前的局限性包括内置 PDF 库较小以及缺乏对分箱拟合的支持。未来的工作将集中在扩展 PDF 库、实现高效的通用型接受度校正以及探索分箱拟合能力。论文总结道，在非分箱最大似然拟合方面，仍存在提高速度和效率的巨大潜力，这将有助于实现粒子物理计算资源的更可持续利用。

MoreFit: A More Optimised, Rapid and Efficient Fit