MoreFit: A More Optimised, Rapid and Efficient Fit

당신이 거대한 미스터리를 풀려는 탐정이라고 상상해 보십시오. 당신은 수백만 개의 단서(데이터 포인트)가 쌓인 더미를 가지고 있으며, 이 단서들을 만들어낸 복잡한 기계의 정확한 설정값(파라미터)을 알아내야 합니다. 입자 물리학의 세계에서는 이를 **"언빈드 최대 우도 적합(unbinned maximum likelihood fit)"**이라고 부릅니다.

기본적으로, 당신은 수학적 모델이 실제 세상의 데이터와 완벽하게 일치하는 "최적의 지점(sweet spot)"을 찾으려고 노력하는 중입니다. 문제는 수백 개의 조절 나사와 수백만 개의 단서를 다루다 보니, 이 계산이 믿기지 않을 정도로 느리고 엄청난 컴퓨터 자원을 잡아먹는다는 점입니다.

여기에 MoreFit이 등장합니다. MoreFit은 기존의 도구들보다 더 빠르고 효율적으로 이 미스터리들을 해결하기 위해 설계된, 아주 똑똑하고 빠른 조수라고 생각하면 됩니다.

MoreFit이 어떻게 작동하는지, 쉬운 개념들로 나누어 설명해 드리겠습니다.

1. "레고 설계도" (연산 그래프 - Computation Graphs)

전통적인 소프트웨어는 종종 모든 단계에 대해 길고 경직된 지침을 작성하여 이 미스터리들을 계산합니다. 하지만 MoreFit은 **"연산 그래프"**를 구축합니다.

레고 설계도를 상상해 보세요. 단순히 모든 브릭의 목록을 나열하는 대신, 설계도는 브릭들이 어떻게 연결되는지를 보여줍니다. MoreFit은 이 수학 문제의 지도를 그립니다. 전체 지도를 가지고 있기 때문에, 인간이나 경직된 프로그램이 놓칠 수 있는 비효율적인 부분을 포착하여 큰 그림을 볼 수 있습니다.

2. "자동 최적화 도구" (Just-in-Time 컴파일 - Auto-Optimizer)

설계도를 완성하면, MoreFit은 단순히 지침을 실행하는 데 그치지 않고, 최대한 빠르게 작동하도록 지침을 실시간으로 다시 작성합니다. 이것을 "Just-in-Time 컴파일"이라고 합니다.

이는 마치 많은 인파를 위해 요리하기 전, 레시피를 보고 "아, 나는 모든 접시마다 양파를 썰어야 하네. 매번 새로 써는 대신, 한꺼번에 왕창 썰어두고 바로 쓸 수 있게 준비해야겠다"라고 깨닫는 요리사와 같습니다.

기존 방식: 매 이벤트마다 양파를 새로 썹니다 (느림).
MoreFit 방식: 수학의 어떤 부분들이 이벤트마다 변하지 않는지 파악하여, 한 번만 계산하고 그 결과를 재사용합니다. 이는 엄청난 시간 절약을 가져옵니다.

3. "슈퍼 팀" (병렬 처리 및 이기종 아키텍처 - Parallelism & Heterogeneous Architectures)

기존의 방식은 한 사람이 백만 장의 카드를 하나씩 분류하는 것과 같았습니다. MoreFit은 카드를 분류하는 일이 "엄청나게 병렬적인(embarrassingly parallel)" 작업, 즉 서로 방해받지 않고 동시에 각자의 몫을 수행할 수 있는 작업이라는 것을 알고 있습니다.

MoreFit은 혼합 팀의 컴퓨터들과 함께 작동하도록 설계되었습니다:

GPU (그래픽 카드): 이들은 수천 개의 작은 작업을 동시에 수행할 수 있는 벌 떼와 같습니다. MoreFit은 특정 브랜드에 국한되지 않고 어떤 브랜드의 GPU와도 대화할 수 있도록 개방형 표준(OpenCL)을 사용합니다.
CPU (프로세서): 이들은 숙련된 전문가 팀과 같습니다. MoreFit은 또한 CPU를 활용하여 이들이 완벽하게 동기화(벡터화)되어 작동하도록 조직하여 속도를 높입니다.

4. "마법의 지름길" (기호 미분 - Symbolic Differentiation)

완벽한 해답을 찾기 위해, 컴퓨터는 조절 나사를 어느 방향으로 돌려야 정답에 가까워질지 알아야 합니다. 보통은 추측하고 확인하는 과정을 거치는데, 이는 매우 느립니다.
MoreFit은 기호 미분을 사용합니다. 단순히 추측하는 대신, 수학적 규칙을 사용하여 가야 할 정확한 방향을 써 내려갑니다. 이는 마치 누군가 길을 찾으려고 눈을 가린 채 헤매는 것이 아니라, 정확한 경로를 알려주는 GPS를 가진 것과 같습니다. 이 덕분에 "적합(fitting)" 과정이 수백 번의 시행착오 대신 단 몇 단계 만에 수렴(정답을 찾음)할 수 있습니다.

5. "가짜 데이터" 공장 (의사 실험 - Pseudo-experiments)

탐정의 결론을 신뢰하기 전에, 우리는 흔히 가짜 범죄 현장을 만들어 그 방법이 제대로 작동하는지 테스트합니다. 물리학에서는 이를 "의사 실험(pseudo-experiments)"을 생성한다고 합니다.
MoreFit은 이 작업에서도 놀라울 정도로 빠릅니다. 게임의 규칙을 완벽하게 이해하고 있기 때문에, 다른 도구들보다 훨씬 빠르게 가짜 시나리오를 생성할 수 있으며, 이를 통해 과학자들은 결과의 신뢰성을 확보하기 위해 수천 번의 테스트를 수행할 수 있습니다.

결과: 시간과의 싸움

저자는 두 가지 유형의 퍼즐을 사용하여 MoreFit을 두 개의 유명한 도구(RooFit 및 zfit)와 비교 테스트했습니다:

단순 질량 적합 (Simple mass fit): 물체의 무게를 찾는 것과 같습니다.
복잡한 각도 적합 (Complex angular fit): 회전하는 물체의 3D 회전 상태를 파악하는 것과 같습니다.

결론:

MoreFit은 특히 대량의 데이터를 다룰 때 경쟁 도구들보다 10배에서 50배 더 빠른 경우가 많았습니다.
표준 컴퓨터 프로세서에서도 기존 방식보다 현저히 빨랐습니다.
강력한 그래픽 카드(GPU) 상에서, 선두 경쟁자보다 거의 10배(an order of magnitude) 더 빨랐습니다.

요약

MoreFit은 데이터 적합을 잘 조직된 건설 프로젝트처럼 다루는 새로운 도구입니다. 스마트한 설계도를 그리고, 낭비를 제거하기 위해 지침을 다시 작성하며, 거대한 팀(GPU 및 CPU)을 동시에 활용함으로써, 복잡한 물리학 문제를 예전보다 훨씬 짧은 시간에 해결합니다. 이를 통해 과학자들은 기다리는 시간과 에너지 소비를 줄이면서 더 많은 과학적 성과를 낼 수 있습니다.

기술 요약: MoreFit – 더욱 최적화되고 신속하며 효율적인 적합(Fit)

문제 정의

비빈(unbinned) 최대 우도 적합(maximum likelihood fits)을 통한 파라미터 추정은 입자 물리학의 초석으로, 빈(bin) 생성과 관련된 정보 손실 없이 전체 정보를 유지할 수 있다는 장점을 제공한다. 그러나 현대의 실험들은 전례 없는 규모의 데이터(종종 $O(10^6)$ 이벤트)를 생성하며, 복잡한 파라미터 세트(종종 $>100$ 개 파라미터)의 결정이 요구된다. 또한, 의사 실험(pseudo-experiments, 예: Feldman-Cousins 방법)을 이용한 커버리지 보정(coverage correction)과 같은 엄격한 통계적 검증은 파라미터당 $O(10^5)$ 회 이상의 적합을 수행할 것을 요구한다. 이러한 계산적 요구사항은 전통적인 적합 프레임워크를 시간 및 에너지 집약적으로 만들며, 이질적인 아키텍처 전반에 걸쳐 병렬성을 효율적으로 활용할 수 있는 솔루션을 필요로 한다.

방법론

MoreFit은 병렬성과 자동 최적화를 우선시하도록 설계된, 비빈 최대 우도 적합을 위한 특화된 C++ 적합 프레임워크이다. 이 프레임워크의 핵심 전략은 특정 하드웨어 백엔드에 대한 실행 커널을 생성하기 위해 Just-In-Time(JIT) 방식으로 컴파일되는 **계산 그래프(computation graphs)**에 기반한다.

핵심 아키텍처

계산 그래프: 확률 밀도 함수(PDF)는 기본 연산, 함수, 변수 및 상수를 포함하는 트리 구조의 계산 그래프로 표현된다. 이 구조는 다음과 같은 기능을 용이하게 한다:
- 기호 미분(Symbolic Differentiation): 프레임워크는 연쇄 법칙(chain rule)을 자동으로 적용하여 최소화(minimization) 및 불확실성 추정에 필요한 해석적 기울기(analytic gradients)와 헤시안 행렬(Hessian matrices, 2차 미분)을 계산한다.
- 자동 최적화: 그래프를 분석하여 중복 계산을 식별하고 최적화한다.
컴퓨트 백엔드: MoreFit은 이질적인 플랫폼을 타겟팅하기 위해 개방형 표준을 활용한다:
- OpenCL 백엔드: 모든 주요 벤더를 지원하는 GPU용 기본 백별이며, 우도 평가, 기울기/헤시안 계산 및 이벤트 생성을 위한 OpenCL C 커널을 생성한다. 호스트-장치 간 데이터 전송 오버헤드를 최소화하기 위해 가속기 상에서 카한 합산(Kahan summation)을 채택한다.
- LLVM/Clang 백엔드: CPU를 위해 설계되었으며, C 커널을 JIT 컴파일한다. 이는 단일 명령 다중 데이터(SIMD) 벡터화와 스레드 생성 오버헤드를 피하기 위한 스레드 풀링 전략을 통한 멀티스레드 실행을 지원한다.

자동 최적화 기법

MoreFit은 계산 그래프에 적용되는 몇 가지 혁신적인 자동 최적화 전략을 사용한다:

파라미터 의존 항 캐싱(Parameter-Dependent Term Caching): 특정 이벤트 데이터가 아닌 파라미터에만 의존하는 우도 함수의 항(예: 정규화 적분)을 식별하여, 파라미터 업데이트당 호스트에서 한 번만 계산하고 버퍼링한다. 이 버퍼링된 값들은 커널의 복잡성을 크게 줄이기 위해 상수로 전달된다.
이벤트 의존 항 사전 계산(Event-Dependent Term Precomputation): 이벤트 변수에만 의존하는 항(예: 붕괴 분석의 각도 항)의 경우, 프레임워크는 별도의 커널 단계에서 이러한 값을 사전 계산할 수 있다. 결과물인 고차원 데이터는 단순화된 우도 커널에 사용되어, 최소화 루프 동안 복잡한 식을 반복적으로 평가하는 것을 방지한다.
의사 실험 생성 최적으로(Pseudo-Experiment Generation Optimization): 의사 데이터를 생성하는 동안 모든 파라미터는 고정된다. MoreFit은 파라미터 의서 항을 상수로 취급하여 생성 그래프를 대폭 단순화한다. 또한 호스트-장치 간 전송을 최소화하기 위해 의사 난수 생성기(예: Xoshiro128++)를 사용하여 가속기 상에서의 생성을 지원한다.

주요 기여

프레임워크 도입: TensorFlow나 ROOT에 의존하지 않는(ROOT와의 호환은 가능함) 경량화되고 의존성이 최소화된 C++ 라이브러리인 MoreFit을 제시한다.
JIT 컴파일 및 그래프 최적화: 사용자 개입 없이 상당한 성능 향상을 가능하게 하는, 계산 그래프를 자동으로 분석하고 최적화한 후 JIT 컴파일하는 새로운 접근 방식을 제공한다.
이질적 지원: GPU(OpenCL 경유) 및 CPU(SIMD를 포함한 LLVM/Clang 경유) 모두에서 실행 가능한 통합 인터페이스를 제공하여 광범위한 하드웨어 호환성을 보장한다.
해석적 도함수: 기호 미분을 통해 유도된 해석적 기울기와 헤시안을 제공함으로써, 수치 미분에 비해 수렴 속도를 개선한다.

결과

본 논문은 AMD 7950X3D CPU와 NVIDIA Titan V GPU를 사용하여 MoreFit (v0.1)을 RooFit (v6.32.08) 및 zfit (v0.24.2)과 벤치마킹하였다. 두 가지 시나리오가 테스트되었다: 1D 질량 적합(4개 파라미터) 및 다차원 각도 적합(8개 파라미터).

성능 이득:
- 질량 적합(Mass Fit): 16개 스레드를 사용하는 CPU 환경에서, 해석적 도함수를 사용하는 MoreFit은 높은 통계량( $N=10^6$ )에서 RooFit의 SIMD 백엔드보다 최대 2.4배 더 빨랐다. GPU에서는 높은 통계량에서 RooFit의 CUDA 구현보다 거의 한 자릿수(order of magnitude) 더 빨랐다.
- 각도 적합(Angular Fit): MoreFit은 낮은 통계량에서 RooFit의 SIMD 백엔드 대비 단일 CPU 스레드에서 6.6배의 속도 향상을 보였으며, 중간/높은 통계량에서는 ~11배까지 증가했다. GPU 상에서 MoreFit은 데이터셋 크기에 따라 zfit보다 32–48배 더 뛰어난 성능을 보였다.
해석적 도함수의 영향: 해석적 도함수를 사용하는 것은 최소화 반복 횟수를 크게 줄였다(질량 적합의 경우 약 85회에서 2–3회로, 각도 적합의 경우 약 200회에서 2–3회로 감소). 이는 특히 커널 제출 오버헤드가 줄어드는 GPU 환경에서 상당한 속도 향상으로 이어졌다.
확장성: MoreFit은 CPU에서 스레드 수에 따라 잘 확장되며, 높은 통계량에서 단일 스레드 대비 16개 스레드를 사용할 때 최대 한 자릿수의 속도 향상을 보여준다.

의의 및 전망

본 논문은 MoreFit이 자동으로 최적화된 계산 그래프를 사용하는 것이 파라미터 적합에서 한 자릿수 이상의 성능 향상을 달ável 함을 입증한다고 주장한다. 그 의의는 커버리지 보정과 같은 계산 집약적인 통계 기법을 실행 가능하고 지속 가능하게 만드는 데 있다. 다양한 하드웨어 전반에 걸쳐 널리 사용될 수 있도록, MoreFit은 개방적이고 벤더 독립적인 표준에 의존하는 것을 목표로 한다.

저자들은 MoreFit이 초기 개발 단계에 있음을 인정한다. 현재의 한계점은 내장된 PDF 라이브러리가 적고 빈(binned) 적합에 대한 지원이 부족하다는 점이다. 향후 연구는 PDF 라이브러리 확장, 효율적인 범용 수용성 보정(acceptance corrections) 구현, 그리고 빈 적합 기능 탐색에 집중될 것이다. 결론적으로, 본 논문은 비빈 최대 우도 적합의 속도와 효율성을 개선할 수 있는 상당한 잠재력이 남아 있음을 밝히며, 입자 물리학에서 계산 자원의 지속 가능한 사용에 기여하고자 한다.