Development of an LLM-Based System for Automatic Code Generation from HEP… — 쉬운 설명

✨

이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"과학 논문이라는 두꺼운 책을 읽고, 그 내용을 바탕으로 컴퓨터가 직접 실행 가능한 코드를 자동으로 만들어내는 시스템"**을 개발한 연구입니다.

고에너지 물리학 (HEP) 분야에서는 복잡한 실험 데이터를 분석하기 위해 엄청난 양의 코드를 작성해야 합니다. 하지만 논문을 읽어서 코드를 직접 짜는 것은 매우 어렵고 시간이 많이 걸립니다. 이 연구는 **거대 언어 모델 (LLM, AI)**을 이용해 이 과정을 자동화하되, 인간이 최종적으로 확인하는 '인간 - AI 협업' 방식을 제안합니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴겠습니다.

🍳 비유: "요리 레시피를 보고 AI 요리사가 요리를 만드는 프로젝트"

이 연구는 마치 **유명한 요리사 (물리학자) 가 쓴 복잡한 요리책 (과학 논문)**을 AI 가 읽고, 그 레시피대로 실제 요리를 해보는 (코드 실행) 과정과 같습니다.

1. 문제 상황: "요리책이 너무 어렵다"

현실: 물리학 논문은 "입자를 A 로 걸러내고, B 와 C 를 합친 뒤 D 를 제외하라"는 식으로 매우 복잡하고 전문적인 용어투성입니다. 초보자가 이걸 읽고 직접 코드를 짜려면 수개월이 걸립니다.
해결책: AI 를 고용해서 이 책을 읽고 코드를 짜게 하자는 것입니다. 하지만 AI 가 혼자서 다 하면 실수 (환각, 즉 엉뚱한 내용 생성) 를 할 수 있으니, 사람이 중간에 확인하는 '인간 - AI 협업' 방식을 택했습니다.

2. 시스템의 두 단계 (요리 과정)

이 시스템은 크게 두 단계로 나뉩니다.

1 단계: 레시피 정리하기 (선택 기준 추출)

과업: AI 가 논문과 참고문헌을 읽어서 "어떤 재료를 고르고, 어떤 건 버려야 하는지"라는 명확한 레시피 리스트를 만듭니다.
비유: AI 가 요리책의 100 페이지에 걸쳐 흩어진 "소금 1g", "불 3 분" 같은 지시사항을 찾아내어, "1. 소금 1g 넣기, 2. 3 분 굽기"처럼 정리된 명확한 메뉴판을 만드는 작업입니다.
결과: 최신 AI 모델들은 이 작업을 꽤 잘해냈습니다. 하지만 가끔은 책에 없는 내용을 지어내거나 (환각), 매번 다른 메뉴판을 만들어내는 (무작위성) 문제가 있었습니다.

2 단계: 요리 실행하기 (코드 생성 및 검증)

과업: 1 단계에서 만든 레시피 리스트를 바탕으로 실제 요리 (코드) 를 작성하고, 그 요리가 맛있는지 (결과가 맞는지) 맛봅니다.
비유: AI 가 레시피대로 요리를 해봅니다. 하지만 여기서 중요한 건 **"요리가 완성되었다고 해서 맛이 좋은 건 아니다"**는 점입니다.
발견: AI 가 코드를 작성해서 실행은 되었지만, 정작 요리 (데이터 분석 결과) 는 원래 레시피와 달랐습니다. 즉, 코드가 실행된다고 해서 물리적으로 정확한 건 아닙니다.

3. 주요 발견 및 교훈

AI 는 아직 '완벽한 요리사'가 아니다: AI 가 300 억 개 이상의 파라미터를 가진 최신 모델이라도, 혼자서 10 번 중 3~4 번 정도는 원래 레시피와 똑같은 요리를 해냈을 뿐, 나머지는 실패하거나 엉뚱한 요리를 냈습니다.
사람의 눈이 필수 (Human-in-the-loop): AI 가 만든 레시피와 요리는 사람이 반드시 확인해야 합니다. AI 는 "도움이 되는 비서"는 될 수 있지만, "혼자서 모든 걸 책임지는 요리사"는 아직 아닙니다.
중요한 중간 단계: AI 가 바로 코드를 짜는 게 아니라, 먼저 사람이 읽을 수 있는 '구조화된 레시피 리스트'를 만드는 과정을 거친 것이 큰 성과입니다. 이렇게 하면 AI 가 뭘 잘못했는지 사람이 쉽게 찾아낼 수 있습니다.

4. 결론: "AI 는 훌륭한 조수, 하지만 감독은 인간"

이 연구는 **"AI 가 과학 논문을 읽고 코드를 짜는 것은 가능하지만, 아직은 완전히 믿고 맡길 수 있는 단계는 아니다"**라고 말합니다.

하지만 AI 를 **사람의 작업을 도와주는 '협업 도구'**로 쓰면, 과학자들이 더 많은 시간을 물리 현상 자체를 연구하는 데 쓸 수 있게 되어, 과학의 재현성 (누구든 같은 실험을 하면 같은 결과가 나오는 것) 을 높이는 데 큰 도움이 될 것이라고 기대합니다.

한 줄 요약:

"AI 가 과학 논문을 읽고 코드를 짜는 '프로토타입'을 만들었는데, 아직은 사람이 옆에서 꼼꼼히 확인해줘야만 믿을 수 있는 '훌륭한 조수' 수준입니다."

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

재현성 위기: 고에너지 물리학 (HEP) 분야에서 연구 결과의 재현성 보장은 핵심적인 과제이나, 데이터 분석의 복잡성 증가로 인해 환경 구축 및 코드 작성에 상당한 계산적 전문성과 시간이 소요됩니다. 이는 학생 및 신규 연구자의 진입 장벽을 높이고 있습니다.
LLM 의 한계: 대규모 언어 모델 (LLM) 은 코딩 지원에 강력한 잠재력을 가지고 있으나, 확률적 변동성 (stochasticity) 과 환각 (hallucination) 문제로 인해 검증 없이 완전 자동화된 분석을 신뢰하기는 어렵습니다.
목표: HEP 간행물 (논문) 에서 분석 절차를 추출하여 실행 가능한 분석 코드를 자동으로 생성하고, 이를 통해 연구 결과의 재현성을 검증할 수 있는 프로토타입 시스템을 개발하는 것입니다.

2. 방법론 (Methodology)

연구는 **두 단계 (Two-stage)**로 구성된 반복적 워크플로우를 제안하며, 오픈 가중치 (open-weight) LLM 을 기반으로 합니다.

단계 1: 선택 기준 추출 (Selection Extraction)

목표: 대상 논문과 인용된 참고문헌에서 이벤트 선택 기준 (event selection criteria), 객체 정의 등을 추출하여 구조화된 선택 목록을 생성합니다.
워크플로우:
1. Planner: 현재 선택 목록을 기반으로 다음에 읽어야 할 참고문헌과 구체적인 읽기 목표를 결정합니다.
2. Loader: PDF 를 Markdown 으로 변환하고, LLM 을 사용하여 관련 본문 텍스트를 분리하며, 인용문을 arXiv ID 로 매핑합니다.
3. Reader: Planner 의 목표에 따라 선택 기준을 추출합니다. (전체 텍스트 처리 'Bulk' 모드와 세그먼트 처리 'Chunk' 모드 테스트)
4. Merger: 새로운 결과를 기존 목록에 통합합니다. 주요 정보는 덮어쓰지 않도록 주의하며, 설명이 모호할 때만 인용된 참고문헌을 보충 자료로 활용합니다.
특징: 단순한 텍스트 생성이 아닌, 주석과 출처 (provenance) 가 포함된 **구조화된 중간 표현 (Intermediate Representation)**을 생성하여 인간이 검증 가능한 형태로 만듭니다.

단계 2: 코드 생성 (Code Generation)

목표: 단계 1 에서 얻은 구조화된 선택 기준을 바탕으로 실행 가능한 분석 코드를 생성하고, 이를 반복적으로 실행 및 검증합니다.
워크플로우 (LangGraph 기반):
1. Planner: 전체 작업을 하위 작업으로 분해하고 완료 기준을 정의합니다.
2. Generator: 현재 하위 작업에 대한 코드를 생성합니다. 이전 검증 피드백, 런타임 오류, 성공/실패 코드 스니펫을 입력받아 코드를 개선합니다.
3. Executor: ROOT, numpy, uproot 등이 포함된 격리된 Singularity 컨테이너 내에서 코드를 안전하게 실행합니다.
4. Validator: 실행 결과와 코드 자체를 완료 기준에 비추어 평가합니다. 실패 시 생성기로 피드백을 보내 수정을 요청합니다.
제약 조건: 현재는 HEP 도메인 지식 (API 사용법 등) 을 검색하는 RAG 기능이 없으므로, 프롬프트에 모든 필요한 변수와 제약 조건을 명시적으로 제공하여 평가했습니다.

3. 벤치마크 및 평가 프로토콜

벤치마크 데이터: ATLAS 실험의 $H \to ZZ^* \to 4\ell$ 분석 (2015-2016 년 프로톤 - 프로톤 충돌 데이터, ATLAS Open Data) 을 사용했습니다.
Ground Truth: 연구자가 수동으로 재현한 분석 코드 (Baseline) 와 27 개의 명시적으로 식별 가능한 선택 기준 목록을 정답으로 설정했습니다.
평가 지표:
- 단계 1: 27 개 정답 기준 중 올바르게 추출된 개수, 환각 (contradictory hallucinations) 발생 횟수.
- 단계 2: 생성된 코드가 Baseline 과 이벤트 레벨 (event level) 에서 일치하는지 여부 (정확 일치, 불일치, 실행 실패).

4. 주요 결과 (Results)

단계 1 (선택 기준 추출) 결과

모델 성능: 파라미터 수가 30B 이상인 모델 (Qwen3:235B, Gemini 2.5 Flash 등) 은 대부분의 문서화된 기준을 추출했으며, 일부 실행에서는 27 개 기준을 모두 식별했습니다. 반면 4B 모델은 성능이 낮았습니다.
변동성: 모든 모델에서 실행 간 변동성 (stochasticity) 이 크며, 큰 모델도 환각을 완전히 제거하지는 못했습니다.
Chunk vs Bulk: 제한된 컨텍스트 윈도우를 가진 모델 (Qwen3:4B) 의 경우 Chunk 모드가 더 많은 기준을 추출했으나, 환각과 워크플로우 실패율이 급격히 증가했습니다.

단계 2 (코드 생성) 결과

성공 사례: Qwen3-Coder-Next:80B 와 GPT-OSS:120B 모델은 10 회 실행 중 각각 3 회와 2 회 Baseline 과 완전히 일치하는 이벤트 목록을 생성했습니다.
실패 요인: 모든 모델에서 'Not Matched' (실행은 되지만 결과가 다름) 또는 'Execution Failed' (10 회 시도 후에도 해결 안 됨) 비율이 높았습니다.
핵심 통찰: 코드가 실행된다고 해서 물리적으로 올바른 결과가 보장되는 것은 아니며, 이벤트 레벨의 엄격한 검증이 필수적입니다.

5. 주요 기여 (Key Contributions)

검증 가능한 워크플로우: 논문 텍스트에서 구조화된 선택 기준을 추출하고, 이를 기반으로 코드를 생성/실행/검증하는 2 단계 프로세스를 구현했습니다.
오픈 가중치 LLM 의 정량적 평가: ATLAS Open Data 를 활용한 벤치마크를 통해 오픈 소스 LLM 의 HEP 분석 재현 능력과 한계를 수치화하여 제시했습니다.
인간 - AI 협업 프레임워크 제안: LLM 을 '블랙박스'가 아닌, 인간이 검증 가능한 중간 산출물을 제공하는 '협업 도구'로 위치시킴으로써 재현성 지원의 새로운 패러다임을 제시했습니다.

6. 의의 및 결론 (Significance & Conclusion)

현실적 한계: 현재 오픈 가중치 LLM 은 확률적 변동성, 환각, 실행 실패 등의 문제로 인해 완전한 자율 분석 에이전트로는 신뢰할 수 없습니다.
잠재력: 그러나 Human-in-the-loop(인간 개입) 도구로서는 매우 유망합니다. 연구자가 검증 가능한 중간 상태를 확인하며 LLM 을 보조 도구로 활용할 경우, 분석 재현성 지원과 논문 품질 향상에 기여할 수 있습니다.
향후 과제:
- 단계 1 의 추출 오류가 단계 2 의 코드 생성에 미치는 영향에 대한 종단간 (end-to-end) 평가.
- HEP 도메인 지식 (ROOT API 등) 을 검색하는 RAG 통합을 통한 실패율 감소.
- 더 넓은 벤치마크 확장을 통한 일반화 능력 평가.

이 연구는 LLM 이 HEP 분석의 자동화보다는 재현성 확보를 위한 인간 - 기계 협업 시스템으로서의 가능성을 입증했다는 점에서 중요한 의의를 가집니다.

Development of an LLM-Based System for Automatic Code Generation from HEP Publications