Infinite Problem Generator: Verifiably Scaling Physics Reasoning Data with Agentic Workflows

Each language version is independently generated for its own context, not a direct translation.

1. 왜 이런 게 필요할까요? (문제 상황)

지금까지 인공지능 (LLM) 을 가르치려면 엄청난 양의 '정답이 있는 문제집'이 필요했습니다. 하지만 물리 같은 어려운 과목은 사람이 직접 문제를 만들고 풀이를 적는 데 시간이 너무 오래 걸려서 데이터가 부족했습니다.

기존에 인공지능이 문제를 만들어내게 하면, **"할루시네이션 (환각)"**이라는 문제가 생깁니다. 마치 요리사가 레시피를 외워서 요리를 하다가, 갑자기 "소금 대신 모래를 넣으면 더 맛있다"고 착각해서 요리를 망치는 것과 비슷합니다. 인공지능은 글은 잘 쓰지만, 계산이나 논리에서는 엉뚱한 답을 내놓을 때가 많죠.

2. 이 연구의 핵심 아이디어: "공식은 코드다"

이 연구팀이 제안한 해결책은 아주 독특합니다. **"물리 공식을 글자가 아니라, 컴퓨터가 실행할 수 있는 '코드 (프로그램)'로 바꾸자"**는 것입니다.

기존 방식: "속도 = 거리 / 시간"이라고 글로 적으면, AI 가 숫자를 대입할 때 실수할 수 있습니다.
이 연구의 방식: "속도 = 거리 / 시간"을 speed = distance / time이라는 파이썬 코드로 만듭니다.

이제 AI 는 글을 쓰는 게 아니라 코드를 짜는 역할을 합니다. 컴퓨터는 코드를 실행하면 100% 정확한 답을 내놓기 때문에, 수학적으로 틀린 답을 낼 수 없게 됩니다.

3. 시스템은 어떻게 작동할까요? (3 단계 공장)

이 시스템은 3 단계로 돌아가는 자동 공장처럼 작동합니다.

문제 분석 (설계도 그리기):
전문가가 쓴 좋은 물리 문제 (씨앗) 를 가져옵니다. AI 는 이 문제의 핵심 원리 (예: 회전 운동, 마찰력 등) 를 파악하고, 이 원리가 적용될 수 있는 다양한 상황 (타이어 회전, 낚싯줄 감기 등) 을 상상합니다.
- 비유: 요리사가 "감자탕"이라는 기본 레시피를 보고, "감자탕을 비빔밥에 넣거나, 스테이크에 곁들이는 등 다양한 변형"을 생각해내는 단계입니다.
문제 생성 (요리하기):
AI 는 상상한 다양한 상황을 바탕으로 새로운 문제를 만듭니다. 이때 중요한 건, 무조건 3~5 개의 공식을 섞어서 복잡한 문제를 만들어야 한다는 규칙을 적용합니다.
- 비유: 단순히 "소금만 넣는" 요리가 아니라, "양념, 채소, 고기"를 적절히 섞어서 요리하게 만드는 것입니다.
코드 실행 및 검증 (맛보기 테스트):
생성된 문제는 바로 파이썬 코드로 변환되어 실행됩니다.
- 코드가 실행되지 않거나? → 폐기 (재시도)
- 결과가 마이너스 질량이나 무한대 같은 이상한 값이 나오면? → 폐기
- 정상적으로 실행되고 정답이 나오면? → 채용
- 비유: 요리를 다 만들고 맛을 본 뒤, "이건 먹을 수 없다"면 바로 쓰레기통에 버리고 다시 만드는 과정입니다.

4. 어떤 성과가 있었나요?

이 시스템으로 전문가 165 개의 문제를 1,335 개로 늘렸습니다. (약 8 배 확장!)

정확성: 생성된 문제 99.85% 가 코드로 검증되어 정답이 나왔습니다.
난이도 조절 (복잡성 청사진): 연구팀은 흥미로운 사실을 발견했습니다. "문제에 사용된 공식의 수"와 "코드의 길이"는 비례한다는 것입니다.
- 공식이 3 개면 코드 길이는 A, 공식이 5 개면 코드 길이는 B.
- 이걸 이용하면 코드의 길이를 보고 문제의 난이도를 자동으로 조절할 수 있습니다. 마치 "요리 재료의 수를 세면 요리의 난이도를 알 수 있다"는 것과 같습니다.

5. 왜 이것이 중요한가요?

이 연구는 인공지능이 **단순히 글을 잘 쓰는 것을 넘어, 논리적으로 사고하고 추론하는 능력을 기르는 데 필요한 '정직한 훈련 데이터'**를 무한히 만들어낼 수 있음을 보여줍니다.

기존: AI 가 문제를 만들어내면, 사람이 "이거 맞나?"라고 일일이 확인해야 함.
이제: AI 가 문제를 만들면, 컴퓨터가 "이건 코드 실행으로 100% 맞다"라고 보증해줌.

요약

이 논문은 **"인공지능에게 물리 문제를 가르칠 때, 글로만 가르치지 말고 '코드로 검증'하게 하라"**는 아이디어를 제시합니다. 마치 요리사가 요리를 만들 때, 맛을 보지 않고도 레시피대로 정확히 조리할 수 있도록 자동화된 주방 기계를 도입한 것과 같습니다. 이를 통해 우리는 더 정확하고, 어렵고, 다양한 물리 문제들을 무한히 만들어낼 수 있게 되었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

대규모 언어 모델 (LLM) 을 복잡한 추론 (Complex Reasoning) 도메인에 적응시키는 데는 검증 가능하고 고품질의 데이터 부족이 주요 병목 현상입니다.

물리학 도메인의 한계: 일반적인 텍스트 증강 (Text Augmentation) 기법은 환각 (Hallucination) 을 유발하기 쉽습니다. 또한, 기존 벤치마크 (JEEBench, UGPhysics 등) 는 평가용으로는 유용하지만, 모델의 추론 능력을 미세 조정 (Fine-tuning) 하기 위한 실행 가능한 추론 과정 (Reasoning Traces) 이 포함된 대규모 학습 데이터가 부족합니다.
기존 방법의 결함: 확률적 텍스트 생성에 의존하는 기존 생성 모델은 수학적 일관성을 보장하기 어렵고, 물리 법칙의 엄격한 제약을 충족하지 못해 논리적 오류가 빈번합니다.

2. 방법론 (Methodology): Infinite Problem Generator (IPG)

저자들은 IPG라는 에이전트 기반 프레임워크를 제안하여, "수식 - 코드 (Formula-as-Code)" 패러다임을 통해 검증 가능한 물리 문제 데이터를 생성합니다.

핵심 아키텍처 및 워크플로우

IPG 는 생성 - 검증 (Generate-then-Verify) 패러다임을 따르며, 세 가지 주요 단계로 구성됩니다.

입력 표현 및 설계 (Formula-as-Code):
- 물리 공식을 텍스트 토큰이 아닌 실행 가능한 Python 함수로 인코딩합니다.
- 예: $v = u + at$ 를 kinematics.final_velocity(u, a, t)와 같은 함수 호출로 정의합니다.
- 이는 임의의 코드 생성을 제한하고, 사전 정의된 검증된 공리 (Axioms) 만을 호출하도록 하여 모듈성과 수치적 정확성을 보장합니다.
3 단계 워크플로우:
- Phase I: 문제 분석 및 맥락 확장 (Problem Analysis):
  - 전문가가 작성한 시드 (Seed) 문제를 분석하여 핵심 물리 원리를 추출합니다.
  - 사전 정의된 '장 (Chapter) 사전'을 활용하여 관련 공식을 매핑하고, 변수의 물리적 범위 (Range) 와 단위를 정의합니다.
  - 동일한 물리 원리를 다양한 현실 시나리오 (예: 원반 회전 $\rightarrow$ 타이어 회전, 낚시 릴 등) 로 변환 가능한 맥락을 생성합니다.
- Phase II: 제약 조건 하의 문제 생성 (Constrained Generation):
  - 생성된 시나리오와 실행 가능한 공식 라이브러리를 기반으로 새로운 문제를 생성합니다.
  - 문제 서명 (Problem Signature): 사용된 공식 집합과 미지 변수를 조합하여 고유한 해시 값을 생성하고, 중복 문제를 필터링합니다.
  - 난이도 조절을 위해 각 문제당 3~5 개의 공식을 선택하도록 제한합니다.
- Phase III: 코드 실행을 통한 솔루션 생성 및 검증 (Code-Based Verification):
  - 생성된 문제에 대해 자동 생성된 Python 스크립트로 해답을 도출합니다.
  - 3 가지 검증 기준:
    1. 문법적 유효성: 스크립트가 런타임 오류 없이 실행되어야 함.
    2. 수치적 해결 가능성: 결과가 유한한 값 (NaN 또는 $\infty$ 제외) 이어야 함.
    3. 물리적 건전성 (Physical Sanity): 결과가 물리적으로 타당한지 확인 (예: 시간 $t > 0$ , 질량 $m > 0$ ).
  - 검증에 실패한 경우, 에이전트는 오류 추적을 기반으로 재시도 (Retry) 합니다.

3. 주요 기여 (Key Contributions)

에이전트 검증 프레임워크 (IPG): 서술적 변형과 코드 실행 검증을 결합하여 합성 물리 데이터의 수학적 환각을 크게 줄였습니다.
ClassicalMechanicsV1 데이터셋: 고전 역학 분야의 1,335 개 검증된 문제를 공개했습니다. 이는 165 개의 전문가 시드 문제에서 확장되었으며, 각 문제마다 실행 가능한 솔루션 경로와 검증된 수치 정답을 포함합니다.
복잡성 청사진 (Complexity Blueprint): 문제의 구조적 속성 (사용된 공식 수) 과 솔루션 코드 길이 사이에 강한 선형 상관관계 ( $R^2 \approx 0.95$ ) 가 있음을 발견했습니다. 이는 **코드 복잡도를 문제 난이도의 정확한 대리 지표 (Proxy-free metric)**로 사용할 수 있게 하여, 인간 라벨링 없이도 난이도가 조절된 커리큘럼 데이터 생성을 가능하게 합니다.

4. 결과 및 분석 (Results & Analysis)

데이터셋 통계:
- 총 1,335 개의 문제 생성 (165 개 시드 기준 약 8 배 확장).
- 평균 문제당 3.05 개의 공식 사용.
- 102 개의 고유한 물리 공식 사용.
- 검증 성공률: 99.85% (수치적 불안정성으로 인한 실패는 2 건 미만).
구조적 다양성:
- 도메인 믹싱 (Domain Mixing): 단일 장 (Chapter) 에 국한되지 않고, 마찰력, 회전 운동, 에너지 등 서로 다른 장의 개념을 통합한 문제가 다수 생성됨 (예: 강체 역학 문제에서 20 개 내재 공식 중 53 개 사용).
- 난이도 분포: 3 개 공식 사용 문제가 57.5% 로 가장 많으며, 4~6 개 공식이 필요한 복잡한 추론 문제 (Complexity Tail) 도 19.4% 포함.
실패 모드 분석:
- 난이도가 높을수록 (4 개 이상 공식) '서명 불일치 (Signature Mismatch)' 오류가 증가하는 경향이 관찰됨. 이는 LLM 이 장기적 변수 맥락을 유지하는 데 한계가 있음을 시사합니다.
하류 평가 (Downstream Evaluation):
- Qwen3-14B 모델을 Zero-shot 으로 평가한 결과, 기존 벤치마크 (JEEBench) 보다 낮은 점수를 기록하여, 생성된 데이터가 실제 추론 능력을 더 엄격하게 테스트함을 입증했습니다.

5. 의의 및 결론 (Significance & Conclusion)

검증 가능한 추론 데이터의 새로운 표준: IPG 는 텍스트 생성의 불확실성을 제거하고, 실행 가능한 코드를 통해 논리적 일관성을 수학적으로 보장합니다.
제어 가능한 커리큘럼 생성: '복잡성 청사진'을 통해 코드 길이를 기반으로 문제 난이도를 정밀하게 조절할 수 있어, 적응형 학습 및 강화 학습 (RL) 에 이상적인 데이터 파이프라인을 제공합니다.
확장 가능성: 현재 고전 역학에 국한되었으나, 전자기학, 광학 등 다른 물리 도메인으로의 확장과 시각적 다이어그램 생성 (Multimodal) 을 통한 향후 연구 방향을 제시했습니다.

이 논문은 LLM 의 추론 능력 향상을 위해 고품질, 검증 가능, 확장 가능한 합성 데이터 생성의 새로운 패러다임을 제시하며, 특히 과학적 추론 도메인에서 데이터의 질적 한계를 극복하는 데 중요한 기여를 합니다.

Infinite Problem Generator: Verifiably Scaling Physics Reasoning Data with Agentic Workflows

1. 왜 이런 게 필요할까요? (문제 상황)

2. 이 연구의 핵심 아이디어: "공식은 코드다"

3. 시스템은 어떻게 작동할까요? (3 단계 공장)

4. 어떤 성과가 있었나요?

5. 왜 이것이 중요한가요?

요약

1. 문제 정의 (Problem Statement)

2. 방법론 (Methodology): Infinite Problem Generator (IPG)

핵심 아키텍처 및 워크플로우

3. 주요 기여 (Key Contributions)

4. 결과 및 분석 (Results & Analysis)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

Self-Calibrating Language Models via Test-Time Discriminative Distillation

Toward Generalized Cross-Lingual Hateful Language Detection with Web-Scale Data and Ensemble LLM Annotations

HumorGen: Cognitive Synergy for Humor Generation in Large Language Models via Persona-Based Distillation

Generating High Quality Synthetic Data for Dutch Medical Conversations

GIANTS: Generative Insight Anticipation from Scientific Literature