Infinite Problem Generator: Verifiably Scaling Physics Reasoning Data with Agentic Workflows

이 논문은 실행 가능한 Python 프로그램으로 해법을 구성하여 수학적 일관성을 보장하는 '무한 문제 생성기 (IPG)' 프레임워크를 제안하고, 이를 통해 검증 가능한 물리 추론 데이터의 확장을 가능하게 하는 '클래식 메커니즘 V1' 데이터셋을 공개했습니다.

Aditya Sharan, Sriram Hebbale, Dhruv Kumar

게시일 2026-03-17
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 왜 이런 게 필요할까요? (문제 상황)

지금까지 인공지능 (LLM) 을 가르치려면 엄청난 양의 '정답이 있는 문제집'이 필요했습니다. 하지만 물리 같은 어려운 과목은 사람이 직접 문제를 만들고 풀이를 적는 데 시간이 너무 오래 걸려서 데이터가 부족했습니다.

기존에 인공지능이 문제를 만들어내게 하면, **"할루시네이션 (환각)"**이라는 문제가 생깁니다. 마치 요리사가 레시피를 외워서 요리를 하다가, 갑자기 "소금 대신 모래를 넣으면 더 맛있다"고 착각해서 요리를 망치는 것과 비슷합니다. 인공지능은 글은 잘 쓰지만, 계산이나 논리에서는 엉뚱한 답을 내놓을 때가 많죠.

2. 이 연구의 핵심 아이디어: "공식은 코드다"

이 연구팀이 제안한 해결책은 아주 독특합니다. **"물리 공식을 글자가 아니라, 컴퓨터가 실행할 수 있는 '코드 (프로그램)'로 바꾸자"**는 것입니다.

  • 기존 방식: "속도 = 거리 / 시간"이라고 글로 적으면, AI 가 숫자를 대입할 때 실수할 수 있습니다.
  • 이 연구의 방식: "속도 = 거리 / 시간"을 speed = distance / time이라는 파이썬 코드로 만듭니다.

이제 AI 는 글을 쓰는 게 아니라 코드를 짜는 역할을 합니다. 컴퓨터는 코드를 실행하면 100% 정확한 답을 내놓기 때문에, 수학적으로 틀린 답을 낼 수 없게 됩니다.

3. 시스템은 어떻게 작동할까요? (3 단계 공장)

이 시스템은 3 단계로 돌아가는 자동 공장처럼 작동합니다.

  1. 문제 분석 (설계도 그리기):
    전문가가 쓴 좋은 물리 문제 (씨앗) 를 가져옵니다. AI 는 이 문제의 핵심 원리 (예: 회전 운동, 마찰력 등) 를 파악하고, 이 원리가 적용될 수 있는 다양한 상황 (타이어 회전, 낚싯줄 감기 등) 을 상상합니다.

    • 비유: 요리사가 "감자탕"이라는 기본 레시피를 보고, "감자탕을 비빔밥에 넣거나, 스테이크에 곁들이는 등 다양한 변형"을 생각해내는 단계입니다.
  2. 문제 생성 (요리하기):
    AI 는 상상한 다양한 상황을 바탕으로 새로운 문제를 만듭니다. 이때 중요한 건, 무조건 3~5 개의 공식을 섞어서 복잡한 문제를 만들어야 한다는 규칙을 적용합니다.

    • 비유: 단순히 "소금만 넣는" 요리가 아니라, "양념, 채소, 고기"를 적절히 섞어서 요리하게 만드는 것입니다.
  3. 코드 실행 및 검증 (맛보기 테스트):
    생성된 문제는 바로 파이썬 코드로 변환되어 실행됩니다.

    • 코드가 실행되지 않거나? → 폐기 (재시도)
    • 결과가 마이너스 질량이나 무한대 같은 이상한 값이 나오면? → 폐기
    • 정상적으로 실행되고 정답이 나오면? → 채용
    • 비유: 요리를 다 만들고 맛을 본 뒤, "이건 먹을 수 없다"면 바로 쓰레기통에 버리고 다시 만드는 과정입니다.

4. 어떤 성과가 있었나요?

이 시스템으로 전문가 165 개의 문제를 1,335 개로 늘렸습니다. (약 8 배 확장!)

  • 정확성: 생성된 문제 99.85% 가 코드로 검증되어 정답이 나왔습니다.
  • 난이도 조절 (복잡성 청사진): 연구팀은 흥미로운 사실을 발견했습니다. "문제에 사용된 공식의 수"와 "코드의 길이"는 비례한다는 것입니다.
    • 공식이 3 개면 코드 길이는 A, 공식이 5 개면 코드 길이는 B.
    • 이걸 이용하면 코드의 길이를 보고 문제의 난이도를 자동으로 조절할 수 있습니다. 마치 "요리 재료의 수를 세면 요리의 난이도를 알 수 있다"는 것과 같습니다.

5. 왜 이것이 중요한가요?

이 연구는 인공지능이 **단순히 글을 잘 쓰는 것을 넘어, 논리적으로 사고하고 추론하는 능력을 기르는 데 필요한 '정직한 훈련 데이터'**를 무한히 만들어낼 수 있음을 보여줍니다.

  • 기존: AI 가 문제를 만들어내면, 사람이 "이거 맞나?"라고 일일이 확인해야 함.
  • 이제: AI 가 문제를 만들면, 컴퓨터가 "이건 코드 실행으로 100% 맞다"라고 보증해줌.

요약

이 논문은 **"인공지능에게 물리 문제를 가르칠 때, 글로만 가르치지 말고 '코드로 검증'하게 하라"**는 아이디어를 제시합니다. 마치 요리사가 요리를 만들 때, 맛을 보지 않고도 레시피대로 정확히 조리할 수 있도록 자동화된 주방 기계를 도입한 것과 같습니다. 이를 통해 우리는 더 정확하고, 어렵고, 다양한 물리 문제들을 무한히 만들어낼 수 있게 되었습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →