Perfect score on IPhO 2025 theory by Gemini agent

이 논문은 IPhO 2025 이론 문제에서 'Gemini 3.1 Pro Preview' 기반 에이전트가 5 회 모두 만점을 기록했으나, 모델이 대회 이후에 출시되어 데이터 오염 가능성이 있다는 점을 지적합니다.

Yichen Huang

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🌟 핵심 요약: "완벽한 점수를 받은 AI 학생"

이 논문의 주인공은 **이연 (Yichen Huang)**이라는 연구자와 그가 만든 AI 에이전트입니다. 이 에이전트는 2025 년 물리 올림피아드 이론 문제를 풀었는데, **5 번을 반복해서 풀 때마다 100 점 만점 (Perfect Score)**을 받았습니다. 보통 AI 가 이런 대회에서 금메달 수준의 점수는 받지만, 인간 최상위권보다는 조금 뒤처졌는데, 이번에는 AI 가 인간을 완전히 제압한 셈입니다.

하지만 저자는 "이 결과가 정말 AI 의 지능이 인간을 넘어섰다고만 볼 수 있을까?"라는 의구심도 함께 제시합니다.


🧩 1. 문제 상황: "너무 어려운 시험지"

물리 올림피아드는 고등학생들에게는 마치 '하드코어' 게임과 같습니다.

  • 시험지: 5 시간 동안 3 개의 긴 문제를 풉니다. 글자도 많고, 복잡한 그림과 그래프가 가득합니다.
  • AI 의 과거: 기존 AI 들은 이 시험지를 읽는 것 (OCR) 에서 실수를 하거나, 복잡한 물리 법칙을 적용하는 데서 헷갈려서 70~80 점 정도만 받았습니다.

🛠️ 2. 해결책: "AI 의 새로운 학습법 (에이전트)"

연구자는 단순히 AI 에게 문제를 던져주는 게 아니라, **스마트한 '학습 파트너'**를 만들어주었습니다.

  • 비유: "수학 선생님과 조별 토론"
    • 기존 AI 는 혼자서 문제를 풀다 보면 실수할 수 있습니다.
    • 연구자가 만든 에이전트는 한 문제를 4 개의 '가상 학생'에게 동시에 풀게 합니다.
    • 그다음, 이 4 개의 답안을 한 명의 '수석 교사 (AI)'에게 보여줍니다.
    • 수석 교사는 "너는 여기서 실수했어, 너는 계산이 틀렸어"라고 오류를 찾아내고, 네 가지 답안을 합쳐서 가장 완벽한 정답을 만들어냅니다.
    • 그림 측정 도구: 문제지에 있는 그림의 길이를 재야 할 때, AI 는 눈으로만 보면 오차가 큽니다. 그래서 컴퓨터 코드 (Python) 를 직접 짜서 자를 대고 정확히 재는 기능을 추가했습니다. (마치 AI 가 직접 자를 들고 그림을 재는 것과 같습니다.)

🔍 3. 발견한 비밀: "시험지 자체에 숨겨진 함정"

이 논문에서 가장 흥미로운 부분은 AI 가 문제를 풀다가 시험지 자체에 오류가 있다는 것을 찾아냈다는 점입니다.

  • 비유: "수학 문제집의 오타"
    • 연구자가 AI 를 통해 문제를 검토하던 중, 공식 시험지에 그림과 설명이 서로 모순되는 부분을 발견했습니다.
    • 예를 들어, "그림 A 는 빨간색인데, 설명에는 파란색이라고 했네?" 혹은 "이 공식대로 계산하면 결과가 말이 안 되는데?" 하는 부분들입니다.
    • 연구자는 이 오류들을 찾아내어 공식 답안과 채점 기준을 수정했습니다. 이는 AI 가 단순히 문제를 푸는 것을 넘어, 물리학자처럼 문제를 비판적으로 분석할 수 있음을 보여줍니다.

⚠️ 4. 주의할 점: "과연 진짜 실력일까? (데이터 오염)"

이 논문은 매우 솔직하게 한 가지 큰 우려를 털어놓습니다.

  • 비유: "시험 전에 답지를 미리 본 경우"
    • 이 AI 모델 (Gemini 3.1 Pro) 은 시험이 끝난 후 (2026 년 2 월) 에 공개되었습니다.
    • 하지만 AI 가 학습한 데이터에는 2025 년 7 월에 열린 시험 문제가 이미 포함되어 있었을 가능성이 큽니다.
    • 즉, AI 가 문제를 푼 게 아니라, 미리 답을 외워서 푼 것일 수도 있다는 것입니다.
    • 저자는 "그래도 이 결과가 의미가 있다. 왜냐하면 그보다 약한 모델 (Gemini 3 Deep Think) 도 비슷한 수준의 점수를 받았기 때문이다"라고 변명하듯 설명합니다.

🏁 결론: "AI 의 물리 실력, 어디까지 왔나?"

이 논문은 다음과 같은 메시지를 전달합니다:

  1. AI 는 이제 물리 문제를 완벽하게 풀 수 있다: 적절한 도구 (코드 실행, 여러 답안 비교) 를 쓰면, AI 는 인간 최상위권보다 더 정확하고 빠르게 문제를 풉니다.
  2. AI 는 오류를 찾아낸다: AI 가 시험지 자체의 오류를 찾아내어 수정했다는 점은 놀라운 일입니다.
  3. 하지만 신뢰는 필요하다: AI 가 시험 문제를 미리 봤을 가능성 (데이터 오염) 이 있기 때문에, "AI 가 인간을 완전히 능가했다"고 섣불리 말하기는 어렵습니다.

한 줄 요약:

"AI 가 물리 올림피아드에서 100 점 만점을 받았는데, 이건 AI 가 너무 똑똑해서일 수도 있고, 시험지를 미리 봤을 수도 있습니다. 하지만 어쨌든 AI 가 이제 물리 문제를 아주 잘 푼다는 건 확실합니다!"