How Well Do AI Systems Solve AP Physics? A Comparative Evaluation of Large Language Models on Algebra-Based Free Response Questions

Each language version is independently generated for its own context, not a direct translation.

🎓 1. 실험의 설정: "AI 수험생 4 인의 대결"

연구진은 2015 년부터 2025 년까지 치러진 **AP 물리 1(기초 역학)**과 AP 물리 2(전자기, 열, 광학 등) 시험의 서술형 문제들을 준비했습니다. 그리고 여기에 네 명의 'AI 수험생'을 투입했습니다.

참가자: ChatGPT, Gemini, Claude, DeepSeek (최신 버전들)
규칙: "너는 AI 가 아니라 고등학생이야. 시험지 그대로만 보고 답을 써. 그림도 보고 계산도 해."
채점: 실제 물리 교수님 3 분이 College Board(미국 대학입시 위원회) 의 채점 기준에 따라 점수를 매겼습니다.

📊 2. 결과 요약: "평균 점수는 훌륭하지만, 실력은 제각각"

🌟 전체적인 성적:
네 AI 모두 **82~92%**라는 놀라운 평균 점수를 받았습니다. 이는 일반 고등학생보다 훨씬 잘하는 수준입니다. 특히 공식을 대입해서 계산하는 문제에서는 거의 완벽에 가까웠습니다. 마치 수학 공식만 외운 천재 학생처럼 보이죠.

📉 하지만 숨겨진 문제:
점수가 높은 것만 보면 좋지만, 매년 점수가 들쭉날쭉했습니다. 어떤 해에는 100 점, 어떤 해에는 70 점도 받았습니다. 이는 AI 가 문제를 '이해'해서 푼 게 아니라, 특정 패턴을 맞춰서 푼다는 신호일 수 있습니다.

🏆 순위 경쟁 (물리 2 기준):

1 위: Gemini 와 DeepSeek (가장 안정적이고 점수가 높음)
중위: Claude
하위: ChatGPT (점수 변동이 가장 심함)
물리 1 은 네 AI 모두 실력이 비슷해서 순위가 매년 뒤바뀌었습니다.

⚠️ 3. AI 의 치명적인 약점: "눈이 보이지 않는 천재"

AI 가 틀린 문제를 분석해보니, 계산 실수보다는 시각적·공간적 이해에서 큰 실수를 했습니다. 이를 비유하자면 다음과 같습니다.

그림 읽기 실수 (Diagram Errors):
- 상황: 경사면 그림을 보고 물체가 언제 떨어질지 예측하는 문제.
- AI 의 실수: "높이가 같으니 동시에 떨어지겠지!"라고 생각했지만, 실제로는 경사각이 다르면 가속도가 달라집니다.
- 비유: 지도는 잘 보는데, 실제 길의 경사나 구불구불한 모양은 못 보는 내비게이션 같습니다.
그래프 해석 실패 (Graph Errors):
- 상황: 압력과 부피 그래프를 보고 기체의 일을 계산하는 문제.
- AI 의 실수: 그래프의 숫자를 제대로 읽지 못해 엉뚱한 값을 계산했습니다.
- 비유: 숫자만 보고 대충 추측하는 사람처럼, 그래프의 정확한 좌표를 읽지 못했습니다.
방향 감각 상실 (Vector & Right-Hand Rule):
- 상황: 자석과 전류의 방향을 3 차원 공간에서 파악하는 문제.
- AI 의 실수: "오른손 법칙"을 적용할 때 방향을 거꾸로 잡거나, 전하의 부호를 무시했습니다.
- 비유: 3 차원 공간 감각이 없는 사람이 2 차원 그림을 보고 3 차원 방향을 상상하려다 헷갈리는 상황입니다.
회로 오해 (Circuit Errors):
- 상황: 전기 회로에서 저항이 어떻게 연결되었는지 파악.
- AI 의 실수: 직렬과 병렬을 혼동해서 전체 저항 계산을 틀렸습니다.
- 비유: 레고 블록을 조립할 때 연결 부위를 잘못 파악해서 전체 구조가 무너지는 것과 같습니다.

💡 4. 결론과 교훈: "도구로 쓰되, 맹신은 금물"

이 연구는 우리에게 두 가지 중요한 메시지를 줍니다.

AI 는 훌륭한 '계산 도우미'입니다:
복잡한 공식을 적용하고, 단계를 나누어 계산하는 작업에서는 인간보다 빠르고 정확할 수 있습니다. 숙제나 개념 복습에 도움을 줄 수 있죠.
하지만 '창의적 사고'와 '시각적 이해'는 아직 부족합니다:
그림을 보고 상황을 상상하거나, 3 차원 공간에서 방향을 파악하거나, 여러 개념을 복합적으로 연결하는 문제에서는 여전히 실수합니다. 특히 **한 번 그림을 잘못 보면, 그 뒤의 모든 계산이 틀리는 '연쇄 오류'**가 발생합니다.

👨‍🏫 선생님들과 학생들을 위한 조언:

AI 를 '스승'이 아니라 '비서'로 쓰세요: AI 가 답을 알려줄 때, 그 답이 논리적으로 맞는지, 그림을 제대로 읽었는지 반드시 인간이 확인해야 합니다.
실수를 교재로 쓰세요: AI 가 틀린 그림 해석이나 방향 감각 실수는 학생들에게 "이런 실수를 하면 안 된다"는 좋은 예시가 될 수 있습니다.

🚀 한 줄 요약

"AI 는 물리 공식 계산은 천재지만, 그림을 보고 3 차원 공간을 상상하는 능력은 아직 초보생 수준입니다. 그래서 우리는 AI 를 믿되, 항상 눈으로 확인해야 합니다."

Each language version is independently generated for its own context, not a direct translation.

논문 요약: 대언어 모델 (LLM) 을 활용한 대수 기반 AP 물리 문제 해결 능력 비교 평가

1. 연구 배경 및 문제 제기 (Problem)

배경: ChatGPT, Claude, Gemini 등 대규모 언어 모델 (LLM) 의 급속한 발전으로 인해 STEM 교육 및 평가에서의 잠재적 역할에 대한 관심이 높아지고 있습니다.
문제: 기존 연구는 주로 잘 정의된 교과서형 문제나 객관식 질문에 초점을 맞추었으나, 다양한 맥락과 개방형 사고가 요구되는 '서술형 (Free-Response)' 물리 문제에 대한 LLM 의 성능을 체계적으로 평가한 연구는 부족합니다.
목표: College Board 가 주관하는 AP 물리 1 및 물리 2 (대수 기반) 의 서술형 문제 (FRQs) 를 대상으로 4 가지 주요 AI 모델의 성능을 비교하고, 그들의 강점과 한계를 규명하여 물리 교육에서의 AI 통합 방향을 제시하는 것.

2. 연구 방법론 (Methodology)

데이터셋: 2015 년부터 2025 년까지 (2020 년 팬데믹으로 인한 표준화 시험 부재 제외) College Board 가 발표한 AP 물리 1 및 물리 2 의 서술형 문제 (FRQs) 를 사용했습니다.
평가 대상 모델:
1. ChatGPT 4.1 mini (OpenAI)
2. Gemini 2.5 Flash (Google DeepMind)
3. Claude 4.0 Sonnet (Anthropic)
4. DeepSeek R1 (DeepSeek AI)
실험 설계:
- 표준화된 프롬프트: AI 를 '수험생'으로 설정하여 실제 시험 환경과 동일한 조건 (단계별 추론, 공식 제시, 단위 포함, 다이어그램 참조 등) 에서 답변을 생성하도록 지시했습니다.
- 채점 방식: College Board 의 공식 채점 기준 (Rubric) 을 사용하여 3 명의 물리 전문가가 독립적으로 채점했습니다.
- 신뢰도 검증: 전문가 간 일관성을 확인하기 위해 Intraclass Correlation Coefficient (ICC) 와 Cronbach's alpha 를 계산했습니다.
통계 분석:
- 모델 간 성능 차이를 분석하기 위해 비모수 반복측도 분산분석인 Friedman 검정을 사용했습니다.
- 사후 분석 (Post-hoc) 으로 Bonferroni 보정을 적용한 Wilcoxon 부호 순위 검정을 수행했습니다.
- 일관성 측정을 위해 변동계수 (CV) 와 Kendall's W (합의 계수) 를 계산했습니다.

3. 주요 결과 (Results)

전체 성능: 모든 모델이 높은 평균 점수 (82% ~ 92%) 를 기록하여 구조화된 대수적 문제 해결 능력이 우수함을 보였습니다.
과목별 차이:
- AP 물리 1 (역학 등): 네 모델 간 통계적으로 유의미한 성능 차이가 없었습니다 ( $p=0.141$ ). 모델별 순위가 해마다 크게 변동하여 (Kendall's W = 0.182), 어떤 모델이 우세한지 일관된 서열이 존재하지 않았습니다.
- AP 물리 2 (열역학, 전자기학 등): 모델 간 유의미한 차이가 발견되었습니다 ( $p=0.0012$ ). Gemini 와 DeepSeek이 Claude보다 통계적으로 유의하게 높은 점수를 기록했으며, ChatGPT 는 수치적으로 낮았으나 통계적 유의성은 확보하지 못했습니다. DeepSeek 은 가장 낮은 변동계수 (CV=4.7%) 를 보여 가장 일관된 성능을 보였습니다.
연도별 변동성: 시험의 난이도와 문제 유형에 따라 모델별 성능이 크게 달라졌습니다. 예를 들어, 2021 년 물리 1 시험에서는 모든 모델이 거의 만점을 받았으나, 2017 년이나 2022 년과 같은 시험에서는 성능이 급격히 하락했습니다.

4. 정성적 오류 분석 (Qualitative Error Analysis)

모든 모델에서 반복적으로 발견된 주요 오류 패턴은 다음과 같습니다:

다이어그램 해석 오류: 도면상의 기하학적 관계, 운동 상태, 위치 등을 잘못 파악하여 물리적 분석의 기초를 잘못 세움 (예: 경사면의 각도 무시, 파동의 진동 방향 오인).
그래프 해석 및 작성 오류: 그래프에서 수치 값을 잘못 추출하거나, 물리적 특징 (평형 위치, 진폭 등) 이 누락된 그래프를 묘사함.
벡터 방향 오류: 힘, 전기장, 운동 방향 등 벡터의 방향을 잘못 설정하여 일관된 계산이 이루어지더라도 최종 결과가 틀림.
정성적/정량적 추론 불일치: 공식을 적용하는 것은 정확하나, 중력 퍼텐셜 에너지와 같은 물리적 항을 누락하거나 반사/굴절 현상에 대한 정성적 설명이 부족함.
회로 분석 오류: 직렬/병렬 회로 구조를 잘못 식별하여 등가 저항이나 전압 강하를 잘못 계산함.
오른손 법칙 오류: 3 차원 공간에서의 자기력, 유도 전류 방향 등을 판단할 때 좌표계나 전하 부호를 혼동함.

5. 주요 기여 및 의의 (Key Contributions & Significance)

체계적 벤치마킹: AP 물리 FRQs 를 대상으로 한 최초의 대규모 종단적 (Longitudinal) 비교 평가를 제공하여, AI 의 물리 추론 능력을 정량화했습니다.
성능 한계의 규명: AI 가 대수적 계산에는 탁월하지만, 시각적 해석 (Visual Interpretation), 공간 추론 (Spatial Reasoning), 3 차원 벡터 관계 이해에는 여전히 심각한 한계가 있음을 입증했습니다.
교육적 시사점:
- 교육자: AI 를 대수 문제 풀이나 개념 복습 도구로 활용할 수 있으나, 다이어그램 해석이나 공간 추론이 필요한 문제에서는 학생들의 과도한 의존을 경계해야 함. AI 의 오류를 오개념 교정 자료로 활용할 수 있음.
- 개발자: 물리 교육용 AI 의 실용성을 높이기 위해서는 멀티모달 그라운딩 (Multimodal Grounding) 능력 향상, 특히 그래프/도면에서 정량적 정보 추출 능력과 3 차원 공간 추론 능력의 개선이 시급함.
방법론적 기여: 다중 채점자 루브릭 기반 평가, 비모수 통계 분석, 그리고 오류 분류 체계 (Taxonomy) 를 제시하여 향후 STEM 분야 AI 평가 연구의 표준 템플릿을 마련했습니다.

6. 결론

현재의 LLM 은 구조화된 물리 문제 해결에 있어 인간 수준의 능력을 보여주지만, 시각적 정보 처리와 개념적 통합이 필요한 복잡한 추론 작업에서는 한계를 보입니다. 따라서 AI 를 물리 교육에 효과적으로 통합하기 위해서는 모델 아키텍처의 발전과 함께 교육자의 비판적 활용이 병행되어야 합니다.

How Well Do AI Systems Solve AP Physics? A Comparative Evaluation of Large Language Models on Algebra-Based Free Response Questions

🎓 1. 실험의 설정: "AI 수험생 4 인의 대결"

📊 2. 결과 요약: "평균 점수는 훌륭하지만, 실력은 제각각"

⚠️ 3. AI 의 치명적인 약점: "눈이 보이지 않는 천재"

💡 4. 결론과 교훈: "도구로 쓰되, 맹신은 금물"

🚀 한 줄 요약

논문 요약: 대언어 모델 (LLM) 을 활용한 대수 기반 AP 물리 문제 해결 능력 비교 평가

1. 연구 배경 및 문제 제기 (Problem)

2. 연구 방법론 (Methodology)

3. 주요 결과 (Results)

4. 정성적 오류 분석 (Qualitative Error Analysis)

5. 주요 기여 및 의의 (Key Contributions & Significance)

6. 결론

유사한 논문

Kinematics of Single-Winged Spinning Seeds: A Study on Mahogany and Buddha Coconut Samaras

Chemically-polarized material for nuclear and particle physics

Experimental Challenges in Determining Heat Transfer Efficiency Scaling in Highly Turbulent Cryogenic Rayleigh-Benard Convection

Feasibility of Concurrent 1H MRS & 31P MRSI at 7T: Brain Energy Metabolism Responses to Hyperglycemia

Improving boundary-layer separation prediction by an IDDES turbulence model using a pressure-gradient sensor