Retrieval-Augmented Claude Opus 4.7 and GPT-5.5 Surpass Human Performance on… — 쉬운 설명

원저자: Killekar, A., Shanbhag, A., Miller, R. J., Dey, D., Bourque, J., Phillips, L., Chareonthaitawee, P., Slomka, P.

게시일 2026-05-13

📖 4 분 읽기☕ 가벼운 읽기

원저자: Killekar, A., Shanbhag, A., Miller, R. J., Dey, D., Bourque, J., Phillips, L., Chareonthaitawee, P., Slomka, P.

원본 논문은 CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ⚕️ 이것은 동료 심사를 거치지 않은 프리프린트의 AI 생성 설명입니다. 의학적 조언이 아닙니다. 이 내용을 바탕으로 건강 관련 결정을 내리지 마세요. 전체 면책 조항 읽기

심장 특수 방사성 추적자를 사용하여 심장의 영상을 보는 데 특화된 의사들을 위한 고난도 최종 시험을 상상해 보세요. 이것이 "핵심심장학 전문의 자격시험"입니다. 수년 동안 인공지능 (AI) 이 이 시험을 치르려 시도해 왔지만, 계속 실패하여 평균 의대생보다 낮은 점수를 받았습니다.

이 논문은 두 개의 새로운 초지능 AI 모델이 마침내 이 시험을 압도적으로 통과하여 평균 인간 학생을 능가한 이야기를 전합니다.

배경: 시험과 "요약 자료"

시험에는 168 개의 문제가 있습니다. 일부는 단순한 텍스트 (상식 퀴즈와 유사) 이지만, 약 27 개는 심장의 복잡한 의학 영상을 살펴봐야 하는 문제들입니다.

과거에 AI 가 이 시험을 "도움 없이" (냉간 상태로) 치렀을 때, 최선의 성적은 약 63% 였습니다. 이는 불합격 점수입니다. 평균 인간 의대생 (수련의) 은 78% 를 받았습니다.

이번 새로운 연구에서 연구자들은 AI 에게 방대한 "요약 자료"를 제공했습니다. 이는 단순한 구글 검색이 아니라, 검색 증강 생성 (RAG) 시스템이었습니다. 이를 핵심심장학의 공식 교과서, 아틀라스, 그리고 의학 지침을 포함한 완벽하고 검색 가능한 디지털 도서관을 AI 에게 제공하는 것으로 생각하세요. AI 가 질문을 보면 즉시 이 도서관으로 뛰어들어 정답이 있는 정확한 페이지를 찾아내고, 이를 바탕으로 답변을 구성합니다.

경쟁자들

연구자들은 두 개의 새로운 차세대 AI 모델을 테스트했습니다:

Claude Opus 4.7: 로컬 투명 검색 시스템을 사용하는 모델 (책장에서 어떤 책을 꺼냈는지 정확히 보여주는 사서와 유사).
GPT-5.5: 클라우드 기반 검색 시스템을 사용하는 모델 (책을 찾아주지만 과정을 보여주지는 않는 사서와 유사).

결과: AI 가 평균 학생을 능가하다

이 두 AI 가 각각 다섯 번 시험을 치렀을 때, 결과는 놀라웠습니다:

점수: 두 모델 모두 약 86% 에서 87% 사이의 점수를 받았습니다.
비교: 이는 평균 인간 학생의 점수인 78% 보다 현저히 높습니다. 실제로 13 명의 인간 학생과 2 명의 AI 를 나열하면, AI 는 상위 5 위 안에 들어 인간 8 명 또는 9 명을 능가하게 됩니다.
진전 속도: 이는 엄청난 도약입니다. 불과 18 개월 전만 해도 최고의 AI 는 63% 를 받았습니다. 이제 "요약 자료" (RAG) 를 통해 23 퍼센트 포인트나 점수가 상승했습니다.

두 가지 약점

AI 가 승리했지만, 두 가지 구체적인 어려움을 겪었습니다:

"영상" 문제: AI 는 텍스트 문제에서는 훌륭하게 점수 (약 89%) 를 받았지만, 영상 문제에서는 주저했습니다. 영상 문제에서는 약 73~77% 를 맞혔습니다. 인간은 여전히 이 부분에서 더 잘하여 81.5% 를 받았습니다.
- 비유: AI 는 암기력 있는 천재 교수로, 교과서 전체를 암송할 수 있지만 흐릿한 X 선을 볼 때 여전히 혼란을 겪는다고 상상해 보세요. 이론은 완벽하게 알고 있지만, 여전히 영상을 "보는" 법을 배우고 있는 것입니다.
"안전" 결함 (GPT-5.5 만 해당): GPT-5.5 는 약 7% 의 질문에 답변을 거부했습니다. "죄송합니다, 그 부분은 도와드릴 수 없습니다"라고 말했는데, 그 질문들은 심장 약물이나 방사선 안전에 관한 표준 의학 시험 문제들이었습니다.
- 비유: 이는 매우 신중한 사서가, 핵에너지에 관한 합법적인 시험 문제를 물은 물리학 학생에게도 "폭탄 만드는 법"에 관한 책을 건네는 것을 거부하는 것과 같습니다. AI 의 안전 필터가 너무 민감하여 점수를 놓치게 했습니다. Claude Opus 4.7 은 이런 문제가 없었습니다; 모든 질문에 답변했습니다.

저자들이 실제로 말한 것 (그리고 말하지 않은 것)

이 논문은 이 결과가 무엇을 의미하는지에 대해 매우 신중합니다:

무엇인가: 적절한 참고 자료와 함께라면 AI 가 평균 수련생보다 핵심장학의 사실과 규칙을 더 잘 학습할 수 있음을 증명합니다. 저자들은 이러한 도구를 학생들이 공부하는 데 도움을 주는 교육 보조 도구로, 또는 판독실에서 사실을 재확인하는 참조 도구로 사용할 수 있다고 제안합니다.
무엇이 아닌가: 저자들은 명시적으로 객관식 시험을 통과한다고 해서 AI 가 의사가 될 준비가 된 것은 아니다라고 밝힙니다. 실제 의학은 환자와 대화하고, 불확실성을 처리하며, 객관식 시험으로는 측정할 수 없는 복잡한 판단을 내리는 것을 포함합니다. AI 는 강력한 참조 서적일 뿐, 인간 의사를 대체하는 것이 아닙니다.

결론

1 년 반 만에 AI 는 핵심심장학 전문의 자격시험에서 불합격에서 평균 인간 학생을 능가하는 수준으로 발전했습니다. 다만, 올바른 교과서에 접근할 수 있는 경우에만 해당됩니다. 그러나 여전히 의학 영상을 해석하는 데 어려움을 겪고 있으며, 모델 중 하나는 특정 합법적인 질문에 답변하는 것을 "겁"내어 거부합니다. 이는 의학 교육 도구로서 큰 도약이지만, 논문은 이러한 기계들이 인간 의사를 대체하는 것이 아니라 보조자임을 결론짓습니다.

Retrieval-Augmented Claude Opus 4.7 and GPT-5.5 Surpass Human Performance on the Nuclear Cardiology Board Preparation Exam (and Claude Drafts a Paper About it)

배경: 시험과 "요약 자료"

경쟁자들

결과: AI 가 평균 학생을 능가하다

두 가지 약점

저자들이 실제로 말한 것 (그리고 말하지 않은 것)

결론

기술 요약: 검색 증강 LLM 이 핵심장학 시험에서 인간 수행 능력을 초과

Retrieval-Augmented Claude Opus 4.7 and GPT-5.5 Surpass Human Performance on the Nuclear Cardiology Board Preparation Exam (and Claude Drafts a Paper About it)

배경: 시험과 "요약 자료"

경쟁자들

결과: AI 가 평균 학생을 능가하다

두 가지 약점

저자들이 실제로 말한 것 (그리고 말하지 않은 것)

결론

기술 요약: 검색 증강 LLM 이 핵심장학 시험에서 인간 수행 능력을 초과

유사한 논문