In-Context Molecular Property Prediction with LLMs: A Blinding Study on Memorization and Knowledge Conflicts

본 논문은 분자 특성 예측에서 대규모 언어 모델 (LLM) 이 실제 문맥 학습을 수행하는지 아니면 단순히 암기한 값에 의존하는지, 그리고 사전 학습 지식과 문맥 정보 간의 충돌을 규명하기 위해 체계적인 블라인드 실험과 다양한 샷 (shot) 설정을 통해 평가하는 프레임워크를 제시합니다.

Matthias Busch, Marius Tacke, Sviatlana V. Lamaka, Mikhail L. Zheludkevich, Christian J. Cyron, Christian Feiler, Roland C. Aydin

게시일 2026-03-30
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거대 인공지능 (LLM) 이 실제로 분자의 성질을 '이해'해서 예측하는 걸까, 아니면 그냥 시험 문제를 '외워서' 맞추는 걸까?"**라는 아주 중요한 질문을 던집니다.

과학자들이 AI 에게 분자의 용해도나 에너지 같은 수치를 예측하게 할 때, AI 가 진짜로 학습을 한 것인지, 아니면 훈련 데이터에 있던 정답을 기억해낸 것인지 구분하기가 매우 어렵습니다. 이 논문은 그 의문을 해결하기 위해 **'눈가리개 실험 (Blinding Study)'**을 진행했습니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 실험의 핵심: "눈가리개"를 쓴 시험

상상해 보세요. 아주 똑똑한 학생 (AI) 이 화학 시험을 치고 있습니다.

  • 일반적인 시험 (Blinding Level 1): 문제지에 "이 분자의 용해도를 구하라"라고 적혀 있고, 분자 구조도 그대로 보입니다. 학생은 "아, 용해도는 내가 많이 외운 주제야!"라고 생각하며 답을 냅니다. 하지만 이 답이 진짜 계산한 것일까요, 아니면 그냥 시험지 번호를 외운 것일까요?
  • 눈가리개 시험 (Blinding Level 6): 이제 학생의 눈을 가립니다.
    1. 문제의 이름 ("용해도") 을 지우고 그냥 **"어떤 성질"**이라고만 적습니다.
    2. 분자 구조 (SMILES 문자열) 를 알 수 없는 기호로 바꿉니다. (예: CX 로, OY 로)
    3. 정답 숫자도 뒤집거나 변형시킵니다.

이제 학생은 "용해도"라는 단어를 보고 외운 답을 말할 수 없습니다. 오직 **문제지 앞에 놓인 예시들 (In-context examples)**만 보고 패턴을 찾아서 답을 맞춰야 합니다.

2. 실험 결과: AI 의 두 가지 얼굴

연구진은 GPT-4, GPT-5, Gemini 등 다양한 최신 AI 모델들을 이 '눈가리개 시험'에 통과시켰습니다. 결과는 매우 흥미로웠습니다.

① "외우기"는 아니었다 (기억력 테스트)

많은 사람이 AI 가 방대한 데이터를 외워서 정답을 뱉어낸다고 생각했습니다. 하지만 눈가리개를 하고도 AI 가 여전히 좋은 점수를 받았습니다.

  • 비유: 마치 수학 문제를 풀 때, "3+4=7"이라는 공식을 외운 게 아니라, 숫자 사이의 논리 관계를 이해해서 새로운 문제도 풀 수 있는 것과 같습니다.
  • 결론: AI 는 단순히 정답을 외워서 맞추는 게 아니라, 분자 구조와 성질 사이의 **관계 (패턴)**를 학습하고 있었습니다.

② "선입견"이 방해가 될 수도 있다 (지식과 학습의 충돌)

가장 놀라운 발견은 **"AI 가 아는 게 오히려 방해가 될 때가 있다"**는 것입니다.

  • 상황: AI 는 훈련 데이터에서 "용해도"에 대한 지식을 많이 배웠습니다. 하지만 실험에서 제공된 예시 (In-context) 들이 AI 가 알고 있는 지식과 조금 다르면, AI 는 혼란을 겪습니다.
  • 비유: 친구가 "오늘 비가 오니까 우산을 써야 해"라고 말하는데, AI 는 "아니야, 내가 알고 있는 기상청 데이터엔 맑다고 나와 있어"라고 고집을 부리는 꼴입니다.
  • 해결: 연구진은 "눈가리개"를 통해 AI 가 가진 선입견 (기억) 을 차단했습니다. 그랬더니 AI 는 제공된 예시만 보고 더 정확하게 예측하는 모습을 보였습니다. 즉, AI 가 너무 많이 '알고' 있으면, 새로운 정보를 받아들이는 데 방해가 될 수 있다는 것입니다.

③ 데이터 양이 중요했다

  • 예시가 60 개일 때: AI 는 자신의 기존 지식과 새로운 예시 사이에서 갈등하며 오히려 실수를 많이 했습니다. (선입견이 예시를 압도함)
  • 예시가 1000 개일 때: 충분한 예시가 쌓이자 AI 는 기존 지식을 제치고 새로운 패턴을 잘 학습했습니다.

3. 이 연구가 우리에게 주는 교훈

이 논문은 과학계와 AI 개발자들에게 중요한 메시지를 줍니다.

  1. 성공적인 점수 = 완벽한 이해가 아님: 기존 벤치마크 (시험지) 에서 높은 점수를 받았다고 해서 AI 가 무조건 똑똑한 건 아닙니다. 그 점수가 '외운 것'인지 '이해한 것'인지 구분해야 합니다.
  2. 새로운 것을 배울 때는 '망각'이 필요할 수도 있음: AI 를 새로운 과학 분야에 적용할 때, AI 가 이미 알고 있는 지식이 오히려 방해가 될 수 있습니다. 그럴 때는 일부러 정보를 가리고 (Blinding), AI 가 오직 주어진 데이터만 보고 학습하게 하는 것이 더 나을 수 있습니다.
  3. 신뢰할 수 있는 AI: 우리는 AI 가 단순히 "데이터 베이스 검색기"가 아니라, 새로운 관계를 찾아내는 "학습자"로 만들 수 있다는 것을 확인했습니다.

요약

이 논문은 **"AI 가 분자 성질을 예측할 때, 단순히 외운 정답을 말하는 게 아니라 진짜로 패턴을 학습한다"**는 것을 증명했습니다. 하지만 동시에 **"AI 가 너무 많이 알고 있으면, 새로운 정보를 배울 때 오히려 방해가 된다"**는 재미있는 사실을 발견했습니다.

마치 유능한 선배가 신입 사원에게 일을 가르칠 때, 선배의 "오래된 관념"이 신입의 "새로운 아이디어"를 막을 수 있다는 것과 같은 이치입니다. 때로는 선배가 잠시 눈을 감고 (Blinding), 신입이 제시하는 새로운 방식만 보고 판단하게 하는 것이 더 좋은 결과를 낳을 수 있다는 것입니다.