In-Context Molecular Property Prediction with LLMs: A Blinding Study on Memorization and Knowledge Conflicts

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거대 인공지능 (LLM) 이 실제로 분자의 성질을 '이해'해서 예측하는 걸까, 아니면 그냥 시험 문제를 '외워서' 맞추는 걸까?"**라는 아주 중요한 질문을 던집니다.

과학자들이 AI 에게 분자의 용해도나 에너지 같은 수치를 예측하게 할 때, AI 가 진짜로 학습을 한 것인지, 아니면 훈련 데이터에 있던 정답을 기억해낸 것인지 구분하기가 매우 어렵습니다. 이 논문은 그 의문을 해결하기 위해 **'눈가리개 실험 (Blinding Study)'**을 진행했습니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 실험의 핵심: "눈가리개"를 쓴 시험

상상해 보세요. 아주 똑똑한 학생 (AI) 이 화학 시험을 치고 있습니다.

일반적인 시험 (Blinding Level 1): 문제지에 "이 분자의 용해도를 구하라"라고 적혀 있고, 분자 구조도 그대로 보입니다. 학생은 "아, 용해도는 내가 많이 외운 주제야!"라고 생각하며 답을 냅니다. 하지만 이 답이 진짜 계산한 것일까요, 아니면 그냥 시험지 번호를 외운 것일까요?
눈가리개 시험 (Blinding Level 6): 이제 학생의 눈을 가립니다.
1. 문제의 이름 ("용해도") 을 지우고 그냥 **"어떤 성질"**이라고만 적습니다.
2. 분자 구조 (SMILES 문자열) 를 알 수 없는 기호로 바꿉니다. (예: C 를 X 로, O 를 Y 로)
3. 정답 숫자도 뒤집거나 변형시킵니다.

이제 학생은 "용해도"라는 단어를 보고 외운 답을 말할 수 없습니다. 오직 **문제지 앞에 놓인 예시들 (In-context examples)**만 보고 패턴을 찾아서 답을 맞춰야 합니다.

2. 실험 결과: AI 의 두 가지 얼굴

연구진은 GPT-4, GPT-5, Gemini 등 다양한 최신 AI 모델들을 이 '눈가리개 시험'에 통과시켰습니다. 결과는 매우 흥미로웠습니다.

① "외우기"는 아니었다 (기억력 테스트)

많은 사람이 AI 가 방대한 데이터를 외워서 정답을 뱉어낸다고 생각했습니다. 하지만 눈가리개를 하고도 AI 가 여전히 좋은 점수를 받았습니다.

비유: 마치 수학 문제를 풀 때, "3+4=7"이라는 공식을 외운 게 아니라, 숫자 사이의 논리 관계를 이해해서 새로운 문제도 풀 수 있는 것과 같습니다.
결론: AI 는 단순히 정답을 외워서 맞추는 게 아니라, 분자 구조와 성질 사이의 **관계 (패턴)**를 학습하고 있었습니다.

② "선입견"이 방해가 될 수도 있다 (지식과 학습의 충돌)

가장 놀라운 발견은 **"AI 가 아는 게 오히려 방해가 될 때가 있다"**는 것입니다.

상황: AI 는 훈련 데이터에서 "용해도"에 대한 지식을 많이 배웠습니다. 하지만 실험에서 제공된 예시 (In-context) 들이 AI 가 알고 있는 지식과 조금 다르면, AI 는 혼란을 겪습니다.
비유: 친구가 "오늘 비가 오니까 우산을 써야 해"라고 말하는데, AI 는 "아니야, 내가 알고 있는 기상청 데이터엔 맑다고 나와 있어"라고 고집을 부리는 꼴입니다.
해결: 연구진은 "눈가리개"를 통해 AI 가 가진 선입견 (기억) 을 차단했습니다. 그랬더니 AI 는 제공된 예시만 보고 더 정확하게 예측하는 모습을 보였습니다. 즉, AI 가 너무 많이 '알고' 있으면, 새로운 정보를 받아들이는 데 방해가 될 수 있다는 것입니다.

③ 데이터 양이 중요했다

예시가 60 개일 때: AI 는 자신의 기존 지식과 새로운 예시 사이에서 갈등하며 오히려 실수를 많이 했습니다. (선입견이 예시를 압도함)
예시가 1000 개일 때: 충분한 예시가 쌓이자 AI 는 기존 지식을 제치고 새로운 패턴을 잘 학습했습니다.

3. 이 연구가 우리에게 주는 교훈

이 논문은 과학계와 AI 개발자들에게 중요한 메시지를 줍니다.

성공적인 점수 = 완벽한 이해가 아님: 기존 벤치마크 (시험지) 에서 높은 점수를 받았다고 해서 AI 가 무조건 똑똑한 건 아닙니다. 그 점수가 '외운 것'인지 '이해한 것'인지 구분해야 합니다.
새로운 것을 배울 때는 '망각'이 필요할 수도 있음: AI 를 새로운 과학 분야에 적용할 때, AI 가 이미 알고 있는 지식이 오히려 방해가 될 수 있습니다. 그럴 때는 일부러 정보를 가리고 (Blinding), AI 가 오직 주어진 데이터만 보고 학습하게 하는 것이 더 나을 수 있습니다.
신뢰할 수 있는 AI: 우리는 AI 가 단순히 "데이터 베이스 검색기"가 아니라, 새로운 관계를 찾아내는 "학습자"로 만들 수 있다는 것을 확인했습니다.

요약

이 논문은 **"AI 가 분자 성질을 예측할 때, 단순히 외운 정답을 말하는 게 아니라 진짜로 패턴을 학습한다"**는 것을 증명했습니다. 하지만 동시에 **"AI 가 너무 많이 알고 있으면, 새로운 정보를 배울 때 오히려 방해가 된다"**는 재미있는 사실을 발견했습니다.

마치 유능한 선배가 신입 사원에게 일을 가르칠 때, 선배의 "오래된 관념"이 신입의 "새로운 아이디어"를 막을 수 있다는 것과 같은 이치입니다. 때로는 선배가 잠시 눈을 감고 (Blinding), 신입이 제시하는 새로운 방식만 보고 판단하게 하는 것이 더 좋은 결과를 낳을 수 있다는 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 제기 (Problem)

대형 언어 모델 (LLM) 은 자연어 처리를 넘어 분자 특성 예측과 같은 과학적 예측 작업에도 적용되고 있습니다. 그러나 LLM 이 분자 특성 예측에서 진정한 문맥 학습 (In-Context Learning, ICL) 을 수행하는지, 아니면 단순히 학습 데이터의 암기 (Memorization) 에 의존하는지에 대한 의문이 제기되고 있습니다.

데이터 오염 (Contamination): 널리 사용되는 벤치마크 데이터셋 (ESOL, Lipophilicity, QM7 등) 이 LLM 의 학습 코퍼스 (Training Corpus) 에 포함되어 있을 가능성이 높습니다.
암기 vs 학습: 높은 벤치마크 점수가 실제 패턴 인식 능력을 반영하는지, 아니면 단순히 훈련 데이터의 레이블을 회상 (Recall) 한 결과인지 구분하기 어렵습니다.
지식 충돌: 사전 학습된 지식 (Prior Knowledge) 이 문맥 내 예시 (In-context examples) 와 충돌할 때 LLM 이 어떻게 반응하는지, 그리고 이것이 예측 성능에 어떤 영향을 미치는지 명확하지 않습니다.

2. 연구 방법론 (Methodology)

이 연구는 LLM 의 예측 능력을 암기, 도메인 지식, 문맥 학습으로 분리하여 분석하기 위해 체계적인 정보 블라인딩 (Systematic Information Blinding) 프레임워크를 도입했습니다.

가. 6 단계 블라인딩 프레임워크 (Six-Level Blinding Framework)

문맥 정보를 점진적으로 제거하거나 변형하여 LLM 이 어떤 능력을 사용하는지 격리했습니다.

Level 1 (Specific): 완전한 화학적 문맥 (특성명, SMILES, 원본 값).
Level 2 (Specific-Transformed): 특성명은 유지하되, 타겟 값을 수학적으로 변형 (반전 및 스케일링).
Level 3 (Generic): 특성명을 "분자 특성 (molecular property)"으로 일반화.
Level 4 (Generic-Transformed): 일반화된 이름 + 변형된 값.
Level 5 (Agnostic): 모든 화학적 문맥 제거 ("샘플", "구조 문자열"로 변경) + SMILES 변형.
Level 6 (Agnostic-Transformed): 완전한 추상화 + 값 및 SMILES 동시 변형.

SMILES 변형: Level 5-6 에서 원자 기호와 SMILES 문법 기호를 고유한 대체 문자로 치환하여 LLM 이 화학 구조를 인식하지 못하게 하되, 구조적 관계 (연결성, 고리 등) 는 유지했습니다.
값 변형: 타겟 값을 $-1 $로 곱하고$ [0, 100]$ 범위로 재조정하여 암기를 방지했습니다.

나. 실험 설정

데이터셋: MoleculeNet 의 세 가지 벤치마크 (Delaney solubility, Lipophilicity, QM7 atomization energy).
모델: OpenAI(GPT-4.1, GPT-5) 와 Google(Gemini 2.5) 의 3 개 패밀리, 총 9 가지 모델 (Nano, Mini, Pro/Full).
샷 (Shot) 구성: 0-shot(학습 예제 없음), 60-shot, 1000-shot.
평가 지표: 변환된 스케일 차이로 인해 MAE/RMSE 대신 피어슨 상관 계수 (Pearson Correlation Coefficient) 를 주 지표로 사용.

3. 주요 기여 (Key Contributions)

블라인딩 기반 평가 프레임워크: 분자 특성 예측에서 LLM 의 암기, 사전 지식, 문맥 학습 능력을 정성적으로 분리하여 분석할 수 있는 체계적인 방법론을 제시했습니다.
지식 충돌 (Knowledge Conflicts) 규명: LLM 의 강력한 사전 지식이 오히려 문맥 학습을 방해할 수 있음을 실험적으로 증명했습니다.
벤치마크 오염 문제 해결: 기존 벤치마크의 한계를 지적하고, 블라인딩을 통해 모델의 진정한 일반화 능력을 평가하는 새로운 기준을 제안했습니다.

4. 주요 결과 (Results)

가. 암기 (Memorization) 부재

0-shot 실험에서 0 오차 (정확한 값 회상) 를 보이는 샘플이 거의 없었습니다. 이는 LLM 이 단순히 데이터베이스에서 값을 찾아오는 것이 아니라, SMILES 와 특성 간의 학습된 관계 (Structure-Property Relationships) 를 기반으로 예측하고 있음을 시사합니다.
Delaney(용해도) 데이터셋은 0-shot 에서도 높은 성능을 보였으나, Lipophilicity 나 QM7 은 상대적으로 낮았습니다. 이는 데이터셋이 학습 코퍼스에서 얼마나 자주 등장했는지를 반영합니다.

나. 사전 지식과 문맥 학습의 상호작용

지식의 양면성 (Double-Edged Sword): 사전 지식은 도움이 되기도 하지만, 문맥 내 예시와 충돌할 때 성능을 저하시킵니다.
- 60-shot 의 역설: 많은 모델에서 60 개의 예시를 추가했을 때 0-shot 보다 성능이 떨어졌습니다. 이는 소량의 예시가 모델의 잘못된 사전 가정을 덮어쓰기에 부족했기 때문입니다.
- 1000-shot 의 해결: 충분한 예시 (1000-shot) 가 제공되면 성능이 회복되거나 향상되었습니다.
블라인딩 효과:
- Lipophilicity: 블라인딩 시 성능이 급격히 하락 (72% → 35%). 이는 모델이 해당 특성을 암기하거나 표면적인 힌트에 의존하고 있음을 의미합니다.
- Delaney (용해도): 블라인딩에도 불구하고 성능이 거의 유지됨 (96% → 92%). 이는 모델이 문맥 학습을 통해 용해도와 분자 구조 간의 관계를 잘 학습하고 있음을 보여줍니다.
- QM7: 블라인딩 시 오히려 성능이 향상되거나 변형된 값에서 더 좋은 상관관계를 보였습니다. 이는 모델이 QM7 데이터의 원본 값 범위 (큰 음수) 를 처리하는 데 어려움을 겪거나, 잘못된 사전 연상을 가지고 있었음을 시사합니다.

다. 모델별 차이

Gemini 2.5 Pro: 전반적으로 가장 우수했으나, Lipophilicity 에서 블라인딩에 민감하게 반응했습니다.
GPT-5: GPT-4.1 에 비해 사전 지식과 문맥 예시를 더 잘 통합하는 능력을 보였으나, QM7 의 큰 음수 값 처리에서 수치적 추론 오류를 보였습니다.
Gemini Flash 계열: 1000-shot 에서도 0-shot 보다 성능이 떨어지는 등 문맥 학습과 사전 지식의 통합에 실패하는 경향을 보였습니다.

5. 의의 및 결론 (Significance & Conclusion)

실제 능력 평가: 높은 벤치마크 점수가 반드시 LLM 의 강력한 일반화 능력을 의미하지는 않습니다. 블라인딩 테스트를 통해 모델이 암기에 의존하는지, 아니면 진정한 추론을 하는지 구별해야 합니다.
실무적 시사점:
- LLM 을 새로운 화학 공간이나 특성에 적용할 때, 블라인딩 (특성명 숨김 등) 을 통해 모델의 잘못된 사전 지식을 억제하는 것이 성능 향상에 도움이 될 수 있습니다.
- 소량의 문맥 예시만으로는 모델의 기존 편견을 극복하기 어렵기 때문에, 충분한 예시 (1000-shot 이상) 나 전략적인 정보 제어가 필요합니다.
미래 방향: 분자 특성 예측을 위한 LLM 평가 시, 단순한 정확도 측정을 넘어 블라인딩 기반의 엄격한 검증 프로토콜을 도입해야 합니다. 이는 과학적 발견을 위한 LLM 의 신뢰성을 확보하는 핵심 단계입니다.

이 연구는 LLM 이 과학적 예측에서 어떻게 작동하는지에 대한 이해를 깊게 하고, 향후 모델 개발 및 평가 기준을 재설정하는 데 중요한 통찰을 제공합니다.