원저자: Shuichiro Ozawa, Izumi Takahara, Teruyasu Mizoguchi

게시일 2026-05-06

📖 4 분 읽기☕ 가벼운 읽기

원저자: Shuichiro Ozawa, Izumi Takahara, Teruyasu Mizoguchi

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

새로운 물질의 특성, 예를 들어 제작에 필요한 에너지 양이나 전기 전도도 등을 컴퓨터가 추측하도록 가르친다고 상상해 보세요. 이 논문은 서로 다른 크기의 두 개의 "두뇌"(AI 모델) 에게 당신이 주는 지시를 어떻게 가장 잘 이해하도록 할지에 대한 안내서와 같습니다.

다음은 연구자들이 발견한 내용을 간단한 개념으로 정리한 이야기입니다:

1. 두 개의 두뇌: 유아 대 교수

연구자들은 "Llama"라는 AI 의 두 가지 버전을 테스트했습니다:

1B 모델 (유아): 작고 단순한 두뇌.
8B 모델 (교수): 더 많은 지식을 가진 크고 복잡한 두뇌.

그들은 두뇌의 크기가 가르치는 방식에 어떤 영향을 미치는지 확인하고 싶어 했습니다. 그들은 이 모델들에게 결정체와 같은 물질을 설명하는 다섯 가지 다른 방법을 제시했습니다:

레시피 카드: 재료 목록만 나열한 것 (화학적 조성).
헤드라인: 재료와 물질의 "형태" 또는 대칭성을 포함한 짧은 요약 (결정 요약).
지역 투어: 주변 원자들이 서로 어떻게 밀접하게 연결되어 있는지 설명한 것 (국소 환경).
완전한 소설: 전체 구조를 설명하는 길고 상세한 이야기 (전체 설명).
설계도: 숫자와 좌표로 가득 찬 원시적인 기술 파일 (CIF).

2. "짧음 대 길음" 교훈

가장 큰 발견은 한 가지 크기가 모두에게 적합하지 않다는 것입니다.

유아 (1B 모델) 에게: 긴 이야기로 혼란을 겪었습니다. "완전한 소설"이나 복잡한 "설계도"를 주면 허둥지둥했습니다. "레시피 카드"나 "헤드라인"을 줄 때 가장 잘 작동했습니다. 일을 올바르게 수행하려면 짧고 강렬한 사실들이 필요했습니다.
교수 (8B 모델) 에게: 이 두뇌는 세부 사항을 좋아했습니다. "완전한 소설"을 주면 짧은 요약보다 실제로 더 잘 수행했습니다. 길고 복잡한 설명을 읽어 필요한 미묘한 단서들을 찾아내어 훌륭한 추측을 할 수 있었습니다. 그러나 교수조차도 원시적인 "설계도"(기술 파일) 에서는 약간 어려움을 겪었는데, 이는 이러한 AI 두뇌에게 여전히 원시 코드보다 자연어 (단어) 가 이해하기 쉽다는 것을 시사합니다.

황금률: 작은 AI 가 있다면 지시를 짧게 유지하세요. 큰 AI 가 있다면 상세한 이야기를 줄 수 있습니다.

3. "대칭성"의 마법

지시 사항의 한 가지 특정 성분이 유아와 교수 모두에게 슈퍼파워로 밝혀졌습니다: 대칭성입니다.

레고 블록으로 만든 두 가지 다른 모양을 가지고 있다고 상상해 보세요. AI 에게 "빨간색과 파란색 블록으로 만들어졌다"고만 말하면, AI 는 두 모양을 구별할 수 없습니다. 하지만 "네모난 모양이다"라고 말하는 "헤드라인"을 추가하면, AI 는 갑자기 그 차이를 알게 됩니다. 논문은 재료의 대칭성 (형태/군) 에 대한 정보를 포함하는 것이 단순히 재료를 나열하는 것보다 두 모델이 특성을 훨씬 더 정확하게 추측하는 데 도움이 된다는 것을 발견했습니다.

4. "신뢰도 게이지"(AI 가 추측하고 있는지 어떻게 알 수 있는가)

두 번째 큰 질문은 다음과 같습니다: AI 가 자신의 답에 확신하고 있는지, 아니면 그냥 만들어내고 있는지 어떻게 알 수 있는가?

AI 세계에는 NLL(음수 로그 가능도) 이라는 숫자가 있습니다. 이것을 AI 의 내부 "신뢰도 게이지"로 생각하세요.

낮은 NLL: AI 가 자신의 답에 매우 확신합니다.
높은 NLL: AI 가 불확실하거나 추측하고 있습니다.

주의할 점:

학습 전: AI 가 아직 물질에 대해 가르치지 않은 "베이스" 모델일 때, 이 신뢰도 게이지는 고장 나 있었습니다. 완전히 틀렸을 때조차 "나는 매우 확신한다!"라고 말했습니다.
학습 후: LoRA 라는 특별한 방법을 사용하여 모델을 "파인튜닝"(가르침) 한 후, 게이지가 작동하기 시작했습니다! 그들은 명확한 패턴을 발견했습니다: AI 의 신뢰도 게이지가 높을 때 (낮은 NLL), 그 답은 보통 정확했습니다.

이는 학습 후 AI 의 내부 신뢰도 점수를 확인하여 예측을 신뢰할지 결정할 수 있음을 의미합니다. 점수가 낮다면 (불확실성이 높다면), 그 답을 무시하고 나쁜 추측으로부터 자신을 보호할 수 있습니다.

5. 트레이드오프: 속도 대 정확도

논문은 또한 실용적인 단점을 지적했습니다. 이러한 AI 모델은 똑똑하고 유연하지만 느립니다.

전통적인 전용 컴퓨터 프로그램 (그래프 신경망 등) 은 약 1 분 안에 10,000 개의 물질을 확인할 수 있습니다.
이러한 AI 모델은 같은 작업을 수행하는 데 몇 시간이 걸렸습니다.

요약

이 논문은 AI 를 사용하여 물질의 특성을 예측할 때 다음을 가르쳐 줍니다:

입력을 모델에 맞추세요: 작은 AI 에게는 긴 이야기를 주지 말고 요약을 주세요. 큰 AI 에게는 전체 이야기를 주세요.
대칭성을 포함하세요: AI 에게 물질의 모양에 대해 알려주면 더 잘 추측할 수 있습니다.
먼저 학습하고, 그 다음 신뢰하세요: AI 의 "신뢰도 게이지"를 신뢰하기 전에 AI 에게 물질에 대해 가르쳐야 합니다. 일단 학습되면, 그 게이지는 나쁜 추측을 걸러내는 훌륭한 도구가 됩니다.

연구자들은 이것이 느린 속도로 인해 즉시 모든 기존 도구를 대체할 준비가 되었다고 주장하지는 않았지만, 올바른 설정을 통해 이러한 유연한 AI 모델이 과학자들에게 매우 효과적이고 자기 인식적인 도구가 될 수 있음을 보여주었습니다.

기술 요약: 재료 물성 예측을 위한 LLM 의 규모 의존적 입력 표현 및 신뢰도 추정

문제 제기

대형 언어 모델 (LLM) 이 물성 예측과 같은 작업을 위해 재료 과학에 점점 더 많이 적용되고 있지만, 두 가지 중요한 과제는 여전히 해결되지 않았습니다:

입력 표현 대 모델 규모: 최적의 입력 표현 (예: 화학 조성, 자연어 설명, 또는 구조화된 파일) 이 LLM 의 규모와 미세 조정 (fine-tuning) 상태에 어떻게 의존하는지는 명확하지 않습니다. 이전 연구들은 다양한 형식과 모델 크기를 활용하여 체계적인 비교를 어렵게 만들었습니다.
신뢰도 추정: LLM 이 생성한 물성 예측의 신뢰도를 평가하는 신뢰할 수 있는 방법이 부족합니다. 기존 그래프 신경망 (GNN) 에 대한 불확실성 정량화 (UQ) 방법은 종종 추가적인 모델링 오버헤드를 요구합니다. LLM 은 본질적으로 토큰 수준의 확률 (음의 로그 가능도, NLL) 을 제공하지만, 수치적 물성 예측에 대한 신뢰도 지표로서의 적용 가능성은 아직 검증되지 않았습니다.

방법론

본 연구는 재료 프로젝트 (Materials Project) 에서 파생된 LLM4Mat-Bench 데이터셋을 사용하여 체계적인 실험을 수행하였으며, 형성 에너지 (atom 당) 와 밴드갭이라는 두 가지 목표 물성에 중점을 두었습니다.

모델: 서로 다른 규모의 두 가지 Llama 모델이 활용되었습니다: Llama-3.2-1B-Instruct와 Llama-3.1-8B-Instruct. 두 모델 모두 기본 (사전 학습만 수행된) 상태와 미세 조정 상태에서 평가되었습니다.
미세 조정: 모델은 쿼리 및 값 투영 계층에 적용된 **저랭크 적응 (LoRA)**을 사용하여 미세 조정되었습니다 (랭크 $r=32$ , 스케일링 인자 $\alpha=64$ ). 학습은 학습률 $1 \times 10^{-4}$ 로 6 에포크 동안 수행되었습니다.
입력 표현: 각 샘플에 대해 다섯 가지 서로 다른 입력 모달리티가 구성되었습니다:
1. 조성 (Composition): 화학식만 포함.
2. 결정 요약 (Crystal Summary): 자연어 설명의 첫 번째 문장 (조성 및 공간군 포함).
3. 국소 환경 (Local Environment): 요약 문장을 제외한 나머지 설명 텍스트.
4. 전체 설명 (Full Description): 완전한 자연어 텍스트.
5. CIF: 원시 결정학 정보 파일 문자열.
평가 지표:
- 정확도: 예측값과 실제값 사이의 평균 절대 오차 (MAE) 및 제곱근 평균 제곱 오차 (RMSE).
- 신뢰도: 예측된 수치 값에 해당하는 토큰의 평균 음의 로그 가능도 (Mean NLL). 구체적으로, 연구는 분수 자리 토큰화에서 발생하는 노이즈를 피하기 위해 수치 문자열의 정수 부분에 초점을 맞췄습니다.
- 필터링: 일정한 임계값 이상의 Mean NLL 을 가진 예측을 폐기하여 남은 집단의 신뢰도를 높이는 "NLL 필터링" 전략이 테스트되었습니다.

주요 결과

1. 규모 의존적 입력 표현

최적의 입력 표현은 모델 규모에 강하게 의존합니다:

1B 모델 (소규모): **컴팩트한 표현 (조성 및 결정 요약)**으로 가장 잘 수행됩니다. 입력 길이와 복잡성이 증가할수록 (예: 전체 설명, 국소 환경), 평균 절대 오차 (MAE) 가 증가하고 학습 불안정성 (시드 간 분산) 이 커집니다. 1B 모델은 긴 형식의 텍스트나 구조화된 CIF 데이터를 정확한 물리적 물성으로 매핑하는 데 어려움을 겪습니다.
8B 모델 (대규모): 상세한 입력에 대한 강건성을 보여줍니다. 형성 에너지의 경우, 8B 모델은 전체 설명을 사용하여 가장 낮은 MAE를 달성하며, 사전 학습된 자연어 이해 능력을 활용하여 미묘한 구조적 특징을 추출합니다.
대칭성 정보: 두 모델 규모 모두에서 **결정 요약 (공간군 정보 포함)**은 조성만 있는 입력보다 일관되게 더 나은 성능을 보입니다. 이는 대칭성 기술자가 다형체를 구분하고 LLM 에 내재된 결정학적 지식을 활성화하는 강력한 특징으로 작용함을 나타냅니다.
CIF 성능: 8B 모델은 CIF 데이터를 해석할 수 있지만, 자연어 설명이 일반적으로 더 높은 정확도를 제공하여 LLM 의 내부 표현이 원시 좌표 데이터보다 자연어와 더 잘 정렬되어 있음을 시사합니다.

2. 평균 NLL 을 통한 신뢰도 추정

기본 모델: Mean NLL 과 예측 오차 사이에 명확한 상관관계가 존재하지 않습니다. 낮은 NLL 값에서도 큰 오차가 발생하며, 이는 사전 학습된 확률이 물성 관계보다는 편향을 반영함을 나타냅니다.
미세 조정 모델: 낮은 Mean NLL 이 더 작은 예측 오차에 대응되는 일관된 경향이 나타납니다. 이 상관관계는 서로 다른 모델 규모와 입력 표현 전반에 걸쳐 유지됩니다.
NLL 필터링: Mean NLL 에 임계값을 적용하여 (높은 NLL 예측을 폐기) 남은 예측의 MAE 를 기준선보다 현저히 낮출 수 있습니다. 이는 Mean NLL 이 미세 조정된 모델에 대한 실용적이고 학습이 불필요한 신뢰도 지표로 작용함을 보여줍니다.
토큰 범위: 연구는 수치 값의 정수 부분으로 NLL 계산을 제한하는 것이 분수 자리를 포함하는 것보다 더 신뢰할 수 있음을 발견했는데, 이는 후자가 토큰화 모호성으로 인해 노이즈를 유발하기 때문입니다.

주요 기여

규모와 표현에 대한 체계적 분석: 본 연구는 입력 설계가 모델 용량에 맞게 맞춤화되어야 함을 확립합니다. 컴팩트한 입력은 소규모 모델 (1B) 에 최적인 반면, 대규모 모델 (8B) 은 상세한 자연어 설명으로부터 혜택을 받습니다.
대칭성 특징의 검증: 입력 요약에 공간군 정보를 포함시키는 것이 모델 규모 전반에 걸쳐 예측 정확도를 향상시키는 결정적 요소임을 입증합니다.
LLM 을 위한 신뢰도 지표: 논문은 수치 토큰의 Mean NLL 이 재료 물성 예측에 대한 효과적인 신뢰도 지표가 될 수 있음을 보여주지만, 이는 작업별 미세 조정 후에만 유효함을 제시합니다. 이는 복잡한 UQ 방법에 대한 계산 효율적인 대안을 제공합니다.

중요성 및 한계

저자들은 이러한 발견이 LLM 기반 재료 인포매틱스에서 입력 표현을 설계하고 예측 신뢰도를 평가하는 데 실용적인 지침을 제공한다고 주장합니다. 내부 신뢰도 점수 (Mean NLL) 를 기반으로 예측을 필터링할 수 있는 능력은 추가적인 학습 오버헤드 없이 더 신뢰할 수 있는 배포를 가능하게 합니다.

저자들이 인정하는 한계:

모델 범위: 분석은 1B 및 8B 모델로 제한되며, 더 큰 규모 (예: 70B) 로의 일반화는 추가 조사가 필요합니다.
물성 범위: 결과는 형성 에너지와 밴드갭에 특화되어 있으며, 다른 물성은 다르게 행동할 수 있습니다.
계산 비용: LLM 추론은 GNN (예: CGCNN) 에 비해 훨씬 느립니다 (초 대비 시간 단위) 그리고 상당한 GPU 메모리를 필요로 하므로, 전문 모델에 비해 고처리량 스크리닝을 위한 즉각적인 확장성이 제한됩니다.
아키텍처 특정성: 발견 사항은 Llama 3 시리즈에 특화되어 있으며, 다른 아키텍처에 대한 검증이 필요합니다.
탐색적 성격: 신뢰도 임계값 설정은 테스트 세트 관찰에 기반하므로, 실용적인 배포를 위해서는 홀드아웃 검증 세트에서 임계값을 선택해야 합니다.

본 연구는 특정 작업에서 LLM 이 아직 전문 그래프 신경망 (GNN) 을 정밀도 면에서 능가하지는 못할 수 있지만, 입력 설계의 유연성과 작업별 아키텍처 없이도 다중 작업 적용이 가능하다는 잠재력이 상당한 실용적 이점을 대표한다고 결론지었습니다.

Scale-Dependent Input Representation and Confidence Estimation for LLMs in Materials Property Prediction