🔬 materials science

SCALAR: Quantifying Structural Hallucination, Consistency, and Reasoning Gaps in Materials Foundation Models

이 논문은 재료 파운데이션 모델이 다양한 나노입자 구조 전반에 걸쳐 기하학적 규모 일반화와 구조적 추론을 어떻게 처리하는지 평가하기 위해 설계된 벤치마크인 SCALAR을 소개하며, 명시적인 물리 기반 추론이 환각과 오류를 줄일 수는 있지만 종종 출력의 일관성과 타당성을 저해한다는 점을 밝힌다.

원저자: Can Polat, Erchin Serpedin, Mustafa Kurban, Hasan Kurban

게시일 2026-02-02

📖 4 분 읽기☕ 가벼운 읽기

CC BY 4.0

원저자: Can Polat, Erchin Serpedin, Mustafa Kurban, Hasan Kurban

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

당신에게 완벽하고 무한한 마천루의 설계도를 읽는 데 매우 능숙한 마스터 건축가가 있다고 상상해 보십시오. 이 건축가(이러한 유형의 AI를 '파운데이션 모델'이라고 부릅니다)는 설계도만 보고도 건물의 재료, 강도, 디자인에 대해 모든 것을 말해줄 수 있습니다.

하지만 여기 함정이 있습니다. 이 건축가는 그 마천루를 레고로 만든 작은 모델로 설계하라는 요청을 받은 적이 없으며, 단 하나의 레고 브릭만 보고 원래의 마천루가 어떻게 생겼는지 알아내라는 요청을 받은 적도 없습니다.

이 논문은 이 AI 건축가들이 "무한한 마천루"에서 "작은 레고 모델"로 넘어갈 때 정신을 놓지 않고 이를 처리할 수 있는지 확인하기 위한 새로운 테스트인 SCALAR를 소개합니다.

핵심 문제: "환각(Hallucation)"의 덫

AI의 세계에서 "환각"은 단순히 무언가를 지어내는 것이 아닙니다. 그것은 맞는 것처럼 들리지만 물리 법칙을 깨뜨리는 것을 자신 있게 진술하는 것을 의미합니다.

이렇게 생각해 보십시오. 만약 당신이 사람에게 물로 된 완벽한 구체를 상상해 보라고 한다면, 그들은 그것이 둥글다는 것을 압니다. 하지만 만약 당신이 물로 된 정육면체를 상상해 보라고 한다면, 그들은 물이 자연적으로 정육면체를 형성하지 않기 때문에 주저할 것입니다. 그러나 만약 당신이 AI에게 "입방체 모양의 물 결정"을 상상해 보라고 했을 때, AI가 자신 있게 "네, 모서리는 날카롭고 밀도는 높습니다"라고 말한다면, 그것은 환각을 일으킨 것입니다. AI는 물 분자가 작동하는 방식을 무시한 것입니다.

이 논문은 현재의 AI 모델들이 재료의 "무한한" 버전(벌크 결정)을 설명하는 데는 뛰어나지만, "유한한" 버전(작은 나노 입자)을 설명하라고 요청받으면 처참하게 실패하는 경우가 많다고 주장합니다. AI는 수치는 맞출 수 있지만, 원자들이 서로 결합하는 근본적인 규칙을 위반할 수 있습니다.

테스트 방식 (세 가지 도전 과제)

연구진은 몇 개의 원자부터 18,000개가 넘는 원자에 이르기까지 다양한 구조를 포함하는 10만 개의 거대한 데이터셋을 구축했습니다. 그런 다음 AI를 세 가지 특정 테스트에 투입했습니다.

"줌 아웃(Zoom-Out)" 테스트 (CIF에서 속성으로):
- 설정: 당신은 AI에게 완벽한 결정(단위 격자, Unit Cell)의 설계도를 줍니다.
- 과업: AI는 그 결정에서 일부를 잘라낸 작은 조각(나노 입자)의 특성을 예측해야 합니다.
- 반전: AI는 조각이 커지거나 작아짐에 따라 특성이 어떻게 변하는지를 파악해야 합니다.
- 결과: 많은 AI가 기본적인 수학은 맞혔지만, 추세를 이해하는 데는 실패했습니다. 그들은 "조각이 커질수록 밀도는 일정하게 유지되어야 한다"라거나 "조각이 작아질수록 표면적이 변해야 한다"와 같은 내용을 일관되게 말하지 못했습니다.
"생각하며 말하기" 테스트 (사고의 사슬, Chain-of-Thought):
- 설정: 연구진은 AI에게 다음과 같이 말했습니다. "단순히 답만 내놓지 말고, 물리학을 사용하여 단계별로 추론 과정을 설명하세요."
- 결과: 이것은 양날의 검이었습니다. 때때로 AI에게 "생각"하도록 강요하는 것이 정확도를 높이기도 했습니다. 하지만 종종, 이는 AI를 더 일관성 없게 만들었습니다. AI는 한 번의 시도에서는 훌륭한 설명을 내놓았다가도, 똑같은 질문에 대해 다음번에는 완전히 다르고 틀린 설명을 내놓기도 했습니다. 이는 마치 수학 문제를 풀 때는 완벽하게 적어 내려가지만, 왜 그렇게 했는지 설명해야 하면 혼란에 빠지는 학생과 같습니다.
"역추적 탐정" 테스트 (역방향 검색, Inverse Retrieval):
- 설정: 당신은 AI에게 일련의 특성(예: "이 재료는 무겁고, 특정 부피를 가지며, 매우 밀도가 높다")을 줍니다.
- 과업: AI는 후보군 중에서 올바른 설계도를 골라내야 합니다.
- 결과: 어떤 AI들은 매우 뛰어난 탐정처럼 행동하며 이 과업을 수행했습니다. 그러나 다른 AI들은 그 재료에 대한 설명이 물리적으로 타당함에도 불구하고 잘못된 설계도를 선택했습니다. 그들은 그럴듯하게 들리지만 실제로는 틀린 재료를 찾아낸 것입니다.

거대한 발견: 정확도는 거짓말이다

이 논문의 가장 중요한 발견은 AI가 정답을 맞혔다고 해서 그 AI를 신뢰해서는 안 된다는 것입니다.

학생이 시험을 치르는 상황을 상상해 보십시오.

학생 A는 90%의 정답을 맞혔지만, 질문할 때마다 답을 바꿉니다.
학생 B는 85%의 정답을 맞혔지만, 그의 답변은 항상 일관되고 논리적인 패턴을 따릅니다.

현재의 벤치마크는 대개 점수(90% 대 85%)만을 봅니다. 이 논문은 이렇게 말합니다. "잠깐만요! 학생 A는 자신의 이야기를 일관되게 유지하지 못하기 때문에 신뢰할 수 없습니다."

연구진은 AI를 "분포 외(Out-of-Distribution)" 데이터(AI가 본 적 없는 크기)로 테스트했을 때, AI의 원시 정확도 수치는 괜찮아 보일지라도 일관성을 유지하고 물리 법칙을 따르는 능력이 붕괴된다는 것을 발견했습니다.

시사점

이 논문은 우리가 과학 분야에서 AI를 측정하는 새로운 방법이 필요하다고 결론짓습니다. 우리는 단순히 "답이 맞는가?"라고 물어서는 안 됩니다. 대신 다음과 같이 물어야 합니다.

"답이 일관적인가?"
"물리 법칙을 따르는가?"
"물체의 크기가 변할 때 환각을 일으키는가?"

SCALAR 벤치마크는 우리가 배터리나 의약품을 위한 실제 재료를 설계하기 위해 이 AI 모델들을 신뢰하기 전에, 이러한 "똑똑하지만 미친 듯이 행동하는(smart but crazy)" 순간들을 잡아내기 위해 설계된 도구입니다. 이는 AI가 원자에 대해 이야기할 때, 실제로 원자에 대해 말하고 있는 것인지, 아니면 그저 과학적인 것처럼 들리는 이야기를 지어내고 있는 것인지 확인하기 위한 현실적인 점검입니다.

기술 요약: 재료 파운데이션 모델을 위한 SCALAR 벤치마크

문제 정의

대규모 언 언어 모델(LLM)과 파운데이션 모델이 재료 과학적 추론에 점점 더 많이 적용되고 있다. 그러나 물리적으로 구조화된 분포 변화(distribution shifts), 특히 구조적 스케일의 변화에 따른 이들의 동작은 여전히 제대로 이해되지 않고 있다. 모델들이 완벽한 벌크 결정(단위 격자로 표현됨)에 대한 물성을 정확하게 예측할 수는 있지만, 번역 불변성(translational invariance)을 깨뜨리는 파생된 유한 구조(나노입자)에 대해 추론하도록 과업이 주어지면 종종 실패한다.

현재의 평가는 주로 작업 정확도나 포맷팅의 정확성에 초점을 맞추고 있으며, **교차 스케일 일관성(cross-scale consistency)**을 평가하는 경우는 드물다. 이러한 간과로 인해 모델은 국소적으로는 타당해 보이지만 전역적인 물리적 불변량(예: 결정학적 대칭성, 보존 제약 조건, 스케일 의존적 기하학적 관계)을 위반하는 출력을 생성할 수 있다. 이러한 위반은 **구조적 환각(structural hallucination)**이라는 원칙적인 형태의 오류를 구성한다. 즉, 분포 변화 하에서 근본적인 불변량을 위반함으로써 발생하는, 확신에 찬 물리적 오류 예측을 의미한다. 동일한 객체를 여러 스케일에 걸쳐 짝을 지어 표현하고, 제어된 분포 외(OOD) 분할을 통해 이러한 실패를 진단할 수 있는 데이터셋이 부족한 실정이다.

방법론: SCALAR 프레임워크

저자들은 기하학적 스케일 일반화와 구조적 환각, 일관성 및 추론 사이의 연결 관계를 평가하기 위해 설계된 벤치마크인 SCALAR(Structural Consistency And Logic Across Regimes)를 소개한다.

1. 데이터셋 구축

데이터셋은 화학적으로 다양한 결정질 재료(에너지 저장을 위한 수소 풍부 시스템을 포함한 41개의 고유 원소)의 DFT 완화 단위 격자로부터 유도되었다.

단계 I (나노입자 구축): 원시 단위 격자로부터 시작하여 $20 \times 20 \times 20$ 슈퍼셀을 생성한다. 유한한 나노입자는 원점을 중심으로 반지름 $R$ 내에 있는 원자들을 유지하는 "구형 카빙(spherical carving)"을 통해 생성된다. 반지름은 $10 $에서$ 30 $Å까지 다양하며, 이는 몇 개의 원자에서부터 약 18,000개 이상의 원자에 이르는 구조를 생성한다(총$ \approx 100,000$개 구조).
단계 II (회전 샘플링): 방향 편향을 완화하기 위해, 단위 사원수(unit quaternions)를 사용하여 $SO(3)$ 상에서 샘플링된 강체 회전으로 구조를 증강한다. 그리디 샘플러(greedy sampler)를 사용하여 회전 간의 최소 측지선 간격(geodesic spacing)을 보장한다.
단계 III (분할 인식 파티셔닝): 데이터셋은 훈련(Training), 분포 내(ID) 테스트, 분포 외(OOD) 테스트 세트로 분할된다.
- ID/OOD 분리: ID 및 OOD 세트의 회전은 제외 마진( $\epsilon_{ID} = 8^\circ, \epsilon_{OOD} = 8^\circ$ )과 특정 간격 매개변수를 통해 훈련 세트로부터 엄격히 분리된다.
- 반지름 파티셔닝: 훈련 세트는 반지름 $\{12, 14, 16, 18, 21, 23, 25, 26, 28\}$ 을 포함한다. ID 테스트는 $\{13, 15, 17, 20, 24, 27\}$ 을 사용하며, OOD 테스트는 스케일 외삽(extrapolation)을 조사하기 위해 극단적인 반지름 $\{10, 11, 29, 30\}$ 을 사용한다.

2. 평가 과업

SCALAR는 모델 역량의 다양한 측면을 조사하기 위해 세 가지 과업을 정의한다:

CIF 기반 물성 예측: 모델은 결정 정보 파일(CIF)이 주어졌을 때 나노입자의 물성(밀도, 부피, 최근접 이웃 거리)을 예측한다.
생각의 사슬(Chain-of-Thought, CoT) 추론: 최종 예측 전 물리적 근거를 가진 명시적인 추론 단계를 요구하는 과업 1의 변형이다.
역 검색(Inverse Retrieval): 목표 물성이 주어졌을 때, 모델은 후보군 중에서 올바른 결정 구조를 식별해야 한다.

3. 지표

출력값은 다음과 같은 구조화된 지표를 통해 평가된다:

환각율(Hallucination Rate): 물리적 제약 조건(예: 음수 밀도)을 위반하거나 자기 일관성 실패를 보이는 예측의 빈도.
일관성(Consistency): $N=5$ 번의 독립적인 쿼리에 대한 수치적 예측의 표준 편차.
추론 품질(Reasoning Quality): 반지름 변화에 따른 예측된 물성 변화와 실제 변화량(ground-truth deltas) 사이의 스피어만 상관계수.
정확도(Accuracy): 수치적 예측에 대한 평균 절대 오차(MAE).
물리적 거리 및 후회(Physical Distance & Regret): 역 검색의 경우, 목표 및 제안된 물성 벡터 간의 정규화된 $L_2$ 거리와 선택된 후보의 차선성(suboptimality).

주요 결과

다양한 파운데이션 모델(GPT-5 Mini, o3-mini, Grok, Claude, LLaMA 변형 포함)을 대상으로 한 실험은 중요한 사실을 밝혀냈다:

스케일 의존적 붕괴: 기하학적 스케일 변화는 집계된 정확도만으로는 나타나지 않는 물리적 추론 및 교차 스케일 일관성의 체계적 실패를 드러낸다. OOD 스케일에서는 수치적 오차가 완만하게 저하되더라도 환각율과 불일치성이 급격히 증가한다.
모델별 가변성: 성능은 모델에 따라 크게 달라진다. 예를 들어, 역 검색에서 Grok 4.1 Fast는 높은 top-1 정확도($0.808$ ID, $0.793$ OOD)를 달성한 반면, Claude 3 Haiku와 같은 다른 모델들은 상당한 물리적 거리 오차를 보였다.
재료 특이적 민감도: 오류는 균일하지 않으며 구조에 따라 강하게 의존한다. 일부 재료(예: $LiCaH_3$ )는 OOD 영역에서 거대한 상대적 오차 증가( $>30\%$ ) 또는 부호 역전 현상을 보이는 반면, 다른 재료들은 안정적이다.
CoT 트레이드오프: CoT 프롬프팅은 이질적인 결과를 낳는다. CoT는 종종 수치적 오차와 환각율을 줄여주지만, 특정 모델의 경우 일관성을 불안정하게 만들거나 추론 품질을 저하시키기도 한다. 중간 설명의 이득이 반드시 더 안정적이거나 물리적으로 일관된 예측으로 이어지지는 않는다.
역 검색의 한계: 올바른 후보를 선택하는 높은 정확도가 물리적 충실도를 보장하지는 않는다. 일부 모델은 적절한 검색 정확도에도 불구하고 낮은 물리적 거리(근접 오차)를 유지하는 반면, 다른 모델들은 물리적 성질과 전혀 일치하지 못한다.
베이스라인 비교: 텍스트 기반 LLM과 기하학 네이티브 그래프 신경망(예: SchNet, E(3)NN) 모두 상당한 스케일 의존적 저하를 보인다. GNN은 OOD 영역에서 MAPE가 약 $100\%$ 에서 $>300\%$ 로 증가한다. 부피 스케일 법칙에 기반한 해석적 베이스라인은 강도성(intensive) 물성에는 잘 작동하지만, 크기 의존성(extensive) 물성에는 실패한다.

의의 및 주장

본 논문은 기하학적 스케일 일반화는 정확도만으로는 추론될 수 없다고 주장한다.

원칙적 환각: 저자들은 구조적 스케일 변화 하에서 전역적 물리 불변량을 위반하는 오류가 특정하고 원칙적인 형태의 환각을 구성하며, 이를 위해 표적 진단이 필요하다고 주장한다.
진단적 가치: SCALAR는 모델 평균 정확도 지표에서는 보이지 않는 기하학적 일반화 실패를 진단하기 위한 "원칙적인 렌즈"를 제공한다. 이는 표면적인 오차 지표가 구조적 및 물리적 추론의 실패를 체계적으로 과소평가하고 있음을 강조한다.
현재 프롬프트의 한계: 연구는 CoT 프롬프팅이 단조적이거나 보편적으로 유익한 개입이 아님을 보여준다. 즉, 개선된 추론이 일관성을 희생하는 트레이드오프를 초래할 수 있다.
향-방향: 환각을 기하학적 및 화학적 불일치의 결과로 프레임화함으로써, SCALAR는 현실적인 구조적 분포 변화 하에서의 실패를 진단하고 완화할 수 있는 환경을 제공하여, 재료 과학 분야에서 파운데이션 모델의 더 신뢰할 수 있는 배포를 위한 길을 닦는다.

저자들은 결정론적 슈퍼셀 확장(무질서/결함 무시), 양자 관측량이 아닌 고전적 기하학 계산의 사용, 그리고 CoT 포맷팅 불안정성이 속성 귀속을 복잡하게 만들 가능성 등을 포함한 한계점을 명시적으로 언급하였다.