← 최신 논문
🔬 materials science

SCALAR: Quantifying Structural Hallucination, Consistency, and Reasoning Gaps in Materials Foundation Models

이 논문은 재료 파운데이션 모델이 다양한 나노입자 구조 전반에 걸쳐 기하학적 규모 일반화와 구조적 추론을 어떻게 처리하는지 평가하기 위해 설계된 벤치마크인 SCALAR을 소개하며, 명시적인 물리 기반 추론이 환각과 오류를 줄일 수는 있지만 종종 출력의 일관성과 타당성을 저해한다는 점을 밝힌다.

원저자: Can Polat, Erchin Serpedin, Mustafa Kurban, Hasan Kurban

게시일 2026-02-02
📖 4 분 읽기☕ 가벼운 읽기

원저자: Can Polat, Erchin Serpedin, Mustafa Kurban, Hasan Kurban

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

당신에게 완벽하고 무한한 마천루의 설계도를 읽는 데 매우 능숙한 마스터 건축가가 있다고 상상해 보십시오. 이 건축가(이러한 유형의 AI를 '파운데이션 모델'이라고 부릅니다)는 설계도만 보고도 건물의 재료, 강도, 디자인에 대해 모든 것을 말해줄 수 있습니다.

하지만 여기 함정이 있습니다. 이 건축가는 그 마천루를 레고로 만든 작은 모델로 설계하라는 요청을 받은 적이 없으며, 단 하나의 레고 브릭만 보고 원래의 마천루가 어떻게 생겼는지 알아내라는 요청을 받은 적도 없습니다.

이 논문은 이 AI 건축가들이 "무한한 마천루"에서 "작은 레고 모델"로 넘어갈 때 정신을 놓지 않고 이를 처리할 수 있는지 확인하기 위한 새로운 테스트인 SCALAR를 소개합니다.

핵심 문제: "환각(Hallucation)"의 덫

AI의 세계에서 "환각"은 단순히 무언가를 지어내는 것이 아닙니다. 그것은 맞는 것처럼 들리지만 물리 법칙을 깨뜨리는 것을 자신 있게 진술하는 것을 의미합니다.

이렇게 생각해 보십시오. 만약 당신이 사람에게 물로 된 완벽한 구체를 상상해 보라고 한다면, 그들은 그것이 둥글다는 것을 압니다. 하지만 만약 당신이 물로 된 정육면체를 상상해 보라고 한다면, 그들은 물이 자연적으로 정육면체를 형성하지 않기 때문에 주저할 것입니다. 그러나 만약 당신이 AI에게 "입방체 모양의 물 결정"을 상상해 보라고 했을 때, AI가 자신 있게 "네, 모서리는 날카롭고 밀도는 높습니다"라고 말한다면, 그것은 환각을 일으킨 것입니다. AI는 물 분자가 작동하는 방식을 무시한 것입니다.

이 논문은 현재의 AI 모델들이 재료의 "무한한" 버전(벌크 결정)을 설명하는 데는 뛰어나지만, "유한한" 버전(작은 나노 입자)을 설명하라고 요청받으면 처참하게 실패하는 경우가 많다고 주장합니다. AI는 수치는 맞출 수 있지만, 원자들이 서로 결합하는 근본적인 규칙을 위반할 수 있습니다.

테스트 방식 (세 가지 도전 과제)

연구진은 몇 개의 원자부터 18,000개가 넘는 원자에 이르기까지 다양한 구조를 포함하는 10만 개의 거대한 데이터셋을 구축했습니다. 그런 다음 AI를 세 가지 특정 테스트에 투입했습니다.

  1. "줌 아웃(Zoom-Out)" 테스트 (CIF에서 속성으로):

    • 설정: 당신은 AI에게 완벽한 결정(단위 격자, Unit Cell)의 설계도를 줍니다.
    • 과업: AI는 그 결정에서 일부를 잘라낸 작은 조각(나노 입자)의 특성을 예측해야 합니다.
    • 반전: AI는 조각이 커지거나 작아짐에 따라 특성이 어떻게 변하는지를 파악해야 합니다.
    • 결과: 많은 AI가 기본적인 수학은 맞혔지만, 추세를 이해하는 데는 실패했습니다. 그들은 "조각이 커질수록 밀도는 일정하게 유지되어야 한다"라거나 "조각이 작아질수록 표면적이 변해야 한다"와 같은 내용을 일관되게 말하지 못했습니다.
  2. "생각하며 말하기" 테스트 (사고의 사슬, Chain-of-Thought):

    • 설정: 연구진은 AI에게 다음과 같이 말했습니다. "단순히 답만 내놓지 말고, 물리학을 사용하여 단계별로 추론 과정을 설명하세요."
    • 결과: 이것은 양날의 검이었습니다. 때때로 AI에게 "생각"하도록 강요하는 것이 정확도를 높이기도 했습니다. 하지만 종종, 이는 AI를 더 일관성 없게 만들었습니다. AI는 한 번의 시도에서는 훌륭한 설명을 내놓았다가도, 똑같은 질문에 대해 다음번에는 완전히 다르고 틀린 설명을 내놓기도 했습니다. 이는 마치 수학 문제를 풀 때는 완벽하게 적어 내려가지만, 왜 그렇게 했는지 설명해야 하면 혼란에 빠지는 학생과 같습니다.
  3. "역추적 탐정" 테스트 (역방향 검색, Inverse Retrieval):

    • 설정: 당신은 AI에게 일련의 특성(예: "이 재료는 무겁고, 특정 부피를 가지며, 매우 밀도가 높다")을 줍니다.
    • 과업: AI는 후보군 중에서 올바른 설계도를 골라내야 합니다.
    • 결과: 어떤 AI들은 매우 뛰어난 탐정처럼 행동하며 이 과업을 수행했습니다. 그러나 다른 AI들은 그 재료에 대한 설명이 물리적으로 타당함에도 불구하고 잘못된 설계도를 선택했습니다. 그들은 그럴듯하게 들리지만 실제로는 틀린 재료를 찾아낸 것입니다.

거대한 발견: 정확도는 거짓말이다

이 논문의 가장 중요한 발견은 AI가 정답을 맞혔다고 해서 그 AI를 신뢰해서는 안 된다는 것입니다.

학생이 시험을 치르는 상황을 상상해 보십시오.

  • 학생 A는 90%의 정답을 맞혔지만, 질문할 때마다 답을 바꿉니다.
  • 학생 B는 85%의 정답을 맞혔지만, 그의 답변은 항상 일관되고 논리적인 패턴을 따릅니다.

현재의 벤치마크는 대개 점수(90% 대 85%)만을 봅니다. 이 논문은 이렇게 말합니다. "잠깐만요! 학생 A는 자신의 이야기를 일관되게 유지하지 못하기 때문에 신뢰할 수 없습니다."

연구진은 AI를 "분포 외(Out-of-Distribution)" 데이터(AI가 본 적 없는 크기)로 테스트했을 때, AI의 원시 정확도 수치는 괜찮아 보일지라도 일관성을 유지하고 물리 법칙을 따르는 능력이 붕괴된다는 것을 발견했습니다.

시사점

이 논문은 우리가 과학 분야에서 AI를 측정하는 새로운 방법이 필요하다고 결론짓습니다. 우리는 단순히 "답이 맞는가?"라고 물어서는 안 됩니다. 대신 다음과 같이 물어야 합니다.

  • "답이 일관적인가?"
  • "물리 법칙을 따르는가?"
  • "물체의 크기가 변할 때 환각을 일으키는가?"

SCALAR 벤치마크는 우리가 배터리나 의약품을 위한 실제 재료를 설계하기 위해 이 AI 모델들을 신뢰하기 전에, 이러한 "똑똑하지만 미친 듯이 행동하는(smart but crazy)" 순간들을 잡아내기 위해 설계된 도구입니다. 이는 AI가 원자에 대해 이야기할 때, 실제로 원자에 대해 말하고 있는 것인지, 아니면 그저 과학적인 것처럼 들리는 이야기를 지어내고 있는 것인지 확인하기 위한 현실적인 점검입니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →