원저자: Cyprien Bone, Matthew Walker, Bradley A. A. Martin, Kuangdai Leng, Luis M. Antunes, Ricardo Grau-Crespo, Amil Aligayev, Javier Dominguez, Keith T. Butler

게시일 2026-05-29

📖 4 분 읽기☕ 가벼운 읽기

CC BY 4.0

원저자: Cyprien Bone, Matthew Walker, Bradley A. A. Martin, Kuangdai Leng, Luis M. Antunes, Ricardo Grau-Crespo, Amil Aligayev, Javier Dominguez, Keith T. Butler

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성하거나 승인한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

태양전지의 새로운 유형을 발명하거나, 그림자만 보고 신비로운 결정의 모양을 파악하려 한다고 상상해 보세요. 오랫동안 과학자들은 추측과 검증을 반복해야 했으며, 이는 느리고 비용이 많이 들었습니다. 최근 컴퓨터는 이러한 물질을 설계하는 데 '생성형 AI'를 활용하기 시작했는데, 이는 마치 새로운 레시피를 창조할 수 있는 요리사와 같습니다.

그러나 현재의 AI 요리사들에게는 문제가 있습니다. "정확히 설탕 20% 인 케이크를 만들어 줘"라고 요청하면, 그들은 종종 어려움을 겪습니다. '20%'를 't-w-e-n-t-y'와 같이 단어로 철자해 레시피의 흐름을 깨뜨리거나, 설탕 숫자에 너무 집중하다 보니 케이크를 제대로 굽는 법을 잊어버릴 수도 있습니다.

이 논문은 이러한 문제를 해결하는 CrystaLLM-𝜋(발음: '크리스탈엘엠-파이')라는 새로운 AI 시스템을 소개합니다. 간단한 비유를 통해 작동 원리를 설명하면 다음과 같습니다:

1. 문제: '이산적 (Discrete)'과 '연속적 (Continuous)'의 충돌

AI 를 피아노를 연주하는 음악가로 상상해 보세요. 피아노 건반 (음표) 은 이산적입니다. C 나 C# 만 칠 수 있을 뿐, 그 사이의 음은 존재하지 않습니다.

오래된 방식: AI 에게 특정 성질 (예: 특정 '밴드 갭'이나 밀도) 을 가진 물질을 만들라고 지시할 때, 기존 방법들은 AI 가 그 숫자를 단어처럼 취급하도록 강요했습니다. 이는 음악가에게 음표 이름을 글자 하나하나씩 철자해 특정 음을 연주하라고 요구하는 것과 같습니다. 이는 어색하고 혼란스러우며, 종종 음악 (물질) 이 잘못되거나 불안정하게 들리게 만듭니다.
새로운 방식 (CrystaLLM-𝜋): 숫자를 철자하는 대신, 이 새로운 시스템은 음악가에게 연속적인 다이얼을 제공합니다. 원하는 설정으로 다이얼을 돌리면, AI 는 연주하는 동안 그 설정을 직접 느끼게 됩니다. 숫자를 멈춰서 생각할 필요가 없으며, 단순히 원하는 '분위기'를 '알고' 있을 뿐입니다.

2. 해결책: 두 가지 새로운 '다이얼' (프리픽스와 잔여)

연구진은 이러한 다이얼을 AI 의 뇌 (Transformer 라는 유형의 AI 기반) 에 연결하는 두 가지 구체적인 방법을 개발했습니다:

'프리픽스 (Prefix)' 방법 (유령 음표): AI 가 이야기를 쓰고 있다고 가정해 보세요. 프리픽스 방법은 이야기 시작 부분에 목표 성질을 AI 에게 속삭이는 몇 개의 '유령 음표'를 추가합니다. 이 음표들은 이야기의 길이나 구조를 바꾸지 않으며, 단지 분위기를 설정할 뿐입니다. AI 는 그 분위기를 염두에 두면서 이야기의 나머지 부분 (결정 구조) 을 작성합니다.
'잔여 (Residual)' 방법 (배경 윙윙거림): 이는 AI 를 부드럽게 밀어주는 배경 윙윙거림과 같습니다. AI 가 목표 성질에 맞지 않는 내용을 쓰기 시작하면, 윙윙거림이 커져 부드럽게 다시 제자리로 유도합니다. AI 가 이미 올바른 길에 있다면 윙윙거림은 조용해집니다. 이는 매우 유연하여 AI 가 누락된 정보를 우아하게 처리할 수 있게 합니다.

3. 무엇을 테스트했나요?

팀은 이 새로운 시스템을 두 가지 주요 방식으로 테스트했습니다:

A. 새로운 태양광 물질 발명 (발견)
팀은 AI 에게 고효율 태양전지를 위한 새로운 물질을 설계하도록 요청했습니다.

결과: AI 는 이전에 본 적 없는 수천 개의 새로운 안정적인 결정 구조를 성공적으로 생성했습니다.
증거: 최고의 후보들을 선정하여 초정밀 물리 시뮬레이션 (DFT 라고 함) 을 실행했습니다. 이들 중 몇몇 AI 가 설계한 물질은 안정적이었으며, 그들이 찾던 고효율을 보여주었습니다. 이는 마치 AI 가 새로운 레시피를 발명했고, 요리사가 실제로 요리해 보니 맛이 delicious 했다는 것과 같습니다.

B. 그림자에서 미스터리 해결 (복원)
때로는 과학자들이 결정은 가지고 있지만 정확한 모양을 모를 때가 있습니다. 그들은 오직 X 선 회절 패턴 (결정의 그림자 또는 바코드와 같은 것) 만을 가지고 있습니다.

결과: 연구진은 이러한 '그림자'를 CrystaLLM-𝜋에 입력했습니다. AI 는 높은 정확도로 원래의 3 차원 결정 구조를 재구성할 수 있었습니다.
증거: 복잡한 결정에서도 작동했으며, AI 가 훈련 중에 본 적이 없는 특정 형태 (예: 이산화 티타늄의 두 가지 다른 형태인 루틸과 아나타제) 를 구별할 수 있을 정도로 동일한 물질의 다른 형태 (다형체) 를 구별해 냈습니다.

4. 왜 이것이 중요한가요?

가볍고 빠릅니다: 슈퍼컴퓨터와 같은 막대한 컴퓨팅 파워가 필요한 다른 AI 모델들과 달리, 이 모델은 표준 그래픽 카드에서 효율적으로 실행됩니다.
잊지 않습니다: AI 의 일반적인 문제는 새로운 기술을 가르치면 이전에 알았던 모든 것을 잊어버린다는 점입니다. CrystaLLM-𝜋는 이러한 새로운 '다이얼'을 배우면서도 기본 결정 생성 방법을 잊지 않도록 설계되었습니다.
유연합니다: 동일한 기본 시스템을 사용하여 새로운 물질을 발명하거나 오래된 미스터리를 해결할 수 있습니다.

요약

간단히 말해, CrystaLLM-𝜋는 AI 를 이용해 결정을 설계하는 더 지능적인 방법입니다. AI 에게 필요한 성질을 '철자'하도록 강요하는 대신, AI 가 그 성질을 직접 '느끼게' 합니다. 이를 통해 과학자들은 태양 에너지와 같은 새로운 물질을 발명하거나, 이전보다 훨씬 빠르고 정확하게 미지의 결정 구조를 파악할 수 있습니다. 이 논문은 이 방법이 실제로 작동하여 엄격한 과학적 검증을 통과한 실제 안정적인 물질을 생산함을 보여줍니다.

기술 요약: 속성 조건부 트랜스포머를 통한 결정성 물질의 발견 및 복원

문제 제기

새로운 기능성 물질의 발견은 역사적으로 무기 시스템의 광범위한 조성 공간과 후보 물질의 특성 분석에 따른 계산 비용으로 인해 방해받아 왔습니다. 생성형 인공지능은 이 과정을 가속화할 수 있는 경로를 제공하지만, 기존 트랜스포머 기반 접근법은 역설계(특정 목표 속성을 가진 구조를 생성) 를 시도할 때 상당한 한계에 직면합니다.

일반적인 트랜스포머 아키텍처는 연속적인 물리적 속성 (예: 밴드 갭, 밀도) 을 인코딩하기 위해 이산적인 자릿수 단위 토큰화를 사용합니다. 이 접근법은 몇 가지 치명적인 문제를 야기합니다:

표현적 충돌: 국소 공간 좌표와 전역 연속 속성 모두에 동일한 이산 토큰을 사용하면 임베딩 공간 내에서 충돌이 발생합니다.
서열 관계의 상실: 자릿수 단위 토큰화는 연속 물리 값에 내재된 서열 관계를 파괴하여 매끄러운 수학적 보간을 방해합니다.
파괴적 망각: 결정학 정보 파일 (CIF) 에 대한 비지도 사전 학습을 통해 획득한 근본적인 구조 지식을 교란시키는 아키텍처 수정 없이 특정 속성 데이터셋으로 사전 학습된 모델을 미세 조정하는 것은 종종 파괴적 망각을 초래합니다.
비효율성: 시퀀스 단위 조건부 처리 (예: 속성 토큰을 앞에 추가) 는 시퀀스 길이를 증가시키고 CIF 생성을 지배하는 토큰 표현을 교란시켜 불안정성과 구조적 유효성 감소를 초래합니다.

방법론: CrystaLLM- $\pi$

이러한 한계를 해결하기 위해 저자들은 CrystaLLM- $\pi$ (속성 주입) 를 도입했습니다. 이는 연속적인 속성 표현을 시퀀스 단위 토큰화를 우회하여 트랜스포머의 어텐션 메커니즘에 직접 통합하는 조건부 자기회귀 프레임워크입니다.

핵심 아키텍처

이 모델은 라벨이 없는 대량의 CIF 코퍼스로 사전 학습된 원래 CrystaLLM 의 GPT-2 아키텍처를 기반으로 구축됩니다. 속성 조건부 생성을 가능하게 하기 위해, 이 프레임워크는 연속적인 조건 벡터 ( $c \in \mathbb{R}^P$ ) 를 멀티헤드 어텐션 (MHA) 레이어에 직접 주입하는 두 가지 새로운 어텐션 메커니즘을 도입합니다:

속성 - 키 - 값 (PKV) 프리픽스 어텐션:
- 프리픽스 튜닝에서 영감을 받아 이 방법은 조건 벡터에서 "유령" 키 - 값 (KV) 쌍을 생성합니다.
- 이러한 KV 쌍은 어텐션 레이어 내에서 입력 시퀀스의 KV 쌍과 연결됩니다.
- 이는 피드포워드 신경망 (FFNN) 레이어나 입력 토큰을 수정하지 않고도 효과적인 컨텍스트 윈도우를 확장하는 "강한" 구조적 편향을 부과합니다.
PKV 잔여 어텐션:
- 이 방법은 "연약한" 조건부 처리 메커니즘을 도입합니다.
- 입력 쿼리와 조건에서 유도된 키/값 간의 병렬 "잔여" 어텐션 점수를 계산합니다.
- 최종 어텐션 출력은 기본 자기 어텐션과 잔여 항의 가중 합입니다: $A_{out} = A_{base} + \alpha \cdot A_{Residual}$ .
- 가중치 $\alpha$ 는 (LoRA 와 유사하게) 0 으로 초기화되어, 모델이 초기에 파괴적 망각을 완화하기 위해 사전 학습된 지식에 의존하도록 합니다. 이 아키텍처는 소프트맥스 정규화를 변경하는 시퀀스 길이 변화를 피함으로써 프리픽스 어텐션보다 누락되거나 지정되지 않은 조건을 더 우아하게 처리합니다.

학습 전략

이중 최적화: 사전 학습된 백본 파라미터에는 근본적인 구조 지식을 보존하기 위해 보수적인 학습률을 적용하고, 새로 초기화된 조건부 레이어에는 적응을 가속화하기 위해 더 높은 학습률을 사용합니다.
손실 함수: 초기 학습 단계에서 구문 학습을 가속화하기 위해 고정된 CIF 구문 토큰에 대한 페널티를 포함하는 수정된 교차 엔트로피 손실을 사용합니다.
데이터 처리: 이 프레임워크는 학습을 안정화하기 위해 동적 경계 토큰화 방식과 조건 정렬 배치 방식을 활용합니다.

주요 기여

새로운 조건부 처리 메커니즘: 시퀀스 단위 토큰화의 비효율성을 피하고 어텐션 레이어에 연속 속성을 직접 통합하는 PKV 프리픽스 및 PKV 잔여 어텐션 메커니즘 제안.
구조적 사전 지식 보존: 어텐션 수준 조건부 처리가 비지도 사전 학습으로부터의 풍부한 구조 지식을 보존하여, 희소 라벨 감독 하에서도 높은 구조적 유효성을 유지함을 입증.
포괄적인 벤치마킹: 다양한 데이터셋 크기 (1K~653K 샘플) 와 고유의 물질 설계 작업에 대한 체계적 평가를 통해 시퀀스 단위 및 어텐션 단위 조건부 처리 간의 표준화된 비교 제공.
오픈소스 프레임워크: 사전 학습된 모델, 컨테이너화 된 API, 그리고 접근 가능한 물질 발견을 위한 웹 인터페이스를 갖춘 경량화되고 유연하며 확장 가능한 프레임워크 공개.

결과

1. 견고성 및 조건부 처리 효과성

밴드 갭 조건부 처리: MP 밴드갭 데이터셋에서 사전 학습된 모델은 처음부터 학습된 모델보다 특히 목표 분포의 꼬리 부분에서 현저히 우수한 성능을 보였습니다. 프리픽스 아키텍처는 다양한 데이터셋 크기에서 유효성, 보정, 데이터 효율성 간의 최상의 전체적 균형을 보여주었으며, 전체 데이터를 사용하여 밀도 목표에 대해 높은 $R^2$ 값 (0.97) 과 낮은 평균 절대 오차 (0.72 g/cm³) 를 달성했습니다.
데이터 부족: 저데이터 환경 (1K 샘플) 에서 잔여 아키텍처는 사전 학습된 사전 지식을 교란시키는 것을 최소화하는 가산적 특성으로 인해 다른 방법들이 어려움을 겪는 상황에서 구조적 유효성을 유지하는 우수한 견고성을 보여주었습니다.
확산 모델과의 비교: 그래프 기반 확산 모델인 MatterGen 과 비교했을 때, CrystaLLM- $\pi$ 는 훨씬 낮은 계산 비용 (적은 VRAM, 빠른 학습/추론) 과 완화되지 않은 출력에서 더 높은 대칭성 유지로 요청된 속성 목표에 더 엄격하게 보정되었습니다.

2. 물질 발견: 태양광 후보 물질

이 모델은 분광학적 제한 최대 효율 (SLME) 로 라벨링된 5.35K 개의 무기 구조 데이터셋으로 미세 조정되었습니다.
목표 SLME 를 33.2% 로 조건부 처리한 결과, 모델은 16,463 개의 구조적으로 새로운 후보 물질을 생성했습니다.
DFT 검증: 후보 물질의 일부는 밀도 범함수 이론 (DFT) 을 사용하여 검증되었습니다. Cs $_2$ NaInAs $_2$ (SLME 26.4%) 및 NaHfCuS $_3$ (SLME 23.3%) 와 같은 여러 물질이 안정적이고 고효율 후보로 확인되었습니다.
이 연구는 ab initio 검증의 중요성을 강조했는데, 일부 높은 서rogate 예측 SLME 를 가진 후보 물질이 미묘한 전자 구조 특성 (예: 분리된 전도대 최소값) 으로 인해 하이브리드 DFT 특성 분석 시 실패했기 때문입니다.

3. XRD 로부터의 구조 복원

이 프레임워크는 고차원 연속 신호를 이산 CIF 시퀀스와 정렬해야 하는 작업인 X 선 회절 (XRD) 패턴으로부터 결정 구조를 복원하는 데 테스트되었습니다.
벤치마크 성능: MP-20 및 Jarvis-DFT 벤치마크에서 CrystaLLM- $\pi$ 는 DiffractGPT 및 Uni3Dar 와 같은 베이스라인을 특정 지표에서 능가하는 경쟁력 있는 구조 정확도 (RMSD 약 0.03–0.04 Å) 및 일치율을 달성했습니다.
실험적 복원: Chili-100K 벤치마크에서 XRD 조건부 모델은 **49.04%**의 구조 일치율 (조건부 처리되지 않은 베이스라인의 15.89% 대비) 을 달성했으며, 단위 세포당 최대 83 개의 원자를 가진 구조를 성공적으로 복원했습니다. 반면 조건부 처리되지 않은 모델은 40 개를 초과하는 원자를 가진 시스템에서는 실패했습니다.
다형체 구분: 이 모델은 조성 및 XRD 프로파일만을 사용하여 TiO $_2$ 다형체 (루틸, 아나타제, 브룩 사이트) 를 성공적으로 구분했으며, 심지어 학습 데이터에 전혀 존재하지 않았던 "브룩 사이트" 상을 복원했습니다.

중요성 및 주장

본 논문은 CrystaLLM- $\pi$ 가 연속 속성 제어와 이산 구조 생성 간의 긴장을 해결함으로써 조건부 자기회귀 결정 생성의 새로운 표준을 확립한다고 주장합니다.

역설계 능력: 이 연구는 자기회귀 생성에서의 연속적 제어가 네트워크에 조건부 신호가 어디로 들어가는지에 크게 의존함을 보여줍니다. 적응을 어텐션 경로에 국한시킴으로써, 이 프레임워크는 사전 학습 중 학습된 구조적 사전 지식을 훼손하지 않으면서 희소 화학 공간으로 생성을 유도합니다.
효율성 및 접근성: 이 프레임워크는 확산 기반 모델에 대한 경량 대안을 제공하며, 발견 및 복원 작업 모두에서 최첨단 또는 최첨단 수준의 성능을 유지하면서 계산 자원을 훨씬 적게 요구합니다.
일반화 가능성: 밴드 갭 튜닝, 밀도 조건부 처리, SLME 최적화, XRD 구조 복원 등 다양한 작업에서의 성공은 복잡한 아키텍처 재설계 없이 물질 설계의 다양한 시나리오에 이 방법이 적응 가능함을 시사합니다.

저자들은 이 프레임워크가 학습 데이터에 표현된 화학 공간을 넘어선 외삽은 신뢰할 수 있게 수행할 수 없지만, 목표 기능적 속성을 가진 물질의 발견 가속화 및 실험적 특성 분석 데이터로부터의 구조 해결을 위한 강력하고 접근 가능한 도구를 제공한다고 결론지었습니다.

Discovery and recovery of crystalline materials with property-conditioned transformers