컴퓨터가 새로운 물질이 어떻게 행동할지 예측하도록 가르친다고 상상해 보세요. 예를 들어, 전기를 얼마나 차단하는지 (밴드 갭) 또는 어떤 온도에서 자성을 잃는지 (큐리 온도) 를 예측하는 것입니다.

보통 컴퓨터를 가르치기 위해 인간 과학자들이 번역자 역할을 해야 합니다. 화학식 (예: "Fe2O3") 을 받아 컴퓨터가 이해할 수 있는 숫자 목록 (기술자) 을 수동으로 작성합니다. 예를 들어, "여기에 철이 있으니 철의 무게에 해당하는 숫자를 추가하자"거나 "산소가 있으니 그 크기에 해당하는 숫자를 추가하자"고 말합니다. 이를 **특성 공학 (feature engineering)**이라고 하며, 이는 요리사가 요리를 하기 전에 모든 야채를 손으로 다듬는 것과 같습니다. 많은 시간이 걸리고 깊은 전문 지식이 필요하며, 때로는 요리사가 완벽한 재료를 놓치기도 합니다.

이 논문은 AUTOMAT이라는 새로운 시스템을 소개합니다. 여기서 AI 에이전트가 요리사 역할을 하지만, 단순히 레시피를 따르는 것이 아니라 스스로 레시피를 발명합니다.

"자율 연구자" 요리사

AUTOMAT 을 코딩 방법을 아는 매우 똑똑하고 지치지 않는 연구 보조원으로 생각하세요. 이 보조원의 임무는 화학식을 컴퓨터가 학습할 수 있는 숫자 목록으로 변환하는 최선의 방법을 찾는 것입니다.

다음은 간단한 비유를 통해 작동 방식을 설명한 것입니다:

목표: AI 는 "무기 물질의 밴드 갭을 예측하라"는 목표를 부여받습니다. 화학식만 사용할 수 있으며 (결정 구조나 외부 데이터베이스는 사용 불가) 라는 제한도 함께 알려집니다.
루프 (요리 사이클):
- 아이디어: AI 는 자신의 이론을 설명하는 메모 (파일명 idea.md) 를 작성합니다. 예를 들어, "원자들 사이의 '자기적 강도' 차이를 계산하면 컴퓨터가 더 잘 학습할 것 같다"고 생각합니다.
- 코드: 그런 다음 이 계산을 수행하는 실제 컴퓨터 코드를 작성합니다.
- 맛보기: 표준 "맛보기" 방법 (신뢰할 수 있고 간단한 유형의 AI 인 Random Forest 모델) 을 사용하여 테스트를 실행합니다. 확인합니다: "새로운 숫자 목록이 예측 정확도를 높였는가?"
- 결정:
  - 예측이 더 좋아지면, AI 는 새로운 숫자 목록을 유지하고 다음 아이디어로 넘어갑니다.
  - 예측이 나빠지면, AI 는 그 아이디어를 쓰레기통에 버리고 마지막 "좋은" 목록으로 돌아갑니다.
가드레일: AI 가 컴퓨터를 혼란스럽게 할 수 있는 무작위 숫자 백만 개 목록을 만드는 것을 막기 위해, 시스템은 "홀드아웃 (held-out)" 테스트 세트를 갖습니다. 이는 AI 가 마지막까지 절대 볼 수 없는 비밀 시험과 같습니다. AI 는 오직 실전 시험을 통과하는 데 도움이 되는 변경 사항만 유지할 수 있으며, 어떤 숫자 목록을 사용할지 최종 결정은 비밀 시험에서의 수행 정도에 기반합니다.

그들은 무엇을 발견했는가?

연구자들은 이 AI 요리사를 두 가지 특정 "요리"로 테스트했습니다:

밴드 갭: 물질이 빛을 얼마나 차단하는지 예측.
큐리 온도: 자석이 자성을 잃는 시점 예측.

그들은 AI 가 스스로 만든 숫자 목록을 인간이 만든 목록 (Magpie 나 간단한 "분율 조성"과 같은 표준 방법 사용) 과 비교했습니다.

결과:

AI 가 승리: 두 경우 모두 자율 AI 가 생성한 숫자 목록이 인간이 만든 목록보다 더 정확한 예측을 제공했습니다.
AI 가 화학을 이해함: AI 는 무작위 숫자를 벽에 던진 것이 아닙니다. 실제 화학자들이 중요하다고 아는 개념들을 스스로 발견했습니다.
- 밴드 갭의 경우, AI 는 "산화 상태" (원자의 전하 상태) 와 "전하 균형"이 중요하다는 것을 깨달았습니다. 이는 스스로 알아낸 것입니다.
- 자석의 경우, AI 는 철과 코발트와 같은 자기적 원소의 특정 혼합과 그들이 희토류 원소와 어떻게 상호작용하는지가 핵심임을 깨달았습니다.
인간 도움 불필요: AI 는 인간이 무엇을 계산하라고 지시하지 않고도 모든 것을 수행했습니다. 목표와 규칙만 알면 나머지는 스스로 찾아냈습니다.

한계점 (타버린 토스트)

이 논문은 AI 가 여전히 어려움을 겪는 부분을 솔직하게 밝힙니다:

탐욕스러움: AI 는 때로 데이터가 지저분해지기 시작할 때도 "더 많을수록 좋다"고 생각하며 숫자 목록에 계속 더 많은 숫자를 추가합니다. "좋아, 재료를 더 추가하지 마, 요리가 완성됐어"라고 인간이 말해줘야 합니다.
반복: 때로 AI 는 이미 다른 형태로 가지고 있는 숫자를 다시 추가합니다. 예를 들어 "소금"을 추가한 다음 별도로 "나트륨"을 추가하는 식입니다. 이는 요리하는 가장 효율적인 방법은 아니지만 여전히 작동합니다.
정지 버튼 필요: AI 는 스스로 언제 멈춰야 할지 모릅니다. "충분히 시도했으니 결과를 보자"라고 인간이 말해줘야 합니다.

결론

이 논문은 AI 에이전트가 단순히 데이터를 사용하는 것을 넘어, 다른 AI 들에게 데이터를 제시하는 방식 자체를 설계할 수 있음을 보여줍니다. 이는 컴퓨터가 우리가 설계한 언어를 강제로 말하게 하는 대신, 세상을 설명할 자신의 어휘를 발명할 수 있게 하는 것과 같습니다.

재료 과학 분야에서는 이로 인해 곧 새로운 물질의 특성을 예측하는 최선의 방법을 빠르게 찾아낼 수 있는 AI 보조 도구를 갖게 될지도 모릅니다. 이는 과학자들이 수년에 걸친 수동적인 시행착오를 절약해 줄 것입니다. AI 는 단순히 더 나은 답을 찾은 것이 아니라, 데이터에 묻는 더 나은 질문을 찾았습니다.

기술적 요약: 재료 과학 응용을 위한 자동 연구를 통한 구성 기술자 설계

문제 정의

기술적으로 관련 있는 특성을 가진 재료의 발견은 종종 실험 데이터로 훈련된 머신러닝 (ML) 모델에 의해 가속화됩니다. 구성 기반 모델은 결정학적 데이터가 종종 구할 수 없다는 필요성을 우회하며 화학식만 입력으로 요구하기 때문에 매력적이지만, 이러한 모델의 예측 성공은 화학식이 수치 입력 (기술자) 으로 어떻게 표현되는지에 결정적으로 의존합니다.

효과적인 기술자를 선택하는 것은 여전히 비단순적이며 작업에 종속적인 과제로, 전통적으로 상당한 도메인 전문성과 수동 특징 공학에 의존해 왔습니다. 재료 과학 실험에서 흔히 발생하는 저데이터 환경에서는 모델이 원시 데이터에서 풍부한 표현을 학습하는 것만으로는 의존할 수 없습니다. 대신, 기술자는 화학적 및 물리적으로 관련 있는 정보를 명시적으로 노출해야 합니다. 최근 대형 언어 모델 (LLM) 의 발전으로 반복적인 코드 생성과 과학적 추론이 가능한 에이전트 시스템을 가능하게 했지만, 재료 특성 예측을 위한 입력 기술자 설계라는 구체적인 작업에 대한 적용은 아직 탐구되지 않았습니다. 본 논문은 다음과 같은 질문에 답합니다: 자율 연구 에이전트가 수동 특징 공학 없이 경쟁력 있는 작업별 구성 기술자를 설계할 수 있는가?

방법론: AUTOMAT 프레임워크

저자들은 Karpathy 가 제안한 패러다임을 적용한 AUTOMAT라는 자동 연구 프레임워크를 소개합니다. AUTOMAT 는 OpenAI Codex(GPT-5.5) 를 기반으로 한 LLM 기반 코딩 에이전트를 사용하여 구성 기술자를 자율적으로 제안, 구현, 평가 및 정제합니다.

핵심 워크플로우

제약 조건 및 입력: 에이전트는 pymatgen 라이브러리를 사용하여 화학식에서 유래할 수 있는 정보로만 제한됩니다. 설계 단계 중에는 구조 데이터, 외부 데이터베이스 또는 테스트 세트 레이블에 접근할 수 없습니다.
반복 루프:
- 제안: 에이전트는 새로운 기술자 전략 뒤의 화학적 또는 물리적 추론을 상세히 설명하는 자연어 계획 (idea.md) 을 작성합니다.
- 구현: 에이전트는 화학식을 수치 특징 벡터로 변환하는 실행 가능한 Python 코드 (idea.py) 를 작성합니다.
- 평가: 기술자는 scikit-learn으로 구현된 고정된 랜덤 포레스트 회귀 워크플로우를 사용하여 평가됩니다.
- 수용/거부: 검색을 관리하는 2 단계 검증 프로토콜이 적용됩니다:
  - 내부 루프: 훈련/검색 세트에 대한 고정된 계층화 $n$ -폴드 교차 검증을 통해 평균 절대 오차 (cv-MAE) 를 계산합니다. 후보가 현재 최상의 체크포인트 대비 cv-MAE 를 개선하면 잠정적으로 수용됩니다.
  - 외부 루프: 수용된 후보는 홀드아웃 검증 세트에서 평가됩니다. 이 지표는 일반화를 모니터링하며 훈련 폴드에 대한 과적합을 방지하기 위한 중지 기준으로 작용합니다.
종료: 최대 반복 횟수에 도달하거나 홀드아웃 검증 MAE 가 사전 정의된 수의 수용된 업데이트 동안 개선되지 않을 때 실행이 중단됩니다. 최종 기술자 세트는 홀드아웃 검증 성능과 기술자 복잡성 간의 최상의 절충점에 따라 선택됩니다.

실험 작업

이 프레임워크는 구성만 있는 두 가지 회귀 작업에서 테스트되었습니다:

실험적 밴드 갭 예측: 4,604 개의 무기 화합물의 밴드 갭 예측.
큐리 온도 예측: 3,638 개의 강자성 화합물의 큐리 온도 예측.

에이전트는 프롬프트 엔지니어링 편향을 피하기 위해 최소한의 한 줄 작업 설명을 제공받았습니다.

주요 기여

자율 기술자 설계: 이 논문은 최적화 루프 동안 인간의 개입 없이 자율 에이전트가 기존 베이스라인 (분수 구성 배열, Magpie 기술자 및 이들의 조합) 을 능가하는 작업별 기술자를 생성할 수 있음을 보여줍니다.
화학적 해석 가능성: "블랙박스" 특징 공학과 달리 AUTOMAT 워크플로우는 화학적으로 해석 가능한 기술자 계열을 생성합니다. 에이전트의 idea.md 파일은 각 특징 추가 뒤의 과학적 추론 (예: 전하 균형, 자기 서브격자) 에 대한 감사 가능한 기록을 제공합니다.
고정 워크플로우 벤치마킹: 학습 알고리즘 (랜덤 포레스트) 과 평가 프로토콜을 일정하게 유지함으로써, 연구는 기술자 설계 자체의 기여도를 분리하여 모델 아키텍처가 고정되어 있더라도 에이전트가 생성한 특징이 성능을 향상시킬 수 있음을 증명합니다.

결과

두 가지 목표 작업 모두에서 AUTOMAT 가 생성한 기술자는 세 가지 베이스라인 표현보다 우수한 성능을 달성했습니다:

밴드 갭 예측: AUTOMAT 는 테스트 MAE 를 0.407 eV(최고 베이스라인: 분수 + Magpie) 에서 0.352 eV로 줄였으며, $R^2$ $R^{2}$ 를 0.646 에서 0.706 으로 향상시켰습니다.
- 주요 발견: 에이전트는 산화 상태, 전하 균형, 이온 강도 및 양이온 - 음이온 분할을 인코딩하는 기술자가 중요하다는 것을 확인했습니다. 또한 열역학적 특성과 원소 계열 분율도 포함시켰습니다.
큐리 온도 예측: AUTOMAT 는 테스트 MAE 를 72.16 K에서 67.13 K로 줄였으며, $R^2$ $R^{2}$ 를 0.836 에서 0.849 로 향상시켰습니다.
- 주요 발견: 에이전트는 자기 화학을 우선시하여 자기 서브격자 비율, 희토류 및 악티늄족 분율, 그리고 자기 및 비자기 서브격자 간의 상호작용과 관련된 특징을 생성했습니다.

선택된 기술자 세트는 화학적으로 타당하여 화학량론적 통계, 가중치 원소 특성 및 작업별 항 (예: 밴드 갭을 위한 이온 균형, 큐리 온도를 위한 자기 서브격자 분율) 을 결합했습니다.

한계 및 관찰

저자들은 현재 구현의 몇 가지 한계를 지적합니다:

탐욕적 검색: 즉각적인 cv-MAE 개선에 기반한 엄격한 수용/거부 기준은 중복 특징의 축적으로 이어질 수 있습니다. 에이전트는 특징 공간을 탐욕적으로 확장하는 경향이 있으며, 때로는 정보를 중복시킵니다 (예: 대상 계열과 일반 구성 배열 모두에 원소 분율 포함).
명시적 복잡성 제어의 부재: 기술자 크기에 대한 명시적 페널티가 없으면 에이전트는 일반화가 잘 되지 않는 고차원 표현을 생성할 수 있으며, 이는 최종 선택을 위해 홀드아웃 검증 세트 사용을 필요로 합니다.
세분화: 에이전트는 종종 개별 특징을 미세 조정하는 대신 기술자 전체 "블록"을 수정하므로, 모델을 단순화할 때 불필요한 중복이 유지될 수 있습니다.

중요성 및 주장

이 논문은 AUTOMAT 가 전통적으로 상당한 도메인 전문성을 요구하는 작업을 효과적으로 자동화하는 경쟁력 있는 작업별 재료 기술자를 생성할 수 있음을 보여주는 실용적인 사례임을 주장합니다.

중요성은 새로운 최첨단 예측기를 확립하는 데 (사용된 모델은 표준 랜덤 포레스트이므로) 있는 것이 아니라, 자율 에이전트가 입력 특징을 설계하기 위해 과학적 추론을 수행할 수 있음을 증명하는 데 있습니다. 이 워크플로우는 다음과 같은 이중적 이점을 제공합니다:

성능: 표준 베이스라인 대비 예측 정확도를 향상시킵니다.
해석 가능성: 특정 특성에 대해 정보적인 화학적 특징이 무엇인지에 대한 검사 가능한 기록을 생성하여 연구자가 데이터 세트를 이해하고 관련 화학적 경향을 식별하는 데 도움을 줄 수 있습니다.

저자들은 AUTOMAT 를 재료 과학의 미래 에이전트 워크플로우를 위한 기준 프레임워크로 위치시키며, 이 패러다임을 구조적 기술자나 문헌에서 유래한 정보를 포함하도록 확장하면 더 넓은 범위의 모델링 문제를 해결할 수 있다고 제안합니다. 그들은 현재 LLM 이 자동 연구를 위해 특별히 최적화되지는 않았지만, 과학적 지식, 코딩 능력, 논리적 반복의 필요한 조합을 가지고 과학 연구 루프에 의미 있게 참여할 수 있다고 결론지었습니다.

Agentic Design of Compositional Descriptors via Autoresearch for Materials Science Applications