Karen Hambardzumyan, Nicolas Baldwin, Edan Toledo, Rishi Hazra, Michael Kuchnik, Bassel Al Omari, Thomas Simon Foster, Anton Protopopov, Jean-Christophe Gagnon-Audet, Ishita Mediratta, Kelvin Niu, Michael Shvartsman, Alisia Lupidi, Alexis Audran-Reiss, Parth Pathak, Tatiana Shavrina, Despoina Magka, Hela Momand, Derek Dunfield, Nicola Cancedda, Pontus Stenetorp, Carole-Jean Wu, Jakob Nicolaus Foerster, Yoram Bachrach, Martin Josifoski

게시일 2026-03-30

📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 연구원 (AIRA2)"**이라는 새로운 시스템을 소개합니다. 이 시스템은 인공지능이 스스로 과학 연구를 하거나 머신러닝 모델을 개발할 때 겪는 세 가지 큰 장애물을 해결하여, 이전보다 훨씬 더 똑똑하고 빠르게 문제를 해결할 수 있게 만들었습니다.

비유하자면, **이전까지의 AI 연구원들은 "혼자서 밤새도록 고민하는 천재"였다면, AIRA2 는 "최신 장비로 무장한 8 명 팀이 24 시간 내내 돌아가며 협력하는 연구소"**와 같습니다.

이제 이 시스템이 어떻게 작동하는지, 그리고 왜 중요한지 세 가지 핵심 비유로 설명해 드리겠습니다.

1. 병목 현상 해결: "혼자서 차를 타고 가는 것 vs 고속도로를 달리는 8 대의 차량"

기존의 문제:
이전 AI 연구원들은 컴퓨터 한 대 (GPU 1 개) 에서 작업을 할 때, "생각 (계산) → 실행 (모델 훈련) → 결과 확인" 순서로 한 번에 하나씩만 진행했습니다. 마치 한 사람이 차를 타고 목적지까지 가는데, 길이 막히거나 차가 고장 나면 그 자리에서 멈춰야 하는 것과 같습니다. 시간이 너무 오래 걸려서 많은 시도를 해볼 수가 없었습니다.

AIRA2 의 해결책 (비동기 멀티 GPU):
AIRA2 는 **8 대의 고성능 차량 (GPU)**을 동시에 투입합니다.

비동기 (Asynchronous): 한 대의 차가 수리 중이거나 길이가 막혀도, 다른 7 대는 계속 달립니다.
결과: 하루에 할 수 있는 실험 횟수가 8 배로 늘어났습니다. 마치 8 명이 동시에 다른 길을 찾아 헤매는 것과 같아서, 정답을 찾을 확률이 훨씬 높아집니다.

2. 과적합 (Overfitting) 방지: "시험지 답안지 훔쳐보기 vs 숨겨진 모의고사"

기존의 문제:
AI 가 문제를 풀 때, 자신이 만든 답을 스스로 채점하게 하면 "답안지를 훔쳐보는" 행동을 할 수 있습니다. 즉, 시험 문제 (학습 데이터) 에만 맞춰서 점수는 잘 나오지만, 실제 시험 (새로운 데이터) 에서는 망하는 경우가 많았습니다. 이를 '과적합'이라고 하는데, 시간이 지날수록 AI 는 더 좋은 점수를 받으려고 오히려 엉뚱한 방향으로만 나아갔습니다.

AIRA2 의 해결책 (숨겨진 일관성 평가):
AIRA2 는 세 개의 분리된 시험지를 사용합니다.

학습용: AI 가 공부하는 자료.
탐색용 (숨겨진): AI 가 "내 답이 괜찮은가?"를 스스로 확인하는 자료. (AI 는 정답을 모릅니다.)
최종 채점용 (완전 숨김): AI 가 전혀 보지 못한 자료로 최종 점수를 매깁니다.

비유: 마치 AI 가 문제를 풀 때, 정답이 적힌 답안지를 절대 보지 못하게 하고, 오직 "내 풀이 과정이 논리적인가?"만 확인하게 한 뒤, 마지막에 **아예 다른 문제집 (최종 채점용)**으로 실력을 평가하는 것입니다. 이렇게 하면 AI 는 답을 외우지 않고, 진짜 실력을 기르게 됩니다.

3. 고정된 역할 vs 유연한 탐험가: "로봇 팔 vs 탐험가"

기존의 문제:
이전 시스템은 AI 에게 "이건 데이터 분석을 해", "그건 버그를 고쳐"라고 **정해진 명령 (프롬프트)**만 내렸습니다. 만약 예상치 못한 복잡한 버그가 생기면, AI 는 "명령이 없으니 멈춰"라고 하거나 엉뚱한 짓만 반복했습니다.

AIRA2 의 해결책 (ReAct 에이전트):
AIRA2 는 스스로 판단하는 탐험가처럼 행동합니다.

동적 범위 설정: "아, 이 데이터는 이상하네? 일단 차트를 그려보자." -> "아, 버그가 났네? 로그를 보고 원인을 찾아보자." -> "아, 해결됐다! 이제 모델을 다시 훈련하자."
상호작용: 실패하면 다시 시도하고, 로그를 보고 추측을 수정하며 스스로 문제를 해결합니다. 마치 숙련된 연구원이 실험실에서 실패를 반복하며 새로운 아이디어를 찾아내는 과정과 같습니다.

🏆 실제 성과: 얼마나 잘할까요?

이 시스템은 'MLE-bench-30'이라는 AI 경진대회에서 놀라운 결과를 냈습니다.

24 시간 후: 이전 최고의 기록 (69.9%) 을 깨고 **71.8%**의 성적을 거두었습니다.
72 시간 후: 시간이 지날수록 더 좋아져 **76.0%**까지 상승했습니다.

중요한 점: 다른 AI 들은 시간이 지나면 오히려 실력이 떨어지거나 (답을 외워서) 정체되지만, AIRA2 는 시간과 컴퓨터 자원을 더 투입할수록 계속 실력이 좋아집니다.

💡 한 줄 요약

"AIRA2 는 8 명의 팀원이 24 시간 내내 돌아가며 (병목 해결), 답안지를 훔쳐보지 못하게 하고 (과적합 방지), 스스로 문제를 해결하는 (유연한 에이전트) 방식으로, AI 가 과학 연구를 할 때 겪는 모든 걸림돌을 제거한 차세대 연구원입니다."

이 기술은 단순히 경진대회에서 이기는 것을 넘어, 앞으로 AI 가 인간을 대신해 진짜 새로운 과학적 발견을 해내는 시대를 여는 중요한 첫걸음입니다.

Each language version is independently generated for its own context, not a direct translation.

AIRA2: AI 연구 에이전트의 병목 현상 극복에 대한 기술적 요약

이 논문은 Meta FAIR 및 협력 기관 연구자들이 제안한 AIRA2(AI Research Agent 2)를 소개합니다. AIRA2 는 기존 AI 연구 에이전트들이 겪는 세 가지 구조적 성능 병목 현상을 해결하여, 자동화된 과학적 연구 (특히 머신러닝 경쟁) 의 성능을 획기적으로 향상시킨 시스템입니다.

1. 문제 정의 (Problem)

기존 연구 (AIRA-dojo 등) 를 통해 AI 연구 에이전트의 성능 향상을 막는 세 가지 구조적 병목 현상이 식별되었습니다.

**동기식 단일 GPU 실행의 처리량 한계 **(Compute Throughput Bottleneck)
- 기존 에이전트는 실험 결과를 기다리는 동안 추론 루프가 멈추는 동기식 (synchronous) 방식을 사용합니다.
- 모델 학습과 평가에 시간이 오래 걸리는 머신러닝 태스크에서는 샘플 생성 및 탐색 속도가 극도로 느려져, 제한된 시간 내에 충분한 탐색을 수행하지 못합니다.
**일반화 격차 **(Generalization Gap / Overfitting)
- 검증 (Validation) 데이터와 테스트 (Test) 데이터 간의 불일치로 인해 에이전트가 검증 메트릭에 과적합 (Overfitting) 되는 문제가 발생합니다.
- 특히 긴 시간 동안 탐색을 수행할수록, 에이전트는 실제 성능이 아닌 검증 메트릭을 속이는 (Metric Gaming) 방향으로 최적화되어 시간이 지날수록 성능이 저하되는 현상이 관찰되었습니다.
**고정된 단일 턴 연산자의 한계 **(Static Operator Limitation)
- 기존 에이전트는 미리 정의된 프롬프트와 단일 턴 (single-turn) 동작만 수행합니다.
- 복잡한 디버깅, 데이터 탐색, 반복적인 수정이 필요한 연구 작업에서는 이러한 고정된 연산자가 유연하게 대응하지 못해 성능의 상한선이 존재합니다.

2. 방법론 (Methodology)

AIRA2 는 위 세 가지 병목 현상을 해결하기 위해 세 가지 핵심 아키텍처 선택을 도입했습니다.

2.1. 비동기식 멀티 GPU 워커 풀 (Asynchronous Multi-GPU Worker Pool)

동작 방식: 중앙 오케스트레이터가 후보 솔루션 집합 (Population) 을 관리하고, 사용 가능한 GPU 워커가 있을 때마다 변이 (Mutation) 또는 교차 (Crossover) 작업을 비동기적으로 할당합니다.
기술적 특징:
- 동기화 장벽 제거: 느린 워커를 기다리지 않고, 완료된 워커는 즉시 다음 작업을 수행합니다.
- 컨테이너화: Apptainer 컨테이너를 사용하여 격리된 환경에서 코드를 실행하며, 실패 시에도 전체 시스템에 영향을 주지 않습니다.
- 선형적 처리량 향상: GPU 8 개를 사용하면 순차적 실행 대비 약 8 배의 실험 처리량을 달성하여, 수일이 걸리던 탐색을 수 시간으로 단축합니다.

2.2. 숨겨진 일관된 평가 프로토콜 (Hidden Consistent Evaluation, HCE)

데이터 분할: 학습 데이터 ( $D_{train}$ ), 탐색용 검증 데이터 ( $D_{search}$ ), 최종 선택용 검증 데이터 ( $D_{val}$ ) 로 엄격하게 분리합니다.
핵심 메커니즘:
- 숨겨진 라벨: 에이전트는 $D_{search}$ 의 라벨을 볼 수 없으며, 오직 점수만 전달받습니다. 이는 메트릭 조작을 방지합니다.
- 신호 분리: 탐색 (Optimization) 은 $D_{search}$ 를 기반으로 하고, 최종 제출 (Selection) 은 탐색 과정과 완전히 분리된 $D_{val}$ 을 기반으로 합니다.
- 효과: 이는 에이전트가 검증 데이터에 과적합되는 것을 방지하고, 장기적인 탐색에서도 성능이 지속적으로 향상되도록 합니다.

2.3. 동적 범위 설정이 가능한 ReAct 에이전트 (Dynamically Scoped ReAct Agents)

고정 연산자 대체: 미리 정의된 프롬프트 대신 **ReAct **(Reasoning + Acting) 패턴을 따르는 에이전트를 사용합니다.
동적 행동: 에이전트는 실행 시점에 필요한 행동을 스스로 결정합니다 (예: 데이터 분포 분석, 로그 확인, 하이퍼파라미터 튜닝, 디버깅 등).
상호작용적 디버깅: 코드 실행 중 예외가 발생하면, 에이전트는 트레이스백을 관찰하고 가설을 세워 수정한 후 다시 실행합니다. 이는 단일 턴 프롬프트로는 불가능한 복잡한 문제 해결을 가능하게 합니다.

3. 주요 결과 (Results)

실험은 MLE-bench-30(Kaggle 경쟁 30 개) 에서 수행되었으며, 주요 지표는 Percentile Rank(백분위 순위) 입니다.

성능 기록:
- 24 시간: 평균 Percentile Rank 71.8% 달성 (이전 최고 기록인 69.9% 를 상회).
- 72 시간: 평균 Percentile Rank 76.0% 로 지속적으로 향상.
비교 분석:
- 기존 최상위 에이전트 (MARS+, FM-Agent 2.0 등) 보다 우월한 성능을 보였습니다.
- 특히 72 시간 구간에서 기존 시스템들은 성능이 정체되거나 하락하는 반면, AIRA2 는 추가 컴퓨팅 자원에 따라 성능이 선형적으로 증가했습니다.
컴퓨팅 효율성:
- 8 GPU 구성은 초기 탐색 비용이 들지만, 장기적으로는 단일 GPU 대비 훨씬 넓은 탐색 공간을 확보하여 더 높은 성능의 해를 찾습니다.
- 진화적 탐색 (Evolutionary Search) 없이 단순히 병렬화만 한 경우 (Best-of-K) 는 성능이 단일 GPU 수준에 머무르며, 진화적 메커니즘이 병렬 자원을 효과적으로 활용하는 데 필수적임이 입증되었습니다.

4.3.1 병목 현상 해결의 검증 (Ablation Studies)

ReAct 에이전트 제거: 초기 (3 시간) 성능이 5.5 포인트 하락하여, 에이전트가 효율성 증폭기 (Efficiency Multiplier) 역할을 함을 보여줍니다.
HCE 제거: 시간이 지남에 따라 성능이 급격히 저하되어, 일관된 평가 프로토콜이 장기 탐색의 필수 조건임을 입증했습니다. 또한, 이전 연구에서 보고된 "과적합"이 실제 데이터 암기가 아닌 평가 노이즈에 기인했음을 규명했습니다.
단일 GPU 로 축소: 병렬 처리 없이는 탐색 공간이 제한되어 성능 상한선이 낮아집니다.

4. 의의 및 결론 (Significance & Conclusion)

AIRA2 는 AI 연구 에이전트 분야에서 다음과 같은 중요한 기여를 합니다.

구조적 병목 현상의 체계적 해결: 컴퓨팅 처리량, 평가 안정성, 연산자 유연성이라는 세 가지 핵심 문제를 동시에 해결하여 에이전트 성능의 한계를 돌파했습니다.
장기 탐색의 가능성 증명: 기존 시스템이 겪던 "시간이 지날수록 성능이 떨어지는" 현상을 HCE 를 통해 해결함으로써, 에이전트가 장기간의 자율적 연구를 수행할 수 있음을 입증했습니다.
실제 과학적 발견의 가능성: 단순한 경쟁 우승을 넘어, 복잡한 디버깅과 다단계 추론이 필요한 실제 과학적 문제 (예: 분자 특성 예측, NLP 태스크) 에서 인간 수준의 성과를 내고 금메달을 획득하는 등, 진정한 자율적 연구 에이전트의 가능성을 보여주었습니다.

결론적으로, AIRA2 는 단순한 경쟁용 스크립트를 넘어, 고처리량, 개방형 탐색, 안정적인 평가를 기반으로 한 차세대 자율 과학 연구 시스템의 청사진을 제시합니다.

AIRA_2: Overcoming Bottlenecks in AI Research Agents