AIRA_2: Overcoming Bottlenecks in AI Research Agents

본 논문은 비동기 멀티 GPU 워크풀, 숨겨진 일관성 평가 프로토콜, 그리고 상호작용적 디버깅이 가능한 ReAct 에이전트라는 세 가지 아키텍처 개선을 통해 기존 AI 연구 에이전트의 병목 현상을 해결하고 MLE-bench-30 벤치마크에서 기존 최고 성능을 능가하는 결과를 달성한 AIRA_2 를 제안합니다.

Karen Hambardzumyan, Nicolas Baldwin, Edan Toledo, Rishi Hazra, Michael Kuchnik, Bassel Al Omari, Thomas Simon Foster, Anton Protopopov, Jean-Christophe Gagnon-Audet, Ishita Mediratta, Kelvin Niu, Michael Shvartsman, Alisia Lupidi, Alexis Audran-Reiss, Parth Pathak, Tatiana Shavrina, Despoina Magka, Hela Momand, Derek Dunfield, Nicola Cancedda, Pontus Stenetorp, Carole-Jean Wu, Jakob Nicolaus Foerster, Yoram Bachrach, Martin Josifoski

게시일 2026-03-30
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"AI 연구원 (AIRA2)"**이라는 새로운 시스템을 소개합니다. 이 시스템은 인공지능이 스스로 과학 연구를 하거나 머신러닝 모델을 개발할 때 겪는 세 가지 큰 장애물을 해결하여, 이전보다 훨씬 더 똑똑하고 빠르게 문제를 해결할 수 있게 만들었습니다.

비유하자면, **이전까지의 AI 연구원들은 "혼자서 밤새도록 고민하는 천재"였다면, AIRA2 는 "최신 장비로 무장한 8 명 팀이 24 시간 내내 돌아가며 협력하는 연구소"**와 같습니다.

이제 이 시스템이 어떻게 작동하는지, 그리고 왜 중요한지 세 가지 핵심 비유로 설명해 드리겠습니다.


1. 병목 현상 해결: "혼자서 차를 타고 가는 것 vs 고속도로를 달리는 8 대의 차량"

기존의 문제:
이전 AI 연구원들은 컴퓨터 한 대 (GPU 1 개) 에서 작업을 할 때, "생각 (계산) → 실행 (모델 훈련) → 결과 확인" 순서로 한 번에 하나씩만 진행했습니다. 마치 한 사람이 차를 타고 목적지까지 가는데, 길이 막히거나 차가 고장 나면 그 자리에서 멈춰야 하는 것과 같습니다. 시간이 너무 오래 걸려서 많은 시도를 해볼 수가 없었습니다.

AIRA2 의 해결책 (비동기 멀티 GPU):
AIRA2 는 **8 대의 고성능 차량 (GPU)**을 동시에 투입합니다.

  • 비동기 (Asynchronous): 한 대의 차가 수리 중이거나 길이가 막혀도, 다른 7 대는 계속 달립니다.
  • 결과: 하루에 할 수 있는 실험 횟수가 8 배로 늘어났습니다. 마치 8 명이 동시에 다른 길을 찾아 헤매는 것과 같아서, 정답을 찾을 확률이 훨씬 높아집니다.

2. 과적합 (Overfitting) 방지: "시험지 답안지 훔쳐보기 vs 숨겨진 모의고사"

기존의 문제:
AI 가 문제를 풀 때, 자신이 만든 답을 스스로 채점하게 하면 "답안지를 훔쳐보는" 행동을 할 수 있습니다. 즉, 시험 문제 (학습 데이터) 에만 맞춰서 점수는 잘 나오지만, 실제 시험 (새로운 데이터) 에서는 망하는 경우가 많았습니다. 이를 '과적합'이라고 하는데, 시간이 지날수록 AI 는 더 좋은 점수를 받으려고 오히려 엉뚱한 방향으로만 나아갔습니다.

AIRA2 의 해결책 (숨겨진 일관성 평가):
AIRA2 는 세 개의 분리된 시험지를 사용합니다.

  1. 학습용: AI 가 공부하는 자료.
  2. 탐색용 (숨겨진): AI 가 "내 답이 괜찮은가?"를 스스로 확인하는 자료. (AI 는 정답을 모릅니다.)
  3. 최종 채점용 (완전 숨김): AI 가 전혀 보지 못한 자료로 최종 점수를 매깁니다.

비유: 마치 AI 가 문제를 풀 때, 정답이 적힌 답안지를 절대 보지 못하게 하고, 오직 "내 풀이 과정이 논리적인가?"만 확인하게 한 뒤, 마지막에 **아예 다른 문제집 (최종 채점용)**으로 실력을 평가하는 것입니다. 이렇게 하면 AI 는 답을 외우지 않고, 진짜 실력을 기르게 됩니다.

3. 고정된 역할 vs 유연한 탐험가: "로봇 팔 vs 탐험가"

기존의 문제:
이전 시스템은 AI 에게 "이건 데이터 분석을 해", "그건 버그를 고쳐"라고 **정해진 명령 (프롬프트)**만 내렸습니다. 만약 예상치 못한 복잡한 버그가 생기면, AI 는 "명령이 없으니 멈춰"라고 하거나 엉뚱한 짓만 반복했습니다.

AIRA2 의 해결책 (ReAct 에이전트):
AIRA2 는 스스로 판단하는 탐험가처럼 행동합니다.

  • 동적 범위 설정: "아, 이 데이터는 이상하네? 일단 차트를 그려보자." -> "아, 버그가 났네? 로그를 보고 원인을 찾아보자." -> "아, 해결됐다! 이제 모델을 다시 훈련하자."
  • 상호작용: 실패하면 다시 시도하고, 로그를 보고 추측을 수정하며 스스로 문제를 해결합니다. 마치 숙련된 연구원이 실험실에서 실패를 반복하며 새로운 아이디어를 찾아내는 과정과 같습니다.

🏆 실제 성과: 얼마나 잘할까요?

이 시스템은 'MLE-bench-30'이라는 AI 경진대회에서 놀라운 결과를 냈습니다.

  • 24 시간 후: 이전 최고의 기록 (69.9%) 을 깨고 **71.8%**의 성적을 거두었습니다.
  • 72 시간 후: 시간이 지날수록 더 좋아져 **76.0%**까지 상승했습니다.

중요한 점: 다른 AI 들은 시간이 지나면 오히려 실력이 떨어지거나 (답을 외워서) 정체되지만, AIRA2 는 시간과 컴퓨터 자원을 더 투입할수록 계속 실력이 좋아집니다.

💡 한 줄 요약

"AIRA2 는 8 명의 팀원이 24 시간 내내 돌아가며 (병목 해결), 답안지를 훔쳐보지 못하게 하고 (과적합 방지), 스스로 문제를 해결하는 (유연한 에이전트) 방식으로, AI 가 과학 연구를 할 때 겪는 모든 걸림돌을 제거한 차세대 연구원입니다."

이 기술은 단순히 경진대회에서 이기는 것을 넘어, 앞으로 AI 가 인간을 대신해 진짜 새로운 과학적 발견을 해내는 시대를 여는 중요한 첫걸음입니다.