The World Won't Stay Still: Programmable Evolution for Agent Benchmarks

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"LLM(거대 언어 모델) 기반 에이전트 (AI 비서) 들이 실제로 어떻게 변하는 세상을 살아남을 수 있을까?"**라는 아주 중요한 질문에서 시작합니다.

기존의 AI 평가 방식은 마치 **"고정된 교실"**에서 시험을 치르는 것과 비슷했습니다. 책상, 칠판, 문제지 모두 변하지 않는 상태에서 AI 가 문제를 풀면 점수를 매겼죠. 하지만 현실 세계는 어떨까요? 내일 아침에 책상이 사라지거나, 칠판이 벽으로 이동하거나, 새로운 도구가 갑자기 생길 수도 있습니다.

이 논문은 **"세상은 멈추지 않는다 (The World Won't Stay Still)"**는 사실을 강조하며, AI 가 이런 변화하는 환경에서도 잘 적응하는지 테스트할 수 있는 새로운 방법론을 제안합니다.

핵심 내용을 쉬운 비유와 함께 설명해 드리겠습니다.

1. 문제: "정적 (Static) 인 교실"의 함정

지금까지 AI 를 평가할 때는 변하지 않는 환경을 사용했습니다.

비유: AI 를 운전면허 시험장에 데려가서, 항상 같은 차, 같은 도로, 같은 신호등에서 운전하게 하는 것과 같습니다.
현실: 하지만 실제 세상은 다릅니다. 도로가 공사 중이거나, 신호등이 고장 나거나, 갑자기 새로운 차선이 생길 수 있습니다.
결과: 고정된 환경에서 잘하는 AI 가, 환경이 조금만 변해도 당황해서 길을 잃는 경우가 많습니다.

2. 해결책: "programmable Evolution(프로그래밍 가능한 진화)"

저자들은 AI 를 평가할 때, 환경을 한 번에 끝나는 시험이 아니라 계속 변하는 드라마처럼 만들어야 한다고 말합니다. 이를 위해 **'ProEvolve'**라는 새로운 시스템을 개발했습니다.

핵심 아이디어: "레고 블록으로 세상을 재구성하다"

이 시스템의 핵심은 **그래프 (Graph)**라는 개념을 사용합니다.

비유: 환경을 거대한 레고 성이라고 상상해 보세요.
- 노드 (Node): 레고 블록 하나하나 (데이터, 도구, 규칙).
- 엣지 (Edge): 블록들이 어떻게 연결되어 있는지 (관계).
진화 (Evolution): 이 레고 성을 변형하는 것입니다.
- Completion (완성): 새로운 블록을 추가해서 기능을 늘림 (예: 장바구니에 '가격 알림' 기능 추가).
- Saturation (포화): 멀리 떨어진 블록들을 직접 연결하는 '단축키'를 만듦 (예: 주문 내역을 바로 조회하는 새로운 버튼).
- Deprecation (폐기): 낡은 블록을 떼어내거나 고장 나게 만듦 (예: 장바구니 기능이 갑자기 고장 나서 작동 안 함).

이 모든 변화가 코드로 프로그래밍되어 자동으로 일어나기 때문에, 연구자들은 AI 가 어떻게 변하는지 정확히 통제하고 관찰할 수 있습니다.

3. 실험: "200 개의 다른 세상"에서 테스트

저자들은 이 시스템을 이용해 **하나의 전자상가 (Seed Environment)**를 시작점으로 삼아, 200 개의 서로 다른 버전으로 진화시켰습니다.

마치 동일한 건물이지만, 1 층은 카페, 2 층은 서점, 3 층은 식당으로 변하는 것처럼요.
이 200 개의 세상에서 3,000 개의 미션을 부여하고, 최신 AI 모델들 (GPT-5, Claude, Gemini 등) 이 어떻게 반응하는지 지켜봤습니다.

4. 놀라운 발견: "변화에 따른 AI 의 반응"

실험 결과, AI 들의 반응은 매우 다양했습니다.

변화에 둔감한 AI: 환경이 변해도 똑같은 방식으로 행동하다가 실패했습니다.
적응형 AI: 새로운 도구가 생기면 적극적으로 사용하고, 도구가 사라지면 다른 방법을 찾아냈습니다.
비용과 성능의 트레이드오프: 어떤 AI 는 새로운 길을 찾기 위해 많은 시도 (비용) 를 들였지만, 어떤 AI 는 아예 시도조차 안 했습니다.

가장 중요한 교훈:
"어떤 환경에서 잘한다고 해서, 그 환경이 조금만 변해도 잘하는 건 아닙니다."
고정된 환경에서의 점수는 AI 의 **진짜 적응력 (Robustness)**을 보여주지 못한다는 것입니다.

5. 결론: "움직이는 표적을 쏘는 법"

이 논문은 AI 개발자들에게 다음과 같은 메시지를 전합니다.

"AI 를 평가할 때, 고정된 표적만 쏘지 마세요. 움직이는 표적을 쏘아야 진짜 실력을 알 수 있습니다."

이 연구는 AI 가 실제 세상의 복잡하고 예측 불가능한 변화 속에서 어떻게 살아남을지, 그리고 우리가 그 능력을 어떻게 측정할지에 대한 새로운 기준을 제시합니다. 마치 운전면허 시험을 할 때, 비가 오고, 도로가 막히고, 신호등이 고장 난 상황에서도 안전하게 운전할 수 있는지 테스트하는 것과 같습니다.

한 줄 요약:
"세상은 변하는데 AI 평가는 그대로? 이 논문은 AI 가 변하는 세상에서도 살아남을 수 있도록, 환경을 프로그래밍처럼 변형시켜 테스트하는 새로운 방법을 제시합니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대형 언어 모델 (LLM) 기반 에이전트는 사용자의 요청을 수행하기 위해 환경과 상호작용하고, 데이터를 조회하며, 도구를 호출하는 다중 턴 (multi-turn) 프로세스를 거칩니다. 그러나 기존 대부분의 벤치마크는 정적 (static) 인 환경을 가정합니다. 즉, 고정된 도구 세트 (toolset) 와 고정된 데이터 스키마를 사용하여 에이전트의 성능을 평가합니다.

이러한 가정은 실제 배포 환경과 심각한 괴리가 있습니다. 현실 세계에서는 다음과 같은 진화적 (evolutionary) 특성이 존재하기 때문입니다:

새로운 기능의 점진적 도입 (Completion)
기존 도구의 반복적 개선 및 최적화 (Saturation)
구식 기능의 점진적 폐기 (Deprecation)

기존 벤치마크는 이러한 환경의 동적 변화를 고려하지 않아, 에이전트가 실제 세계의 변화에 얼마나 적응하고 견고한지 (robustness) 를 종합적으로 평가하는 데 한계가 있었습니다.

2. 방법론 (Methodology)

저자들은 이 문제를 해결하기 위해 PROEVOLVE라는 그래프 기반 프레임워크를 제안합니다. 이 프레임워크는 환경을 명시적으로 모델링하고 프로그래밍 가능한 방식으로 진화시킵니다.

가. 환경 모델링: 타입이 지정된 관계형 그래프 (Typed Relational Graph)

환경을 단일 그래프 $G = (V, E)$ 로 표현합니다.

노드 (Nodes): 스키마 요소 (예: User.user_id, Order.order_id) 및 데이터 엔티티.
에지 (Edges): 타입이 지정된 관계 또는 도구 (Tool) 를 통한 전이 (transition).
진화 (Evolution): 환경의 변화는 그래프 변환 (Graph Transformations) 의 시퀀스로 정의됩니다.
$G^{(0)} \xrightarrow{\Delta^{(1)}} G^{(1)} \xrightarrow{\Delta^{(2)}} \dots \xrightarrow{\Delta^{(K)}} G^{(K)}$
여기서 $\Delta^{(k)}$ 는 실제 세계의 변화를 모방하는 구조적 연산 (노드/에지 추가, 제거, 수정) 입니다.

나. 프로그래밍 가능한 진화 전략 (3 가지)

LLM 에이전트 워크플로우를 통해 자동으로 환경을 진화시킵니다.

Completion (기능 추가): 현재 그래프가 지원하지 않는 새로운 기능 (예: 장바구니 알림) 을 제안하고, 이를 지원하기 위해 필요한 새로운 노드 (엔티티) 와 에지 (도구) 를 추가합니다.
Saturation (단축 경로 생성): 기존 그래프에서 다중 홉 (multi-hop) 경로를 탐색하여, 여러 단계를 하나의 도구로 통합하는 '단축 경로 (shortcut)'를 생성합니다. (예: User -> Order -> Product 경로를 하나의 get_user_purchased_products 도구로 통합).
Deprecation (기능 폐기): 특정 노드나 에지를 제거하여 API 폐기나 서비스 중단 시나리오를 시뮬레이션합니다. 에이전트가 우회 경로 (workaround) 를 찾거나 적절히 처리해야 하는 과제를 부여합니다.

다. 태스크 샌드박스 생성 (Task Sandboxes)

진화된 환경 그래프에서 하위 그래프 (Subgraph) 를 샘플링하여 태스크를 생성합니다.

하위 그래프 샘플링: 태스크의 구조적 범위 (스키마/도구/관계) 를 정의하는 연결된 하위 그래프를 추출합니다.
샌드박스 구체화: 추출된 하위 그래프에 기반하여 초기 상태, 데이터 엔티티, 그리고 태스크 목표를 달성하기 위한 사용자 시뮬레이터 (User Simulator) 를 생성합니다.
상태별 평가: 대화의 각 턴마다 에이전트가 필요한 정보 (노드 사실) 를 획득했는지 그래프 기반의 기준에 따라 평가합니다.

3. 주요 기여 (Key Contributions)

정적에서 동적 환경으로의 전환: 정적 벤치마크의 한계를 지적하고, 환경 진화를 프로그래밍 가능한 그래프 형식으로 명시적으로 모델링하는 첫 번째 연구 프레임워크를 제안했습니다.
자동화된 진화 및 태스크 생성: 그래프 변환을 통해 일관성 있게 환경을 진화시키고, 이를 기반으로 3,000 개의 태스크 샌드박스를 자동으로 생성하는 파이프라인을 구축했습니다.
실증적 검증: 하나의 이커머스 시드 (seed) 환경에서 시작하여 200 개의 진화된 환경과 3,000 개의 태스크를 생성했습니다. 이를 통해 다양한 LLM 에이전트 (GPT-5, Claude, DeepSeek 등) 를 벤치마킹하고, 환경 변화에 따른 에이전트의 적응력과 견고성을 분석했습니다.
새로운 연구 문제 정립: "진화하는 환경에서의 에이전트 평가"를 독립적인 연구 문제로 공식화하고, 통제된 진화 궤적을 생성하여 에이전트 견고성을 연구하는 체계적인 방법론을 제공했습니다.

4. 실험 결과 (Results)

환경 진화의 영향: 에이전트 성능은 환경이 진화함에 따라 크게 변동되었습니다. 예를 들어, 기능이 추가될 때는 성능이 향상되다가, 기능이 폐기될 때 급격히 하락하는 등 일관된 패턴이 없었습니다. 이는 에이전트가 특정 구조적 변화에 얼마나 취약한지를 보여줍니다.
도구 사용 행동의 차이: 에이전트마다 환경 변화에 대한 반응이 달랐습니다. 일부 모델 (예: GPT-5) 은 환경이 복잡해지면 도구 호출 횟수를 크게 늘려 정보를 적극적으로 수집하는 반면, 다른 모델 (예: Gemini) 은 보수적인 전략을 유지했습니다.
리플레이 (Replay) 전략의 한계: 과거 대화 기록 (History Replay) 이나 성찰 (Reflection Replay) 을 메모리에 저장하는 전략이 항상 성능 향상을 보장하지는 않았습니다. 특히 일부 모델은 과거 정보를 과도하게 활용하거나 오해석하여 오히려 성능이 저하되거나 비용이 증가하는 현상이 관찰되었습니다.
비용 - 견고성 트레이드오프: 어려운 태스크일수록 에이전트는 더 많은 턴과 도구 호출을 필요로 하며, 이는 비용 증가로 이어집니다. 견고한 성능을 내기 위해서는 더 높은 상호작용 비용이 필요함을 시사합니다.

5. 의의 및 결론 (Significance)

이 논문은 에이전트 평가 패러다임에 중요한 전환점을 제시합니다.

현실성: 정적인 스냅샷이 아닌, 실제 세계처럼 끊임없이 변화하는 환경에서 에이전트를 평가함으로써 더 신뢰할 수 있는 견고성 (Robustness) 측정이 가능해졌습니다.
확장성: 그래프 기반의 프로그래밍 가능한 접근법은 수동으로 환경을 구축하는 데 따르는 비용과 노력을 획기적으로 줄여주며, 다양한 도메인으로의 확장을 용이하게 합니다.
향후 방향: 이 프레임워크는 에이전트가 환경 변화를 인식하고 적응하는 최적의 전략 개발, 커리큘럼 학습을 통한 진화 시퀀스 설계, 그리고 다양한 도메인으로의 확장을 위한 기초를 마련했습니다.

결론적으로, PROEVOLVE는 에이전트가 "멈추지 않는 세상 (The World Won't Stay Still)"에서 어떻게 작동해야 하는지를 평가하고 개선하기 위한 필수적인 도구이자 방법론을 제공합니다.