원저자: Charlie Masters, Ziyuan Liu, Stefano V. Albrecht

게시일 2026-05-13✓ Author reviewed ⓘ

📖 4 분 읽기☕ 가벼운 읽기

원저자: Charlie Masters, Ziyuan Liu, Stefano V. Albrecht

원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. ✨ 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기

새로운 레스토랑을 리뷰하는 음식 평론가가 되어 보십시오. 셰프가 당신에게 "이 식사는 10 점 만점에 9.5 점입니다"라고 적힌 점수표를 건네줍니다. 하지만 셰프는 실제 음식이나 레시피, 그리고 그 점수를 어떻게 결정했는지에 대한 메모를 보여주기를 거부합니다. 그들은 그저 "나를 믿어라, 9.5 점이다"라고 말할 뿐입니다.

이제 다른 평론가가 정확히 같은 식사를 맛보지만 6.0 점을 매긴다고 상상해 보십시오. 음식이나 레시피를 보지 않은 상태에서 누가 옳은지 알 수 없습니다. 첫 번째 평론가가 다른 척도를 사용했을까요? 타는 듯한 토스트를 무시했을까요? 디저트를 메인 코스에 포함시켰을까요?

이것은 바로 AI '에이전트'(코드 작성, 웹 탐색, 수학 문제 해결과 같은 작업을 수행하는 지능형 컴퓨터 프로그램) 의 세계에서 **롤아웃 카드 (Rollout Cards)**가 해결하려는 문제와 정확히 일치합니다.

다음은 일상적인 비유를 사용하여 이 논문이 말하는 내용을 간단히 정리한 것입니다:

문제: "블랙박스" 점수

현재 연구자들이 AI 에이전트에 관한 결과를 발표할 때, 보통 최종 점수(9.5 점) 만 공유합니다. 그들은 **롤아웃 기록 (rollout record)**을 폐기합니다.

롤아웃 기록: 이는 AI 가 작업을 수행하는 전체 영상 기록이라고 생각하십시오. AI 가 취한 모든 단계, 클릭한 모든 도구, 저지른 모든 실수, 소요된 시간, 그리고 충돌하거나 멈췄는지 여부가 포함됩니다.
문제점: 서로 다른 연구 팀은 해당 영상을 점수로 변환하는 데 서로 다른 "규칙"을 사용합니다.
- 팀 A는 "AI 가 충돌하면 그 시도는 무시한다"고 말할 수 있습니다.
- 팀 B는 "AI 가 충돌하면 이를 0 점으로 간주한다"고 말할 수 있습니다.
- 팀 C는 "도착하기까지 걸린 50 단계를 무시하고 최종 답변만 계산한다"고 말할 수 있습니다.

이 논문은 조사한 50 개의 인기 있는 AI 연구 저장소 중 어느 곳도 주요 점수와 함께 실패하거나 충돌한 시도 횟수를 보고하지 않았음을 발견했습니다. 마치 스포츠 팀이 "우리는 3 경기를 이겼다!"라고 말하지만, 10 경기를 졌다는 사실과 승리한 3 경기만 계산했다는 사실을 숨기는 것과 같습니다.

증거: 규칙이 게임을 바꾼다

저자들은 50 개의 서로 다른 AI 도구를 감사하여, AI 가 정확히 같은 일을 수행했음에도 불구하고 "규칙집"을 변경하는 것만으로 점수가 완전히 달라진 37 가지 구체적인 사례를 발견했습니다.

"MMLU" 사례: 동일한 AI 모델 (LLaMA-65B) 이 한 세트의 규칙 하에서는 63.7점을 받았고, 다른 규칙 하에서는 48.8점을 받았습니다. AI 가 변한 것이 아니라 점수 계산 방식이 달라졌을 뿐인데 엄청난 차이가 발생한 것입니다.
"SWE-bench" 사례: 소프트웨어 엔지니어링 작업에서 "실패한 시도"를 전체에 포함시킬지 아니면 폐기할지에 따라 성공률이 15.6 퍼센트 포인트만큼 달라졌습니다.
"MLE-Bench" 사례: "통과"를 금메달 획득으로 정의할지, 아니면 단순히 합격점으로 정의할지에 따라 동일한 AI 제출물의 성공률이 **34.2% 에서 13.3%**로 떨어졌습니다.

이 논문은 영상 기록 (롤아웃) 이 없으면 AI 가 실제로 더 나은지, 아니면 연구자가 더 관대한 규칙집을 사용했는지 알 수 없다고 주장합니다.

해결책: "롤아웃 카드"

이를 해결하기 위해 저자들은 롤아웃 카드라는 새로운 표준을 제안합니다.

롤아웃 카드는 최종 요리에 반드시 포함해야 하는 투명하고 위변조 방지 기능이 있는 레시피 상자와 같습니다. 여기에는 다음이 포함됩니다:

전체 영상: AI 의 행동, 오류, 시간 기록이 포함된 완전한 기록.
규칙집: 점수가 어떻게 계산되었는지 정확히 명시한 선언 (예: "충돌은 무시함" 또는 "모든 토큰을 계산함").
"누락된 부분" 목록: "개인정보 보호로 인해 전체 영상을 공유할 수 없으므로, 정확히 무엇을 잘라냈는지"를 솔직하게 밝힌 메모.

이를 통해 다른 과학자들은 동일한 영상을 보고 다른 질문을 할 수 있습니다. 원래 논문은 "작업을 완료했는가?"에만 관심이 있었을지 모르지만, 새로운 연구자는 "너무 많은 비용을 사용했는가?" 또는 "위험한 도구 호출을 했는가?"를 묻고 싶을 수 있습니다. 롤아웃 카드가 있다면, 비싼 실험을 다시 수행하지 않고도 이러한 질문에 답할 수 있습니다.

그들이 실제로 한 일 (실험)

저자들은 이에 대해 말만 한 것이 아니라 실제 데이터로 테스트했습니다:

숨겨진 통찰력 재발견: GAP, MAESTRO, COPRA, Tree-of-Thought 와 같은 도구에서 이전에 발표된 4 개의 기존 공개 데이터셋을 가져왔습니다. 롤아웃 카드 방법을 적용함으로써 원래 논문이 놓친 새로운 사실을 발견했습니다.
- 예시: 텍스트상으로는 "안전해" 보이는 AI 응답의 20% 가 실제로는 배경에서 금지된 도구 호출을 하고 있음을 발견했습니다. 원래 점수는 텍스트만 살펴보았기 때문에 이를 놓쳤습니다.
- 예시: 다중 에이전트 팀에서 "실패"는 "성공"보다 훨씬 많은 조정 작업을 수반했음을 발견했습니다. 이는 추가 작업이 항상 더 나은 답변을 의미하는 것은 아님을 시사합니다.
동일한 작업 재채점: 공개된 AI 제출물 (코드 패치나 수학 답변 등) 을 가져와 다른 규칙집으로 다시 채점했습니다.
- 결과: 채점 규칙만 변경해도 보고된 점수가 최대 20.9 퍼센트 포인트까지 변했습니다. 어떤 경우에는 순위가 뒤집혀 규칙집이 변경되었을 뿐인데 "더 나쁜" AI 가 "승자"처럼 보이기도 했습니다.

결론

이 논문은 시험지 없이 최종 시험 점수만 발표하는 것이 점수만 발표하는 것과 같다고 결론 내립니다. 이는 중요한 세부 사항을 숨깁니다.

롤아웃 카드를 도입함으로써 저자들은 AI 연구의 재현성을 높이고자 합니다. 그들은 이미 소프트웨어 엔지니어링, 웹 탐색, 수학 등의 작업을 다루는 무료 오픈소스 도구 (ERGON) 와 21 개의 공개 데이터셋(롤아웃 카드) 을 출시했습니다. 이를 통해 누구나 점수 뒤에 있는 "영상 기록"을 검토할 수 있게 되어, 우리가 AI 가 지능적이라고 말할 때 실제로 그것이 어떻게 그리고 왜 측정되었는지 알 수 있게 됩니다.

이 논문이 주장하지 않는 것:

이것이 AI 를 그 자체로 더 안전하거나 강력하게 만들 것이라고 주장하지 않습니다.
이것이 모든 개인정보 보호 문제를 해결한다고 주장하지 않습니다 (숨길 내용을 여전히 결정해야 합니다).
이것이 AI 를 훈련시키는 새로운 방법이 아니라고 주장합니다. 이는 AI 훈련 결과를 보고하고 감사하는 새로운 방법입니다.

기술 요약: 에이전트 연구를 위한 재현성 표준인 롤아웃 카드

문제 제기

이 논문은 기계 학습 및 강화 학습의 역사적 문제를 반영하며 에이전트 연구에서 발생하는 치명적인 재현성 위기를 지적합니다. 현재의 관행은 정확도, 통과율 등 보고된 점수 발표를 우선시하는 반면, 점수를 계산하는 데 사용된 근본적인 롤아웃 기록(에이전트와 환경 간의 상호작용 전체 추적) 과 구체적인 보고 규칙은 폐기하고 있습니다.

이러한 단편화는 두 가지 주요 실패 모드를 초래합니다:

기록 실패: 롤아웃 배치에 한 번 점수를 매긴 후 폐기합니다. 원시 기록이 없으므로 후속 연구자들은 원래 보고서에서 누락된 행동 (예: 도구 호출 시의 안전 위반, 다중 에이전트 시스템의 조정 오버헤드) 을 연구하거나 데이터에 새로운 관점을 적용하기 위해 동일한 에피소드를 재분석할 수 없습니다. 최첨단 모델 추론 비용의 상승과 평가 인프라의 급속한 노후화로 인해 이러한 실험을 다시 실행하는 것은 종종 과도하게 비용이 듭니다.
보고 실패: 롤아웃의 관점을 점수로 변환하는 보고 규칙은 프레임워크마다 다르며 거의 공개되지 않습니다. 이로 인해 동일한 근본적인 행동에 대해 점수 차이가 크게 발생합니다. 저자들이 50 개의 인기 있는 저장소를 감사한 결과, 어느 곳도 헤드라인 점수와 함께 실패, 오류 또는 건너뛰어진 롤아웃을 보고하지 않았습니다. 또한 토큰 계수, 실패 처리, 프롬프트 템플릿과 같은 서로 다른 보고 규칙으로 인해 점수가 극적으로 변동된 37 건을 문서화했는데, 이는 때로 모델 순위나 성공률을 20% 포인트 이상 변화시켰습니다.

방법론

저자들은 재현성의 단위를 "보고된 점수"에서 해당 기록이 처리되는 방식을 명시적으로 선언하는 롤아웃 기록으로 전환할 것을 제안합니다.

롤아웃 카드

핵심 기여는 최소한의 충분 사양으로 설계된 출판 번들인 롤아웃 카드입니다. 이는 다음으로 구성됩니다:

롤아웃 기록: 에피소드 증거를 포함하는 자기 설명형 아카이브로, 작업 사양, 환경 상태, 에이전트 행동 (메시지, 도구 호출), 산출물, 타이밍, 그리고 종료 상태를 포함합니다. 특히 실패를 로깅을 우회하는 예외가 아닌 기록 내의 상태 변경으로 취급합니다.
보고 규칙 레지스트리: 보고된 점수를 생성하기 위해 기록에 적용된 모든 관점과 보고 규칙에 대한 선언으로, 구현 세부 사항과 버전을 포함합니다.
드롭스 매니페스트: 특정 분석에 의해 읽히거나 필터링되거나 축소된 필드, 행 또는 스트림을 지정하는 타입화된 기록입니다. 이는 어떤 정보가 생략되었는지 명시적으로 문서화하여 향후 연구자가 보고된 관점의 한계를 이해할 수 있게 합니다.
배포 범위 메타데이터: 삭제, 라이선싱 및 접근 제한에 대한 선언입니다.

저자들은 이러한 번들을 검증, 매핑 및 내보내기 위한 경량 데이터셋 어댑터 역할을 하는 오픈 소스 강화 학습 짐인 ERGON에 참조 사양을 구현했습니다.

실증적 평가

이 논문은 공개 아티팩트를 활용한 두 가지 후향 실험을 통해 롤아웃 카드의 유용성을 검증합니다:

RQ1 (보존된 기록의 재사용성): 저자들은 충분한 롤아웃 증거를 보존한 네 가지 공개 배포 (GAP, MAESTRO, COPRA miniF2F 로그, Tree-of-Thought) 를 분석했습니다. 원래 논문에서 보고하지 않았던 2 차 분석을 수행했습니다:
- GAP: "텍스트 안전"으로 인증된 응답 중 20.6% 가 실제로 금지된 도구 호출을 포함하고 있음을 발견했습니다. 이는 텍스트 전용 안전 점수로는 보이지 않는 실패입니다.
- MAESTRO: 실패한 다중 에이전트 실행이 성공한 실행보다 조정 스패너가 5 배 더 많고 토큰이 7 배 더 많이 소요되었음을 밝혔습니다. 이는 추가 협력이 항상 결과를 개선한다는 가정을 반박합니다.
- COPRA: 확장된 증명 검색 단계가 성공과 음의 상관관계를 보임을 보여주어, 반복된 단계가 종종 유용한 추론이 아닌 실패한 복구임을 시사합니다.
- Tree-of-Thought: 가지치기 전략이 최종 보상은 유지하면서 낭비된 탐색을 크게 줄일 수 있음을 입증했습니다. 이는 최종 보상 지표만으로는 숨겨진 뉘앙스입니다.
RQ2 (보고 규칙의 영향): 저자들은 벤치마크 아티팩트를 고정 (예: SWE-bench 에 제출된 GPT-4o, MLE-Bench 에 제출된 Kaggle 제출물) 하고 대체 보고 규칙을 적용했습니다.
- SWE-bench 에서 "성공"의 정의 변경이나 누락된 패치 처리 방식 변경은 에이전트 간 보고된 능력 격차를 2.3% 포인트 변경했습니다.
- $\tau$ -bench 에서 채점자 변경은 최첨단 모델 (GPT-4o 대 Claude 3.5 Sonnet) 의 순위를 16.9% 포인트 반전시켰습니다.
- MLE-Bench 에 대한 메달/통과 정의 변경은 통과율을 34.2% 에서 13.3% 로 떨어뜨렸습니다 (20.9 포인트 격차).

주요 기여

출판 실패 진단: 50 개 저장소에 대한 구조화된 감사와 37 가지 보고 규칙 불일치 목록으로, 현재의 관행이 실패를 숨기고 점수 격차의 관습 주도적 성질을 모호하게 만든다는 것을 입증합니다.
롤아웃 카드 사양: 롤아웃 기록을 보존하고 적용된 관점과 규칙을 선언하며 드롭스 매니페스트를 통해 생략 사항을 문서화하는 공식 출판 표준입니다.
참조 구현 및 데이터 배포: ERGON 에 구현된 오픈 소스 구현과 도구 사용, 소프트웨어 공학, 안전, 검색을 아우르는 21 개의 롤아웃 카드 내보내기 (17 개 추적 출판 내보내기 및 4 개 분석/회복된 관점 내보내기) 의 공개 배포입니다.

결과

과학적 재사용: 보존된 롤아웃 기록은 원래 보고된 점수에서는 보이지 않았던 안전 실패, 조정 오버헤드 및 검색 비효율성을 발견할 수 있게 했습니다.
관습 민감성: 실험은 보고 규칙이 중립적이지 않음을 확인시켰습니다. 고정된 증거에 규칙을 변경하면 보고된 점수가 최대 20.9% 포인트까지 변하고 모델 순위가 반전될 수 있습니다.
투명성: 롤아웃 카드 구조는 평가의 "블랙박스"를 투명하게 만들어, 불일치를 모호한 에이전트 행동이 아닌 특정 보고 선택으로 추적할 수 있게 합니다.

중요성과 주장

이 논문은 점수만 출판하는 것은 에이전트 실험 가치의 일부만을 추출한다고 주장합니다. 재현성의 단위를 롤아웃 기록으로 삼음으로써 커뮤니티는 다음과 같은 이점을 얻을 수 있습니다:

기록 문제 완화: 최첨단 에이전트를 다시 실행하지 않고도 기존 고비용 데이터에 새로운 과학적 질문을 던질 수 있게 합니다.
보고 문제 완화: 관습 주도적 점수 변경을 검사 가능하게 만들어, 연구자가 에이전트 행동과 이를 기록하는 규칙을 구별할 수 있게 합니다.

저자들은 범위에 대해 겸손하게, 롤아웃 카드가 선택적 지표 선택, 개인정보 보호 제약 또는 삭제를 방지하지는 않는다고 지적합니다. 대신 그 역할은 기록, 규칙 및 생략 사항을 검사 가능하게 만들어, 불일치를 보존된 증거, 보고 선택 또는 실제 에이전트 행동으로 추적할 수 있도록 보장하는 것입니다. 이 작업은 새로운 고비용 최첨단 롤아웃 예산 없이도 향후 연구, 메타 분석 및 보고 규칙 비교를 지원하기 위해 고안되었습니다.

Rollout Cards: A Reproducibility Standard for Agent Research