원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기
새로운 레스토랑을 리뷰하는 음식 평론가가 되어 보십시오. 셰프가 당신에게 "이 식사는 10 점 만점에 9.5 점입니다"라고 적힌 점수표를 건네줍니다. 하지만 셰프는 실제 음식이나 레시피, 그리고 그 점수를 어떻게 결정했는지에 대한 메모를 보여주기를 거부합니다. 그들은 그저 "나를 믿어라, 9.5 점이다"라고 말할 뿐입니다.
이제 다른 평론가가 정확히 같은 식사를 맛보지만 6.0 점을 매긴다고 상상해 보십시오. 음식이나 레시피를 보지 않은 상태에서 누가 옳은지 알 수 없습니다. 첫 번째 평론가가 다른 척도를 사용했을까요? 타는 듯한 토스트를 무시했을까요? 디저트를 메인 코스에 포함시켰을까요?
이것은 바로 AI '에이전트'(코드 작성, 웹 탐색, 수학 문제 해결과 같은 작업을 수행하는 지능형 컴퓨터 프로그램) 의 세계에서 **롤아웃 카드 (Rollout Cards)**가 해결하려는 문제와 정확히 일치합니다.
다음은 일상적인 비유를 사용하여 이 논문이 말하는 내용을 간단히 정리한 것입니다:
문제: "블랙박스" 점수
현재 연구자들이 AI 에이전트에 관한 결과를 발표할 때, 보통 최종 점수(9.5 점) 만 공유합니다. 그들은 **롤아웃 기록 (rollout record)**을 폐기합니다.
- 롤아웃 기록: 이는 AI 가 작업을 수행하는 전체 영상 기록이라고 생각하십시오. AI 가 취한 모든 단계, 클릭한 모든 도구, 저지른 모든 실수, 소요된 시간, 그리고 충돌하거나 멈췄는지 여부가 포함됩니다.
- 문제점: 서로 다른 연구 팀은 해당 영상을 점수로 변환하는 데 서로 다른 "규칙"을 사용합니다.
- 팀 A는 "AI 가 충돌하면 그 시도는 무시한다"고 말할 수 있습니다.
- 팀 B는 "AI 가 충돌하면 이를 0 점으로 간주한다"고 말할 수 있습니다.
- 팀 C는 "도착하기까지 걸린 50 단계를 무시하고 최종 답변만 계산한다"고 말할 수 있습니다.
이 논문은 조사한 50 개의 인기 있는 AI 연구 저장소 중 어느 곳도 주요 점수와 함께 실패하거나 충돌한 시도 횟수를 보고하지 않았음을 발견했습니다. 마치 스포츠 팀이 "우리는 3 경기를 이겼다!"라고 말하지만, 10 경기를 졌다는 사실과 승리한 3 경기만 계산했다는 사실을 숨기는 것과 같습니다.
증거: 규칙이 게임을 바꾼다
저자들은 50 개의 서로 다른 AI 도구를 감사하여, AI 가 정확히 같은 일을 수행했음에도 불구하고 "규칙집"을 변경하는 것만으로 점수가 완전히 달라진 37 가지 구체적인 사례를 발견했습니다.
- "MMLU" 사례: 동일한 AI 모델 (LLaMA-65B) 이 한 세트의 규칙 하에서는 63.7점을 받았고, 다른 규칙 하에서는 48.8점을 받았습니다. AI 가 변한 것이 아니라 점수 계산 방식이 달라졌을 뿐인데 엄청난 차이가 발생한 것입니다.
- "SWE-bench" 사례: 소프트웨어 엔지니어링 작업에서 "실패한 시도"를 전체에 포함시킬지 아니면 폐기할지에 따라 성공률이 15.6 퍼센트 포인트만큼 달라졌습니다.
- "MLE-Bench" 사례: "통과"를 금메달 획득으로 정의할지, 아니면 단순히 합격점으로 정의할지에 따라 동일한 AI 제출물의 성공률이 **34.2% 에서 13.3%**로 떨어졌습니다.
이 논문은 영상 기록 (롤아웃) 이 없으면 AI 가 실제로 더 나은지, 아니면 연구자가 더 관대한 규칙집을 사용했는지 알 수 없다고 주장합니다.
해결책: "롤아웃 카드"
이를 해결하기 위해 저자들은 롤아웃 카드라는 새로운 표준을 제안합니다.
롤아웃 카드는 최종 요리에 반드시 포함해야 하는 투명하고 위변조 방지 기능이 있는 레시피 상자와 같습니다. 여기에는 다음이 포함됩니다:
- 전체 영상: AI 의 행동, 오류, 시간 기록이 포함된 완전한 기록.
- 규칙집: 점수가 어떻게 계산되었는지 정확히 명시한 선언 (예: "충돌은 무시함" 또는 "모든 토큰을 계산함").
- "누락된 부분" 목록: "개인정보 보호로 인해 전체 영상을 공유할 수 없으므로, 정확히 무엇을 잘라냈는지"를 솔직하게 밝힌 메모.
이를 통해 다른 과학자들은 동일한 영상을 보고 다른 질문을 할 수 있습니다. 원래 논문은 "작업을 완료했는가?"에만 관심이 있었을지 모르지만, 새로운 연구자는 "너무 많은 비용을 사용했는가?" 또는 "위험한 도구 호출을 했는가?"를 묻고 싶을 수 있습니다. 롤아웃 카드가 있다면, 비싼 실험을 다시 수행하지 않고도 이러한 질문에 답할 수 있습니다.
그들이 실제로 한 일 (실험)
저자들은 이에 대해 말만 한 것이 아니라 실제 데이터로 테스트했습니다:
숨겨진 통찰력 재발견: GAP, MAESTRO, COPRA, Tree-of-Thought 와 같은 도구에서 이전에 발표된 4 개의 기존 공개 데이터셋을 가져왔습니다. 롤아웃 카드 방법을 적용함으로써 원래 논문이 놓친 새로운 사실을 발견했습니다.
- 예시: 텍스트상으로는 "안전해" 보이는 AI 응답의 20% 가 실제로는 배경에서 금지된 도구 호출을 하고 있음을 발견했습니다. 원래 점수는 텍스트만 살펴보았기 때문에 이를 놓쳤습니다.
- 예시: 다중 에이전트 팀에서 "실패"는 "성공"보다 훨씬 많은 조정 작업을 수반했음을 발견했습니다. 이는 추가 작업이 항상 더 나은 답변을 의미하는 것은 아님을 시사합니다.
동일한 작업 재채점: 공개된 AI 제출물 (코드 패치나 수학 답변 등) 을 가져와 다른 규칙집으로 다시 채점했습니다.
- 결과: 채점 규칙만 변경해도 보고된 점수가 최대 20.9 퍼센트 포인트까지 변했습니다. 어떤 경우에는 순위가 뒤집혀 규칙집이 변경되었을 뿐인데 "더 나쁜" AI 가 "승자"처럼 보이기도 했습니다.
결론
이 논문은 시험지 없이 최종 시험 점수만 발표하는 것이 점수만 발표하는 것과 같다고 결론 내립니다. 이는 중요한 세부 사항을 숨깁니다.
롤아웃 카드를 도입함으로써 저자들은 AI 연구의 재현성을 높이고자 합니다. 그들은 이미 소프트웨어 엔지니어링, 웹 탐색, 수학 등의 작업을 다루는 무료 오픈소스 도구 (ERGON) 와 21 개의 공개 데이터셋(롤아웃 카드) 을 출시했습니다. 이를 통해 누구나 점수 뒤에 있는 "영상 기록"을 검토할 수 있게 되어, 우리가 AI 가 지능적이라고 말할 때 실제로 그것이 어떻게 그리고 왜 측정되었는지 알 수 있게 됩니다.
이 논문이 주장하지 않는 것:
- 이것이 AI 를 그 자체로 더 안전하거나 강력하게 만들 것이라고 주장하지 않습니다.
- 이것이 모든 개인정보 보호 문제를 해결한다고 주장하지 않습니다 (숨길 내용을 여전히 결정해야 합니다).
- 이것이 AI 를 훈련시키는 새로운 방법이 아니라고 주장합니다. 이는 AI 훈련 결과를 보고하고 감사하는 새로운 방법입니다.
연구 분야의 논문에 파묻히고 계신가요?
연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.