AutoHarness: improving LLM agents by automatically synthesizing a code harness

이 논문은 작은 규모의 LLM 이 환경 피드백을 통해 자동으로 코드 하네스나 전체 정책을 생성함으로써, 더 큰 모델보다 불법 행동을 방지하고 더 높은 보상을 얻으며 비용 효율성을 입증하는 'AutoHarness' 기법을 제안합니다.

Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu, Carter Wendelken, Wolfgang Lehrach, Kevin P. Murphy

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

AutoHarness: AI 가 스스로 '안전장치'를 만들어 게임을 완벽하게 플레이하는 방법

이 논문은 구글 딥마인드 (Google DeepMind) 연구팀이 발표한 **'AutoHarness'**라는 기술에 대한 내용입니다. 이 기술은 인공지능 (AI) 이 게임을 할 때 실수를 하지 않도록 스스로 '안전장치 (Harness)'를 만들어내는 혁신적인 방법입니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제: 똑똑한 AI 도 '법규 위반'을 저지른다?

상상해 보세요. 체스나 바둑 같은 게임을 하는 초고수 AI가 있다고 칩시다. 이 AI 는 전략도 훌륭하고 계산도 빠릅니다. 그런데 이상한 일이 생깁니다.

  • 상황: AI 가 말을 움직이려는데, 규칙에 없는 곳으로 말을 옮깁니다. (예: 체스에서 말이 대각선으로 이동하거나, 말의 이동 경로를 가로막는 다른 말이 있는데도 뚫고 지나가는 등)
  • 결과: AI 는 전략적으로 이길 수 있는 상황인데, 단순히 규칙을 어겨서 게임에서 지게 됩니다. 최근 체스 대회에서도 AI 손실의 78% 가 이런 '불법 수' 때문이었습니다.

기존의 해결책은 두 가지였습니다:

  1. AI 를 다시 교육시키기: AI 에게 규칙을 더 많이 가르치기 (시간도 많이 들고 비용도 비쌈).
  2. 사람이 수동으로 안전장치 만들기: 사람이 직접 코드를 짜서 "이런 수는 안 돼!"라고 막아주는 장치를 달아두기 (매번 새로운 게임이 나오면 다시 만들어야 해서 번거로움).

2. 해결책: "AI 가 스스로 안전장치를 짜라!" (AutoHarness)

이 논문은 **"AI 가 스스로 규칙을 지키는 코드를 만들어내게 하자"**라고 제안합니다.

🎮 비유: "자율주행 자동차와 블랙박스"

기존 방식은 운전기사 (AI) 가 실수하면 사람이 "아, 여기는 금지 구역이야"라고 알려주는 방식이었습니다.
하지만 AutoHarness는 운전기사 (AI) 에게 **"너가 스스로 블랙박스를 만들어서, 내가 위험한 행동을 하려고 하면 자동으로 브레이크를 밟아라"**라고 시키는 것입니다.

이 과정은 다음과 같이 이루어집니다:

  1. 시도: AI 가 게임을 하다가 규칙을 어기는 실수를 합니다.
  2. 피드백: 게임 환경이 "아, 그건 불법이야!"라고 알려줍니다.
  3. 수정 (핵심): AI 는 이 피드백을 보고 **"아, 내가 실수했구나. 그럼 내가 '불법 수'를 막아주는 코드를 고쳐서 다시 짜야겠다"**라고 생각합니다.
  4. 반복: 이 과정을 몇 번 반복하면, AI 가 만든 코드 (안전장치) 는 100% 규칙을 지키는 완벽한 필터가 됩니다.

3. 놀라운 결과: 작은 AI 가 큰 AI 를 이기다

이 기술의 가장 놀라운 점은 성능과 비용입니다.

  • 작은 AI + 안전장치 > 큰 AI: 연구팀은 작고 저렴한 AI 모델 (Gemini-2.5-Flash) 을 사용했습니다. 이 모델이 스스로 만든 안전장치를 달고 게임을 하니, 훨씬 더 크고 비싼 AI 모델 (Gemini-2.5-Pro) 보다 더 잘 이기게 되었습니다.
  • 완벽한 규칙 준수: 145 가지의 다양한 텍스트 게임 (체스, 스도쿠, 카드 게임 등) 에서 **불법 수를 0%**로 만들었습니다.
  • 최종 단계: AI 가 필요 없는 시점: 더 나아가서는 AI 가 게임을 하는 동안 실시간으로 생각할 필요도 없게 만들었습니다. AI 가 게임 규칙과 전략을 모두 코드로 변환해버린 것입니다. 이제 게임이 시작되면, AI 는 켜져 있을 필요도 없고, 단순히 실행 가능한 코드 파일만 있으면 됩니다. 이는 비용이 거의 들지 않습니다.

4. 요약: 왜 이것이 중요한가?

이 논문은 **"AI 가 스스로 자신의 약점을 보완하는 도구 (코드) 를 만들어낼 수 있다"**는 것을 증명했습니다.

  • 기존: 사람이 AI 를 감시하고 규칙을 가르쳐야 함.
  • 새로운 방식: AI 가 스스로 "내가 실수하지 않게 막아주는 코드를 짜겠다"고 학습함.

이는 마치 어린 학생이 스스로 오답노트를 만들어 시험을 완벽하게 대비하는 것과 같습니다. 더 이상 거대한 AI 모델에 막대한 돈을 들일 필요 없이, 작고 효율적인 모델이 스스로 '안전장치'를 만들어 더 똑똑하고 안전한 에이전트가 될 수 있게 된 것입니다.

한 줄 요약:

"AI 가 스스로 '규칙 위반'을 막아주는 코드를 짜게 하니, 작은 AI 도 거대 AI 를 이기고, 게임 중에는 아예 AI 를 켤 필요도 없게 되었다!"