AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents

이 논문은 정보 비대칭을 활용하여 일반 컴퓨터 사용 에이전트를 위한 고품질 태스크와 궤적 데이터를 자동 생성하는 확장성 있고 비용 효율적인 파이프라인인 AgentSynth 를 제안하며, 이를 통해 6,000 개 이상의 다양한 태스크를 생성하고 기존 LLM 에이전트의 성능 한계를 입증했습니다.

Jingxu Xie, Dylan Xu, Xuandong Zhao, Dawn Song

게시일 2026-03-03
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

에이전트 신스 (AgentSynth): 컴퓨터를 다루는 AI 를 위한 '가상 훈련장' 만들기

이 논문은 **"AI 가 컴퓨터를 직접 조작하는 능력을 키우기 위해, 어떻게 저렴하고 빠르게 수많은 훈련 문제를 만들어낼 수 있을까?"**라는 질문에 대한 해답을 제시합니다.

저희가 소개하는 **AgentSynth(에이전트 신스)**는 마치 **"스마트한 훈련 코치"**와 같은 시스템입니다. 이 코치는 AI 가 컴퓨터를 다룰 때 겪을 수 있는 다양한 상황을 자동으로 만들어내는데, 그 방식이 매우 영리합니다.


1. 왜 이런 시스템이 필요할까요? (기존의 문제점)

지금까지 컴퓨터를 다루는 AI 를 가르치려면, 사람이 직접 컴퓨터를 조작하며 "이렇게 해, 저렇게 해"라고 기록해 주는 방식을 썼습니다.

  • 비유: 마치 수영 선수에게 코치가 직접 물속에 들어가서 발차기 동작을 하나하나 시범 보이며 가르치는 것과 같습니다.
  • 문제점: 이 방식은 시간도 많이 걸리고, 비용도 비싸며, 만들 수 있는 훈련 문제의 양에 한계가 있습니다. 현실 세계에는 너무 많은 종류의 컴퓨터 작업이 있는데, 사람이 일일이 다 가르칠 수는 없죠.

2. AgentSynth 의 핵심 아이디어: "조각조각 나누어 만들기"

이 논문이 제안한 AgentSynth는 기존 방식과 완전히 다릅니다. 핵심은 **"정보의 비대칭성"**을 이용하는 것입니다.

  • 비유: 거대한 퍼즐을 한 번에 맞추는 것은 매우 어렵지만, 작은 조각 하나씩 맞추는 것은 쉽습니다.
    • 기존 방식: AI 에게 "거대한 퍼즐을 맞춰봐!"라고 바로 던져주면, AI 는 당황해서 실패합니다.
    • AgentSynth 방식:
      1. 먼저 **매우 쉬운 작은 퍼즐 조각 (하위 작업)**을 하나 만들어 AI 가 맞추게 합니다. (예: "문서 파일 열기")
      2. AI 가 성공하면, 그다음 조금 더 복잡한 조각을 이어 붙입니다. (예: "파일에 이름 쓰기")
      3. 이렇게 작은 성공들을 계속 이어가다 보면, 결국 **매우 복잡하고 긴 작업 (예: "지난달 매출 보고서 작성하고 이메일로 보내기")**이 완성됩니다.

이때 중요한 점은, 작은 조각을 만드는 것은 AI 가 쉽게 할 수 있지만, 그 조각들이 모여 만들어진 '최종 미션'은 AI 가 풀기 매우 어렵다는 것입니다. 마치 레고 블록을 하나씩 쌓는 것은 쉽지만, 그걸로 거대한 성을 처음부터 설계하는 것은 어렵기 때문입니다.

3. 이 시스템이 얼마나 똑똑한가요? (주요 특징)

  1. 난이도 조절이 자유로워요:

    • 작은 조각을 1 개만 연결하면 '초급', 6 개를 연결하면 '고급'으로 만들 수 있습니다. 마치 게임에서 레벨을 1 에서 6 까지 조절하듯이, AI 의 실력에 맞춰 훈련 문제를 조절할 수 있습니다.
  2. 비용이 놀라울 정도로 저렴해요:

    • 사람이 직접 기록할 때는 한 문제당 약 4400 달러 (약 5,000 원50 만 원) 가 들지만, 이 시스템은 **약 0.6 달러 (약 800 원)**면 됩니다.
    • 비유: 사람이 직접 요리를 가르쳐 주는 대신, 자동 요리 로봇이 레시피를 만들어내면서 동시에 요리 실습도 시키는 것과 같습니다.
  3. 현실적인 훈련장이에요:

    • 단순히 웹브라우저만 다루는 게 아니라, 엑셀, 워드, 코드 편집기 등 실제 컴퓨터에 있는 다양한 프로그램을 섞어서 훈련시킵니다. 마치 가상 현실 (VR) 게임에서 실제 사무실 환경을 그대로 재현한 것과 같습니다.

4. 결과는 어땠나요? (AI 의 실력)

이 시스템으로 만든 훈련장에서 최신 AI 모델들을 테스트해 보았습니다. 결과는 충격적이었습니다.

  • 초급 문제 (레벨 1): AI 가 약 18% 정도 성공했습니다.
  • 고급 문제 (레벨 6): AI 의 성공률이 4% 로 뚝 떨어졌습니다.
  • 반면, 사람은 같은 고급 문제에서도 70% 를 성공했습니다.

이는 현재 AI 가 긴 호흡의 복잡한 작업을 할 때 여전히 매우 취약하다는 것을 보여줍니다. AI 는 중간에 실수하면 그걸 바로잡지 못하고 같은 실수를 반복하거나, 화면을 제대로 이해하지 못해 엉뚱한 곳을 클릭하는 등 '실수 회복 능력'이 부족합니다.

5. 결론: 왜 이것이 중요한가요?

AgentSynth는 AI 개발자들에게 **"무한한 훈련장"**을 제공했습니다.

  • 비용 절감: 비싼 인건비 없이도 수천 개의 훈련 데이터를 만들 수 있습니다.
  • 정밀한 평가: AI 가 어디서, 왜 실패하는지 정확히 파악할 수 있는 척도가 됩니다.
  • 미래 지향: 이 시스템을 통해 AI 가 점점 더 복잡한 컴퓨터 작업을 스스로 해낼 수 있도록, 끊임없이 더 어려운 훈련 문제를 만들어낼 수 있습니다.

요약하자면, AgentSynth는 AI 가 컴퓨터를 능숙하게 다루는 '프로'가 되기 위해 필요한 가상의 사격 훈련장을 저렴하고 빠르게 지어준 것입니다. 이제 AI 는 이 훈련장에서 더 많이 실수하고, 더 많이 배우며, 결국에는 사람처럼 컴퓨터를 자유자재로 다룰 수 있게 될 것입니다.