Training High-Level Schedulers with Execution-Feedback Reinforcement Learning for Long-Horizon GUI Automation

이 논문은 장기 GUI 자동화 작업에서 계획과 상태 관리를 담당하는 조정자 (Coordinator) 와 상태 추적자 (State Tracker) 에이전트를 강화학습으로 훈련시켜 임의의 실행기 (Executor) 와 결합 가능한 CES 멀티에이전트 프레임워크를 제안함으로써, 단일 에이전트의 한계를 극복하고 장기 작업 수행 능력을 크게 향상시킨다는 내용입니다.

Zehao Deng, Tianjie Ju, Zheng Wu, Zhuosheng Zhang, Gongshen Liu

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "혼자서 모든 일을 하려는 과부하된 직원"

기존의 AI 에이전트들은 한 명의 만능 직원처럼 작동했습니다. 이 직원은 다음과 같은 일을 동시에 해야 했습니다.

  • 전략 수립: "오늘 할 일을 어떻게 나눌까?" (고차원적 사고)
  • 현재 상태 파악: "지금 어디까지 했지? 다음 단계는 뭐지?" (기억력)
  • 실제 행동: "마우스를 클릭하고, 텍스트를 입력해." (저수준 행동)

비유: 마치 한 사람이 요리사, 매니저, 그리고 서빙을 동시에 하려고 하는 상황입니다.

  • 요리사가 메뉴를 고민하는 동안 손님이 와도 서빙을 못 하고,
  • 서빙을 하다가 요리를 망치거나,
  • "어제 뭐 했지?"라고 기억을 잃어버려서 같은 일을 반복하게 됩니다.

이를 논문에서는 **"책임의 결합 (Responsibility Coupling)"**과 **"상태 인식 부족 (Lack of Task State Awareness)"**이라고 부릅니다. 특히 긴 작업 (Long-Horizon Task) 을 할 때, 화면만 보고는 "내가 지금 전체 과정의 30% 지점에 와 있는 건지, 90% 지점에 와 있는 건지"를 알기 어렵습니다.

2. 해결책: "전문가 팀 (CES 프레임워크)"

저자들은 이 문제를 해결하기 위해 한 명의 만능 직원을 해고하고, 세 명의 전문가로 구성된 팀을 만들었습니다. 이를 CES 프레임워크라고 부릅니다.

① 코디네이터 (Coordinator) = "현장 지휘관 (CPU)"

  • 역할: 사용자의 복잡한 명령 ("피자를 시키고, 친구에게 링크 보내고, 알람 설정해") 을 받아 작은 단계로 나누고 구체적인 지시를 내립니다.
  • 비유: 요리사의 메뉴판과 레시피를 관리하는 매니저입니다. "지금부터 빵을 굽고, 그다음 소스를 만들고..."라고 단계별로 지시만 내리지, 직접 빵을 굽지는 않습니다.

② 실행자 (Executor) = "손이 빠른 요리사 (I/O 장치)"

  • 역할: 코디네이터가 내린 구체적인 지시 ("오븐 온도 200 도로 설정") 만 듣고 실제 행동을 수행합니다.
  • 비유: 오직 손만 움직이는 요리사입니다. "왜 이 일을 해야 하지?" 같은 깊은 고민은 하지 않고, 지시받은 대로 정확히 행동합니다. (기존에 쓰이던 강력한 AI 모델을 그대로 사용합니다.)

③ 상태 추적자 (State Tracker) = "기록 담당자 (메모리)"

  • 역할: 요리사가 무엇을 했는지, 현재까지의 진행 상황을 간결한 언어로 요약해서 기록합니다.
  • 비유: 요리사의 메모장입니다. "지금 빵이 구워졌고, 소스는 준비 중이야. 다음 단계는 치즈를 올려야 해"라고 핵심 정보만 정리해 줍니다.
  • 효과: 요리사 (코디네이터) 가 화면을 볼 때, 복잡한 화면 전체를 기억할 필요 없이 이 메모장만 보면 "아, 내가 지금 3 단계에 있구나"라고 바로 알 수 있습니다.

3. 훈련 방법: "실전 피드백을 통한 학습"

이 팀을 어떻게 훈련시켰을까요? 기존 방식은 "정답을 외우게 하는 것"이었지만, 이 논문은 **"결과를 보고 점수를 매겨 학습"**하는 방식을 썼습니다.

  • 비유: 요리사 팀이 시식회를 열었습니다.
    1. **지휘관 (코디네이터)**이 레시피를 짜고, **기록관 (상태 추적자)**이 메모를 합니다.
    2. **요리사 (실행자)**가 그 지시에 따라 요리를 합니다.
    3. 만약 요리가 실패하면 (예: 빵이 타버림), 그 **결과 (점수)**를 보고 지휘관과 기록관에게 "너희가 지시나 메모를 잘못해서 요리사가 실패했다"고 알려줍니다.
    4. 지휘관과 기록관은 이 피드백을 받아 다음에 더 잘할 수 있도록 수정합니다.

이 과정을 **"실행 피드백 강화 학습 (Execution-Feedback RL)"**이라고 합니다. 중요한 점은 요리사 (실행자) 는 이미 완성된 전문가이므로 건드리지 않고, 오직 지휘관과 기록관만 훈련시켰다는 것입니다.

4. 결론: "왜 이 방법이 좋은가?"

이 방법을 적용한 결과, AI 는 다음과 같은 변화를 겪었습니다.

  • 길 잃지 않음: 기록관 (상태 추적자) 덕분에 긴 작업 중에도 "내가 어디까지 했는지"를 잊지 않습니다.
  • 명확한 지시: 지휘관 (코디네이터) 이 복잡한 일을 작은 조각으로 잘게 나누어 주므로, 요리사 (실행자) 는 헷갈리지 않고 정확하게 행동합니다.
  • 범용성: 이 팀 구성 방식은 어떤 요리사 (기존 AI 모델) 가 들어와도 잘 작동합니다. 즉, 플러그 앤 플레이 (Plug-and-play) 방식이라서 기존 시스템에 바로 적용할 수 있습니다.

한 줄 요약:

"혼자서 모든 걸 하려다 지친 AI 에게 '지휘관', '요리사', '기록관'이라는 전문가 팀을 구성하고, 실제 결과로 피드백을 주며 훈련시켜서 긴 작업도 척척 해내게 만들었습니다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →