CAPTCHA Solving for Native GUI Agents: Automated Reasoning-Action Data Generation and Self-Corrective Training

이 논문은 CAPTCHA 해결 능력을 유지하면서 일반 GUI 작업도 수행할 수 있는 네이티브 GUI 에이전트 'ReCAP'을 제안하며, 이를 위해 다양한 CAPTCHA 유형을 아우르는 동적 시스템 구축, 대규모 추론-행동 데이터 생성, 그리고 오류 기반 자기 수정 학습을 통해 CAPTCHA 해결 성공률을 30% 에서 80% 로 획기적으로 향상시켰음을 보여줍니다.

Yuxi Chen, Haoyu Zhai, Chenkai Wang, Rui Yang, Lingming Zhang, Gang Wang, Huan Zhang

게시일 2026-03-26
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"컴퓨터가 웹사이트에서 인간인지 로봇인지 확인하는 'CAPTCHA(캡차)' 문제를 스스로 해결하는 똑똑한 AI 비서 (ReCAP)"**를 개발한 연구입니다.

기존의 AI 비서들은 웹사이트를 돌아다니는 것은 잘했지만, "이 사각형 안에 있는 모든 자동차를 찾아 클릭해" 같은 복잡한 장벽 앞에서 자주 막혔습니다. 이 연구는 그 장벽을 넘을 수 있는 새로운 방법을 제시합니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제: AI 비서의 "눈가림"과 "손떨림"

상상해 보세요. 당신이 새로운 직장에 입사해서 컴퓨터로 업무를 보게 되었습니다. 하지만 매번 업무를 시작할 때마다 보안 담당자가 **"이 사진 속의 자전거를 찾아 클릭하세요"**라고 묻습니다.

  • 기존 AI 비서들: 웹사이트를 돌아다니는 건 잘하지만, 이런 복잡한 장벽 앞에서 당황합니다. 글자가 너무 흐릿하거나, 그림이 비틀어져 있으면 "무엇이 자전거인지 모르겠어요"라고 포기하거나 엉뚱한 곳을 클릭합니다.
  • 기존 CAPTCHA 해결 프로그램: "자전거만 찾는 기계"는 있지만, 그 기계는 웹사이트에서 다른 업무를 할 줄 모릅니다. 즉, 특수한 열쇠는 있지만, 그 열쇠로 문을 열고 들어간 뒤 집안일을 할 줄 모릅니다.

2. 해결책: "ReCAP"이라는 새로운 AI 비서

연구팀은 ReCAP이라는 새로운 AI 비서를 만들었습니다. 이 비서는 웹사이트를 돌아다니는 능력도 뛰어나지만, CAPTCHA 장벽을 넘을 수 있는 특별한 훈련을 받았습니다.

🏗️ 훈련 방법 1: "가상의 미로 공단" (동적 CAPTCHA 시스템)

연구팀은 실제 웹사이트처럼 다양한 형태의 CAPTCHA(글자 찾기, 슬라이더 이동, 아이콘 매칭 등) 가 무작위로 생성되는 거대한 가상 훈련장을 만들었습니다.

  • 비유: 마치 아이에게 다양한 형태의 미로 (벽이 높거나, 길이 좁거나, 문이 열려 있거나) 를 만들어 주어, 어떤 상황에서도 길을 찾을 수 있도록 훈련시키는 것과 같습니다. AI 는 여기서 "글자가 흐릿해도 읽어내는 힘 (OCR)"과 "정확하게 마우스를 움직이는 힘 (정밀 제어)"을 길렀습니다.

📝 훈련 방법 2: "생각의 말하기" (추론 데이터 생성)

AI 가 문제를 풀 때, 단순히 "클릭"만 하는 게 아니라 **"왜 클릭하는지"**를 먼저 생각하게 했습니다.

  • 비유: 수학 문제를 풀 때, 답만 적는 게 아니라 **"이 문제는 A 공식을 써야 하니까, 먼저 X 를 구하고..."**라고 생각 과정을 말로 설명하게 훈련시킨 것입니다. 이렇게 하면 AI 는 실수했을 때 왜 틀렸는지 이해할 수 있게 됩니다.

🔄 훈련 방법 3: "실수하고 다시 하기" (자기 교정 훈련)

가장 중요한部分是 실수를 통해 배우는 과정입니다. AI 가 CAPTCHA 를 풀다가 틀렸을 때, 그 실패한 기록을 다시 분석하게 합니다.

  • 비유: 아이가 그림을 그렸는데 색을 잘못 썼다고 해서, **"아, 내가 빨간색을 초록색으로 착각했구나. 다음엔 더 자세히 보자"**라고 스스로 반성하고 고치는 과정을 반복하게 훈련시킨 것입니다. 연구팀은 AI 가 실패한 데이터를 모아, "어떻게 고쳐야 정답이 되는지"를 가르치는 자기 교정 데이터를 만들었습니다.

3. 결과: 얼마나 잘할까요?

이 훈련을 받은 ReCAP 비서는 놀라운 성과를 냈습니다.

  • 성공률 급증: 기존 AI 들은 CAPTCHA 를 30% 만 해결했지만, ReCAP 은 **80%**까지 성공률을 높였습니다.
  • 빠른 속도: 다른 프로그램들은 여러 번 시도하고 기다려야 했지만, ReCAP 은 평균 1.5 번의 시도로 문제를 해결했습니다. (다른 프로그램은 3~5 번 시도)
  • 일반 업무도 잘함: CAPTCHA 만 잘 푸는 게 아니라, 웹사이트를 돌아다니는 일반적인 업무 능력도 떨어지지 않았습니다.

4. 결론: 왜 이 연구가 중요할까요?

이 연구는 **"CAPTCHA 를 푸는 능력은 AI 가 인간처럼 복잡한 디지털 세상을 다룰 수 있는 핵심 능력"**임을 증명했습니다.

  • 보안 강화: AI 가 CAPTCHA 를 잘 푼다는 건, 우리가 만든 보안 장벽이 AI 에게 뚫릴 수 있다는 뜻이기도 합니다. 따라서 이 연구는 더 강력한 보안 시스템 (예: 단순히 그림을 찾는 게 아니라, AI 가 어떻게 행동하는지 분석하는 시스템) 을 만드는 데 도움을 줄 것입니다.
  • AI 의 진화: 앞으로 AI 비서들은 웹사이트에서 장벽을 넘고, 복잡한 작업을 스스로 해결하는 **진짜 '디지털 비서'**가 될 수 있게 되었습니다.

한 줄 요약:

"ReCAP 은 다양한 가상 장벽 훈련과 '실수해서 배우는' 과정을 통해, 웹사이트를 돌아다니는 AI 비서가 복잡한 보안 장벽 (CAPTCHA) 을 능숙하게 넘어서도록 만든 혁신적인 기술입니다."