CAPTCHA Solving for Native GUI Agents: Automated Reasoning-Action Data Generation and Self-Corrective Training

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"컴퓨터가 웹사이트에서 인간인지 로봇인지 확인하는 'CAPTCHA(캡차)' 문제를 스스로 해결하는 똑똑한 AI 비서 (ReCAP)"**를 개발한 연구입니다.

기존의 AI 비서들은 웹사이트를 돌아다니는 것은 잘했지만, "이 사각형 안에 있는 모든 자동차를 찾아 클릭해" 같은 복잡한 장벽 앞에서 자주 막혔습니다. 이 연구는 그 장벽을 넘을 수 있는 새로운 방법을 제시합니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 문제: AI 비서의 "눈가림"과 "손떨림"

상상해 보세요. 당신이 새로운 직장에 입사해서 컴퓨터로 업무를 보게 되었습니다. 하지만 매번 업무를 시작할 때마다 보안 담당자가 **"이 사진 속의 자전거를 찾아 클릭하세요"**라고 묻습니다.

기존 AI 비서들: 웹사이트를 돌아다니는 건 잘하지만, 이런 복잡한 장벽 앞에서 당황합니다. 글자가 너무 흐릿하거나, 그림이 비틀어져 있으면 "무엇이 자전거인지 모르겠어요"라고 포기하거나 엉뚱한 곳을 클릭합니다.
기존 CAPTCHA 해결 프로그램: "자전거만 찾는 기계"는 있지만, 그 기계는 웹사이트에서 다른 업무를 할 줄 모릅니다. 즉, 특수한 열쇠는 있지만, 그 열쇠로 문을 열고 들어간 뒤 집안일을 할 줄 모릅니다.

2. 해결책: "ReCAP"이라는 새로운 AI 비서

연구팀은 ReCAP이라는 새로운 AI 비서를 만들었습니다. 이 비서는 웹사이트를 돌아다니는 능력도 뛰어나지만, CAPTCHA 장벽을 넘을 수 있는 특별한 훈련을 받았습니다.

🏗️ 훈련 방법 1: "가상의 미로 공단" (동적 CAPTCHA 시스템)

연구팀은 실제 웹사이트처럼 다양한 형태의 CAPTCHA(글자 찾기, 슬라이더 이동, 아이콘 매칭 등) 가 무작위로 생성되는 거대한 가상 훈련장을 만들었습니다.

비유: 마치 아이에게 다양한 형태의 미로 (벽이 높거나, 길이 좁거나, 문이 열려 있거나) 를 만들어 주어, 어떤 상황에서도 길을 찾을 수 있도록 훈련시키는 것과 같습니다. AI 는 여기서 "글자가 흐릿해도 읽어내는 힘 (OCR)"과 "정확하게 마우스를 움직이는 힘 (정밀 제어)"을 길렀습니다.

📝 훈련 방법 2: "생각의 말하기" (추론 데이터 생성)

AI 가 문제를 풀 때, 단순히 "클릭"만 하는 게 아니라 **"왜 클릭하는지"**를 먼저 생각하게 했습니다.

비유: 수학 문제를 풀 때, 답만 적는 게 아니라 **"이 문제는 A 공식을 써야 하니까, 먼저 X 를 구하고..."**라고 생각 과정을 말로 설명하게 훈련시킨 것입니다. 이렇게 하면 AI 는 실수했을 때 왜 틀렸는지 이해할 수 있게 됩니다.

🔄 훈련 방법 3: "실수하고 다시 하기" (자기 교정 훈련)

가장 중요한部分是 실수를 통해 배우는 과정입니다. AI 가 CAPTCHA 를 풀다가 틀렸을 때, 그 실패한 기록을 다시 분석하게 합니다.

비유: 아이가 그림을 그렸는데 색을 잘못 썼다고 해서, **"아, 내가 빨간색을 초록색으로 착각했구나. 다음엔 더 자세히 보자"**라고 스스로 반성하고 고치는 과정을 반복하게 훈련시킨 것입니다. 연구팀은 AI 가 실패한 데이터를 모아, "어떻게 고쳐야 정답이 되는지"를 가르치는 자기 교정 데이터를 만들었습니다.

3. 결과: 얼마나 잘할까요?

이 훈련을 받은 ReCAP 비서는 놀라운 성과를 냈습니다.

성공률 급증: 기존 AI 들은 CAPTCHA 를 30% 만 해결했지만, ReCAP 은 **80%**까지 성공률을 높였습니다.
빠른 속도: 다른 프로그램들은 여러 번 시도하고 기다려야 했지만, ReCAP 은 평균 1.5 번의 시도로 문제를 해결했습니다. (다른 프로그램은 3~5 번 시도)
일반 업무도 잘함: CAPTCHA 만 잘 푸는 게 아니라, 웹사이트를 돌아다니는 일반적인 업무 능력도 떨어지지 않았습니다.

4. 결론: 왜 이 연구가 중요할까요?

이 연구는 **"CAPTCHA 를 푸는 능력은 AI 가 인간처럼 복잡한 디지털 세상을 다룰 수 있는 핵심 능력"**임을 증명했습니다.

보안 강화: AI 가 CAPTCHA 를 잘 푼다는 건, 우리가 만든 보안 장벽이 AI 에게 뚫릴 수 있다는 뜻이기도 합니다. 따라서 이 연구는 더 강력한 보안 시스템 (예: 단순히 그림을 찾는 게 아니라, AI 가 어떻게 행동하는지 분석하는 시스템) 을 만드는 데 도움을 줄 것입니다.
AI 의 진화: 앞으로 AI 비서들은 웹사이트에서 장벽을 넘고, 복잡한 작업을 스스로 해결하는 **진짜 '디지털 비서'**가 될 수 있게 되었습니다.

한 줄 요약:

"ReCAP 은 다양한 가상 장벽 훈련과 '실수해서 배우는' 과정을 통해, 웹사이트를 돌아다니는 AI 비서가 복잡한 보안 장벽 (CAPTCHA) 을 능숙하게 넘어서도록 만든 혁신적인 기술입니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

최근 GUI 에이전트는 다중 모듈 파이프라인에서 원시 스크린샷을 직접 인식하고 디지털 기기와 상호작용하는 엔드 - 투 - 엔드 네이티브 비전 - 언어 모델 (VLM) 로 빠르게 전환되고 있습니다. 그러나 이러한 에이전트들은 일반적인 GUI 작업에서는 뛰어난 성능을 보이지만, CAPTCHA(자동화된 인간/컴퓨터 구분 테스트) 해결에는 여전히 큰 한계가 있습니다.

현황: 기존 CAPTCHA 해결 시스템은 특정 CAPTCHA 유형에 특화되어 있어 일반 GUI 작업으로의 전이가 어렵습니다. 반면, 일반적인 GUI 에이전트 (OpenCUA, UI-TARS 등) 는 CAPTCHA가 요구하는 강력한 OCR(잡음 및 스타일화된 텍스트 인식), 세밀한 시각적 이해, 정밀한 제어 능력을 갖추지 못해 CAPTCHA 해결 성공률이 낮습니다.
과제: 현대적인 CAPTCHA는 단순 텍스트 인식을 넘어 복잡한 시각적 이해와 상호작용 (연속적 제어, 의미 추론 등) 을 요구하므로, 이를 해결할 수 있는 네이티브 GUI 에이전트 개발이 시급합니다.

2. 방법론 (Methodology)

저자들은 ReCAP이라는 CAPTCHA 해결이 가능한 네이티브 GUI 에이전트를 제안하며, 이를 위해 세 가지 핵심 요소를 도입했습니다.

A. 동적 CAPTCHA 시스템 (Dynamic CAPTCHA System)

기존 데이터셋의 다양성 부족을 해결하기 위해 7 가지 대표 CAPTCHA 유형을 포함하는 동적 시스템을 구축했습니다.

7 가지 유형: Text, Compact Text, Icon Match, Icon Selection, Paged, Slider, Image Grid.
핵심 상호작용 원리: 이 시스템은 OCR, 연속적 제어 (드래그), 정밀한 공간 위치 지정 (클릭), 시각적 의미 이해 등 CAPTCHA 해결에 필수적인 4 가지 원리를 훈련하도록 설계되었습니다.
무작위성 (Stochastic Rendering): 레이아웃, 스타일링 (색상, 폰트), 제출 방법 등을 요청 시점에 동적으로 샘플링하여 에이전트가 고정된 패턴을 암기하는 것이 아니라 의미론적 이해에 의존하도록 유도합니다.
무한 생성: 다양한 시각적 자산 (아이콘, 배경, 왜곡된 텍스트) 을 조합하여 사실상 무한한 고유한 CAPTCHA 인스턴스를 생성합니다.

B. 자동화된 데이터 수집 및 선별 파이프라인

대규모 훈련 데이터를 생성하기 위해 두 가지 유형의 궤적을 자동 생성합니다.

해결 궤적 (Solution Traces): 전문가 모델 (SOTA VLM) 에게 CAPTCHA 스크린샷과 정답 (Ground Truth) 을 제공하되, 정답을 모른 척하며 Chain-of-Thought (CoT) 추론 과정을 생성하게 합니다. 이는 에이전트가 '무엇을' 할지뿐만 아니라 '왜' 그렇게 하는지 학습하게 합니다.
자기 수정 궤적 (Self-Correction Traces): 학생 모델이 실패한 시도를 기록한 후, 전문가 모델이 해당 실패 사례를 분석하여 오류의 원인을 식별하고 수정하는 과정을 생성합니다. 이를 통해 에이전트는 중간 실수에서 복구하는 능력을 학습합니다.

C. 훈련 패러다임 (Training Paradigm)

통합 손실 함수 (Unified Loss Function): 추론 (Reasoning) 토큰과 행동 (Action) 토큰의 길이가 크게 다른 문제를 해결하기 위해, 추론과 행동 토큰에 서로 다른 가중치 ( $\lambda_{think}, \lambda_{act}$ ) 를 부여한 통합 손실 함수를 사용합니다. 이를 통해 언어 생성에 치우치지 않고 정밀한 상호작용 정확도를 보장합니다.
멀티 액션 출력: 복잡한 CAPTCHA 해결을 위해 단일 응답 내에서 여러 GUI 액션 (예: 연속 클릭) 을 생성할 수 있도록 구조화되었습니다.

3. 주요 기여 (Key Contributions)

ReCAP 에이전트: CAPTCHA 해결 능력을 유지하면서도 일반 GUI 작업 성능을 해치지 않는 최초의 네이티브 GUI 에이전트.
동적 CAPTCHA 시스템: 7 가지 유형을 아우르는 대규모, 고다양성, 무작위화된 CAPTCHA 생성 환경 및 데이터셋 공개.
자기 수정 데이터 생성: 실패한 궤적을 활용한 자기 수정 (Self-Correction) 데이터 생성 파이프라인을 통해 에이전트의 오류 복구 능력을 강화하는 방법론 제시.
오픈 소스: 데이터, 모델, 코드를 공개하여 향후 연구의 기반을 마련했습니다.

4. 실험 결과 (Results)

저자들은 동적 CAPTCHA 시스템과 실제 세계 CAPTCHA 벤치마크, 일반 GUI 벤치마크에서 ReCAP 모델 (ReCAP-8B, ReCAP-32B) 을 평가했습니다.

동적 CAPTCHA 시스템 성능:
- 기존 일반 GUI 에이전트와 특화 파이프라인의 평균 성공률은 약 30% 수준이었으나, **ReCAP-32B 는 81.00%**로 획기적인 개선을 보였습니다.
- 특히 Icon Match, Slider, Image Grid 등 상호작용이 복잡한 작업에서 큰 성능 향상을 기록했습니다.
- 효율성: ReCAP-32B 는 성공 시 평균 1.54 단계의 모델 호출로 해결하여, 기존 에이전트 (2~~4 단계) 나 Halligan 프레임워크 (3~~5 단계 이상) 보다 훨씬 빠르고 효율적입니다.
실제 세계 CAPTCHA 벤치마크 (Zero-shot):
- ReCAP 모델은 실제 CAPTCHA 제공업체 (Google reCAPTCHA, hCAPTCHA, GeeTest 등) 의 26 가지 변형에 대해 Zero-shot으로 평가받았으며, 많은 유형에서 베이스라인 및 특화 프레임워크 (Halligan) 보다 우수한 성능을 보였습니다.
- 특히 복잡한 공간 추론이 필요한 Arkose Labs 등의 챌린지에서 유의미한 성공률을 기록했습니다.
일반 GUI 에이전트 벤치마크:
- ReCAP-32B 는 Android Control, ScreenSpot-V2, Multimodal-Mind2Web 등 일반 GUI 벤치마크에서 베이스라인 모델을 유지하거나 오히려 약간 향상된 성능을 보였습니다. 이는 CAPTCHA 훈련이 일반 능력을 저하시키지 않음을 의미합니다. (단, ReCAP-8B 는 용량 부족으로 인해 약간의 성능 저하가 관찰되었습니다.)
Ablation Study:
- CoT 추론: 추론 데이터 포함 여부에 따라 성공률이 66.4% → 71.9% 로 향상되었습니다.
- 자기 수정: 실패 사례 기반의 자기 수정 데이터를 추가한 결과, 특히 텍스트 기반 CAPTCHA 에서 성공률이 62.9% → 71.9% 로 크게 향상되었습니다.

5. 의의 및 결론 (Significance)

이 논문은 CAPTCHA 해결을 별도의 독립된 작업이 아닌, 네이티브 GUI 에이전트의 전이 가능한 핵심 기술 (Transferable Skill Set) 로 재정의했습니다.

기술적 의의: 추론 (Reasoning) 과 행동 (Action) 을 통합하고, 실패에서 학습하는 자기 수정 메커니즘을 도입함으로써, 복잡한 상호작용이 필요한 보안 장벽을 극복하는 새로운 에이전트 설계 패러다임을 제시했습니다.
보안적 시사점: 본 연구의 목적은 CAPTCHA 를 우회하는 것이 아니라, 현대적인 GUI 에이전트의 능력을 극한으로 시험함으로써 인간 검증 메커니즘의 취약점을 파악하고, 더 강력한 보안 시스템 개발을 촉진하는 데 있습니다.
향후 전망: ReCAP 는 CAPTCHA 해결뿐만 아니라 복잡한 웹/앱 상호작용 전반에 걸쳐 에이전트의 견고성과 일반화 능력을 향상시키는 중요한 토대가 될 것입니다.