원본 논문은 CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) 라이선스로 제공됩니다. 이것은 아래 논문에 대한 AI 생성 설명입니다. 저자가 작성한 것이 아닙니다. 기술적 정확성을 위해서는 원본 논문을 참조하세요. 전체 면책 조항 읽기
당신은 아주 똑똑하지만 약간은 서투른 로봇에게 "항공권 예약하기"나 "특정 제품 찾기"와 같은 작업을 수행하기 위해 인터넷을 탐색하는 법을 가르치려 한다고 상상해 보세요.
현재의 AI 에이전트들은 마치 그 로봇과 같습니다. 그들은 강력한 두뇌(대규모 언어 모델)를 가지고 있지만, 웹사이트 전체를 한 입에 삼키려는 것처럼 웹페이지 전체를 한꺼번에 읽으려고 하기 때문에 어려움을 겪습니다. 이로 인해 과부하가 걸리고, 어디에 있는지 잊어버리며, 전체 페이지를 뚫어지게 쳐да보는 바람에 정작 필요한 버튼을 놓치곤 합니다.
이 논문은 WebChallenger라는 새로운 방식의 에이전트를 소개합니다. 저자들은 로봇의 두뇌를 더 크거나 비싸게 만드는 대신, 그 주변에 더 나은 "비계(scaffolding)" 또는 운영 체제를 구축했습니다. 저자들은 인간이 웹 브라우징을 잘하는 이유는 자연스럽게 세 가지 행동을 하기 때문이며, WebChallenger는 로봇에게 이 세 가지를 똑같이 가르친다고 주장합니다.
작동 방식은 다음과 같은 쉬운 비유를 통해 설명할 수 있습니다.
1. "목차" 기법 (선택적 주의 집중)
문제점: 인간이 웹페이지를 볼 때, 모든 단어를 다 읽지는 않습니다. 헤드라인을 훑어보고, 흥키로운 부분이 있는 섹션을 확인한 뒤, 그 부분으로 시선을 좁힙니다. 반면 AI 에이전트는 보통 페이지 전체를 하나의 거대하고 지저분한 텍스트 덩어리로 읽으려고 합니다.
해결책: WebChallenger는 PageMem이라는 도구를 사용합니다. 이것은 모든 웹페이지에 대해 자동으로 "목차"를 생성하는 것과 같습니다.
- 페이지를 깔끔한 섹션(예: "내비게이션 바", "제품 목록", "푸터")으로 나눕니다.
- 각 섹션에 대해 한 문장으로 요약문을 작성합니다.
- 비유: 당신이 거대한 백화점에 있다고 상상해 보세요. 모든 통로를 돌아다니며 모든 태그를 읽는 대신, 입구에 있는 큰 지도를 봅니다. "전자제품", "의류", "생활용품" 등을 확인합니다. 전자제품이 필요하다고 판단되면, 나머지 구역은 무시하고 오직 그 특정 구역으로만 걸어 들어갑니다. WebChallenger는 이 과정을 즉각적으로 수행하여 "소음"을 제거하고 관련 있는 섹션에만 집중합니다.
2. "정신적 지도" (지속적 기억)
문제점: 새로운 웹사이트를 방문할 때마다 "로그인" 버튼이 어디 있는지 매번 새로 배워야 한다면 문제가 됩니다. 현재의 AI 에이전트들은 마치 건망증이 있는 것처럼 행동하여, 웹사이트를 방문할 때마다 마치 처음 방문한 것처럼 취급하며 방금 본 레이아웃을 잊어버립니다.
해결책: 에이전트가 작업을 시도하기 전에, 먼저 "정찰 임무"를 수행합니다. 웹사이트를 한 번 훑으며 클릭하며 돌아다니며 WebsiteMem을 구축합니다.
- 비유: 이것은 새로운 도시를 방문하는 관광객과 같습니다. 특정 식당을 찾기 전에, 동네를 한 바퀴 돌며 거리, 지하철역 위치, 공원 등을 파악합니다. 그들은 정신적 지도를 그립니다.
- WebChallenger는 모든 웹사이트에 대해 이 지도를 단 한 번 그립니다. 나중에 에이전트가 해당 사이트에 다시 가야 할 때, 레이아웃을 다시 배울 필요 없이 저장된 지도를 꺼내 보기만 하면 됩니다. 이는 시간을 절약하고 혼란을 방지합니다.
3. "콤보 기술" (절차적 유창성)
문제점: 인간에게는 흔한 작업에 대한 "근육 기억(muscle memory)"이 있습니다. 드롭다운 메뉴를 사용하고 싶을 때, "마우스를 움직이고, 클릭하고, 리스트가 나타날 때까지 기다리고, 리스트를 스캔하고, 다시 클릭한다"라고 생각하지 않습니다. 그저 "옵션을 선택한다"라고 생각합니다. AI 에이전트는 종종 미세한 단계 하나하나에 매몰되어 다음 동작을 결정하는 데 시간을 허비합니다.
해결책: WebChallenger는 **복합 동작(Compound Actions)**을 만듭니다.
- 비유: 비디오 게임을 한다고 상상해 보세요. "콤보 기술"은 버튼 하나를 눌렀을 때 캐릭터가 점프, 회전, 발차기를 하나의 유연한 동작으로 자동 수행하는 것입니다.
- WebChallenger에서 작업이 "양식(form) 채우기"라면, 에이전트는 모든 칸을 하나씩 고민하며 멈추지 않습니다. "양식 채우기"를 위한 사전 프로그래밍된 "콤보 기술"을 가지고 있습니다. 필드를 클릭하고, 텍스트를 입력하고, 다음 필드로 이동하고, 제출 버튼을 누르는 일련의 과정을 하나의 단일 결정으로서 처리합니다. 중간의 번거로운 과정들을 자동으로 처리하는 것입니다.
결과
저자들은 이 시스템을 표준적인 오픈 소스 AI 모델을 사용하여 테스트했습니다 (이 모델들은 대형 IT 기업들이 사용하는 거대하고 비싼 모델보다 저렴하고 작습니다).
- 결과: 이 "비계"(목차, 정신적 지도, 콤보 기술)를 사용함으로써, 이 시스템은 거의 모든 오픈 소스 에이전트보다 뛰어난 성능을 보였으며, 가장 비싼 독점 시스템들의 성능에 매우 근접했습니다.
- 핵별 시사점: 훌륭한 웹 네비게이터가 되기 위해 반드시 초지능적이거나 값비싼 두뇌가 필요한 것은 아닙니다. 정보를 조직화하고, 자신이 어디에 있었는지 기억하며, 지루한 단계를 자동화하는 스마트한 방법이 필요할 뿐입니다. WebChallenger는 바로 그 조직화된 방법을 제공합니다.
요약하자면, WebChallenger는 AI를 더 똑똑하게 만드는 것이 아니라, AI가 이미 가지고 있는 지능을 사용할 수 있는 더 나은 도구를 제공하는 것입니다.
연구 분야의 논문에 파묻히고 계신가요?
연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.