OSExpert: Computer-Use Agents Learning Professional Skills via Exploration

이 논문은 OSExpert-Eval 벤치마크에서 인간 전문가 수준의 성능과 효율성을 달성하기 위해 GUI 기반 깊이 우선 탐색 (GUI-DFS) 을 통해 환경의 단위 기능을 탐색하고, 이를 조합하여 커리큘럼을 자동 구성하며 정밀한 행동 원시들을 학습하는 새로운 컴퓨터 사용 에이전트 'OSExpert'를 제안합니다.

Jiateng Liu, Zhenhailong Wang, Rushi Wang, Bingxuan Li, Jeonghwan Kim, Aditi Tiwari, Pengfei Yu, Denghui Zhang, Heng Ji

게시일 2026-03-10
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

OSExpert: 컴퓨터를 다루는 '초능력' 비서를 만드는 새로운 방법

이 논문은 **"컴퓨터를 사용하는 인공지능 (AI) 에이전트"**가 어떻게 하면 인간 전문가처럼 똑똑하고 빠르게 일할 수 있게 되는지 설명합니다.

기존의 AI 는 컴퓨터 화면을 보고 "파일 저장해 줘"라고 하면 끄덕이며 하나씩 클릭하는 식으로 일합니다. 하지만 복잡한 작업을 하거나 처음 보는 프로그램이 나오면 길을 잃거나, 같은 실수를 반복하며 시간이 너무 오래 걸립니다.

이 연구는 이 문제를 해결하기 위해 AI 가 스스로 컴퓨터 프로그램을 '탐험'하며 전문가가 되는 방법을 제안합니다.


🎒 비유: "여행 가이드 vs. 현지 탐험대"

기존의 AI 는 여행 가이드와 같습니다.

  • 기존 방식 (여행 가이드): 여행객 (사용자) 이 "이곳의 맛집을 찾아줘"라고 하면, 가이드는 미리 준비된 지도 (학습 데이터) 를 보고 "아, 여기가 맛집이죠"라고 알려줍니다. 하지만 지도에 없는 새로운 동네나, 지도에 없는 복잡한 길 (새로운 UI) 이 나오면 당황해서 길을 잃거나, 실수하며 헤매는 경우가 많습니다.

OSExpert 는 현지 탐험대와 같습니다.

  • 새로운 방식 (OSExpert): AI 는 여행 전에 미리 지도를 외우는 대신, 직접 그 동네로 가서 모든 골목과 가게를 하나하나 직접 걸어 다니며 탐험합니다.
    1. 탐험 (Exploration): "이 버튼 누르면 뭐가 나올까?", "이 메뉴는 어떤 기능을 할까?"를 직접 눌러보며 확인합니다.
    2. 매뉴얼 만들기 (Skill Construction): 탐험을 통해 "이 버튼을 누르면 파일이 저장된다", "이 아이콘을 드래그하면 사진이 잘린다"는 **확실한 사실 (기술)**을 기록장에 적어둡니다.
    3. 전문가 되기 (Expertise): 이제 사용자에게 일을 맡겨도, AI 는 막연히 추측하지 않고 기록장에 있는 확실한 기술을 꺼내서 "이렇게 하면 됩니다"라고 정확하고 빠르게 처리합니다.

🛠️ OSExpert 가 사용하는 3 가지 핵심 비법

이 논문은 AI 가 어떻게 '탐험'을 통해 전문가가 되는지 세 가지 비법을 소개합니다.

1. 미로 찾기 알고리즘 (GUI-DFS): 모든 방을 다 열어보다

  • 비유: 거대한 도서관에 들어갔을 때, 책장 하나하나를 다 열어보며 어떤 책이 있는지 확인하는 것과 같습니다.
  • 작동 원리: AI 는 컴퓨터 프로그램의 모든 메뉴와 버튼을 체계적으로 눌러봅니다. (DFS: 깊이 우선 탐색)
    • "파일" 메뉴를 누르면 "저장", "열기"가 나옵니다.
    • "도구" 메뉴를 누르면 "자르기", "색상 변경"이 나옵니다.
    • 이렇게 **하나하나의 작은 기능 (Unit Function)**을 모두 찾아내고, 그것이 어떻게 작동하는지 기록합니다.

2. "실패한 길"도 기록한다: 한계 인식 (Skill Boundary Check)

  • 비유: 길을 찾을 때, "이 길은 막혔다"라고 확인한 곳은 다시는 가지 않는 것입니다.
  • 작동 원리: 기존 AI 는 실패해도 "아마 내가 더 열심히 하면 될 거야"라며 같은 실수를 반복하며 시간을 낭비합니다.
    • OSExpert 는 탐험 중 "이 기능은 내가 아무리 시도해도 안 되는구나"라고 확인되면, 그 기능을 '불가능'으로 기록해 둡니다.
    • 나중에 사용자가 불가능한 일을 시키면, AI 는 "그건 제가 못 합니다"라고 즉시 말해줍니다. 이렇게 하면 불필요한 시간 낭비를 80% 이상 줄일 수 있습니다.

3. 정교한 손기술 (Fine-Grained Actions): 미세한 조작을 배우다

  • 비유: "그림을 자르세요"라고 할 때, AI 가 대충 가위로 잘라내는 게 아니라, 정확히 200x200 픽셀만큼만 잘라내는 기술을 배우는 것입니다.
  • 작동 원리: 컴퓨터 작업 중에는 "텍스트를 정확히 선택하기", "사진의 특정 부분만 잘라내기"처럼 아주 정밀한 손길이 필요한 경우가 많습니다.
    • AI 는 탐험 중 이런 정밀한 작업이 필요할 때, 미리 준비된 **정교한 도구 (Action Primitives)**를 꺼내 사용합니다.
    • 예를 들어, "텍스트 선택 도구"를 써서 마우스를 정확히 드래그하는 법을 배워, 실수 없이 완벽하게 수행합니다.

🚀 결과: 인간 전문가와 얼마나 가까워졌나?

이 새로운 방법 (OSExpert) 을 적용한 AI 는 기존 AI 들과 비교해 놀라운 성과를 보였습니다.

  • 성공률: 복잡한 작업을 성공적으로 끝내는 비율이 기존 10% 수준에서 약 30% 로 3 배 이상 향상되었습니다. (인간 전문가 수준에 한 걸음 더 다가감)
  • 속도: 인간 전문가와 비교했을 때, 일을 끝내는 데 걸리는 시간이 약 80% 단축되었습니다. (기존 AI 는 인간보다 5~50 배 느렸지만, 이제는 거의 비슷해졌습니다)
  • 새로운 프로그램: 처음 보는 프로그램 (예: Tableau, MiniWord) 이 나와도 당황하지 않고, 스스로 탐험한 기술을 바탕으로 잘 처리했습니다.

💡 결론: "배우는 것"보다 "스스로 배우게 하는 것"

이 논문의 핵심 메시지는 **"인간이 일일이 가르쳐 주는 것보다, AI 가 직접 환경을 탐험하며 스스로 기술을 습득하게 하는 것이 더 효율적이다"**라는 것입니다.

마치 어린아이가 부모가 모든 것을 알려주기보다, 직접 세상을 돌아다니며 경험하고 배우는 것이 더 빠르고 확실한 것처럼, OSExpert 는 AI 가 컴퓨터라는 세상을 직접 탐험하게 함으로써 진정한 '컴퓨터 전문가'로 성장하게 만든 것입니다.

이 기술이 발전하면, 앞으로 복잡한 문서 작업이나 데이터 분석 같은 전문적인 업무도 AI 가 인간처럼 빠르고 정확하게 도와줄 수 있을 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →