UI-Venus-1.5 Technical Report

이 논문은 100 억 토큰의 미드트레이닝, 전체 궤적 롤아웃을 통한 온라인 강화학습, 그리고 도메인별 모델 병합을 통해 ScreenSpot-Pro 등 주요 벤치마크에서 새로운 최첨단 성능을 달성한 범용 GUI 에이전트 'UI-Venus-1.5'를 제안합니다.

Venus Team, Changlong Gao, Zhangxuan Gu, Yulin Liu, Xinyu Qiu, Shuheng Shen, Yue Wen, Tianyu Xia, Zhenyu Xu, Zhengwen Zeng, Beitong Zhou, Xingran Zhou, Weizhi Chen, Sunhao Dai, Jingya Dou, Yichen Gong, Yuan Guo, Zhenlin Guo, Feng Li, Qian Li, Jinzhen Lin, Yuqi Zhou, Linchao Zhu, Liang Chen, Zhenyu Guo, Changhua Meng, Weiqiang Wang

게시일 2026-02-25
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

안녕하세요! 안트그룹 (Ant Group) 의 '유니스 (Venus)' 팀이 발표한 UI-Venus-1.5 기술 보고서를 일반인도 쉽게 이해할 수 있도록, 일상적인 비유와 재미있는 이야기로 풀어서 설명해 드릴게요.

🌟 핵심 개념: "스마트폰을 스스로 다루는 '디지털 도우미'가 진화했습니다!"

과거의 컴퓨터 자동화 프로그램은 마치 엄격한 지시서를 따라 움직이는 로봇 같았습니다. "이 버튼을 누르고, 저 창을 닫아"라고 정확히 말해주지 않으면 아무것도 못 했죠.

하지만 UI-Venus-1.5는 다릅니다. 이 모델은 마치 스마트폰을 처음 본 친구에게 가르쳐주는 똑똑한 튜터 같습니다. 화면을 보고, "이게 뭐지?"라고 생각하며, "아! 이거 누르면 되겠네!"라고 스스로 판단해서 작업을 해냅니다.

이제 이 튜터가 어떻게 더 똑똑해졌는지, 3 가지 주요 업그레이드로 설명해 드릴게요.


🚀 3 가지 핵심 업그레이드 (어떻게 똑똑해졌을까?)

1. 📚 '중간 훈련 (Mid-Training)': 방대한 '앱 사용법' 도서관을 방문하다

  • 이전 상황: 예전 모델은 스마트폰 앱의 구조를 잘 몰라서, "설정 메뉴를 찾아줘"라고 하면 어디가 설정인지 헤매는 경우가 많았습니다.
  • 새로운 변화: 연구팀은 30 개 이상의 다양한 앱 데이터 100 억 개를 모델에게 보여줬습니다.
  • 비유: 마치 모든 스마트폰 앱 사용법을 외운 '앱 마스터'가 된 것입니다. 이제 이 모델은 앱을 처음 켜더라도 "아, 이 아이콘은 '홈'이고, 저건 '뒤로가기'구나"라고 금방 이해합니다. 이 과정을 통해 모델은 기본적인 앱 구조를 완벽하게 체득했습니다.

2. 🎮 '온라인 강화 학습 (Online RL)': 실전 시뮬레이션 게임으로 실력 향상

  • 이전 상황: 책 (데이터) 만 보고 공부하면, 실제 게임 (실제 앱) 에서 예상치 못한 상황이 나오면 당황하기 쉽습니다. "이게 왜 안 되지?"라고 멈춰버리죠.
  • 새로운 변화: 모델에게 수천 대의 가상 스마트폰을 연결해 실제처럼 작동하게 했습니다. 여기서 실수를 하고, 다시 시도하고, 성공하는 과정을 반복하게 했어요.
  • 비유: 실전 모의고사를 수만 번 치른 것과 같습니다. "이 버튼을 누르면 앱이 꺼질 수도 있으니, 먼저 저장 버튼을 눌러야겠다"처럼, 실제 환경에서 발생하는 돌발 상황을 스스로 경험하며 배우게 되어, 복잡한 작업도 거침없이 해냅니다.

3. 🧩 '모델 병합 (Model Merging)': 세 명의 전문가를 하나로 합치다

  • 이전 상황: 웹사이트를 잘 다루는 모델, 모바일 앱을 잘 다루는 모델, 화면의 버튼을 찾는 모델이 따로 있었습니다. 사용자는 작업마다 모델을 바꿔야 했죠.
  • 새로운 변화: 이 세 가지 전문성을 가진 모델들을 하나의 '슈퍼 모델'로 합쳤습니다.
  • 비유: 웹 전문가, 앱 전문가, 버튼 찾기 전문가가 한 몸이 되어 '만능 비서'가 된 것입니다. 이제 사용자는 "티켓 예매해 줘"라고만 하면, 웹에서 검색하고 앱으로 이동하고 버튼을 누르는 모든 과정을 하나의 모델이 알아서 처리합니다.

🏆 얼마나 잘해냈을까요? (성적표)

이 모델은 전 세계적으로 유명한 시험 (벤치마크) 에서 **최고의 점수 (SOTA)**를 받았습니다.

  • 화면 찾기 (Grounding): 복잡한 화면에서 "저기 있는 '구매' 버튼을 찾아줘"라고 하면, 96% 이상의 정확도로 찾아냅니다. (이전 모델들보다 훨씬 정확해요!)
  • 작업 수행 (Navigation): 안드로이드 앱에서 "친구에게 메시지 보내고, 노래 재생해 줘" 같은 복잡한 지시도 77.6% 성공률로 해냅니다.
  • 실제 활용: 중국 내 40 개 이상의 주요 앱 (예: 항공권 예매, 쇼핑, 채팅 등) 에서 실제로 작동하며, 실제 사용자의 삶을 도와주는 진정한 비서가 되었습니다.

💡 요약하자면

UI-Venus-1.5는 단순히 "화면을 보는 눈"을 가진 것을 넘어, **앱의 구조를 이해하고, 실전에서 실수를 배우며, 모든 일을 하나로 처리하는 '완벽한 디지털 비서'**로 진화했습니다.

앞으로 우리는 "이거 해줘"라고 말만 하면, 스마트폰이 알아서 모든 일을 척척 해주는 시대가 더 가까워진 것입니다! 📱✨

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →