UI-Venus-1.5 Technical Report

本論文は、大規模なミッドトレーニング、オンライン強化学習、およびモデルマージ技術を導入し、複数のベンチマークで最先端の性能を達成した統合型 GUI エージェント「UI-Venus-1.5」を提案するものである。

Venus Team, Changlong Gao, Zhangxuan Gu, Yulin Liu, Xinyu Qiu, Shuheng Shen, Yue Wen, Tianyu Xia, Zhenyu Xu, Zhengwen Zeng, Beitong Zhou, Xingran Zhou, Weizhi Chen, Sunhao Dai, Jingya Dou, Yichen Gong, Yuan Guo, Zhenlin Guo, Feng Li, Qian Li, Jinzhen Lin, Yuqi Zhou, Linchao Zhu, Liang Chen, Zhenyu Guo, Changhua Meng, Weiqiang Wang

公開日 2026-02-25
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

UI-Venus-1.5:スマホや PC を「自分たちで」操る天才アシスタントの誕生

この論文は、**「スマホやパソコンの画面を見て、人間に代わって操作してくれる AI(GUI エージェント)」**の最新バージョン「UI-Venus-1.5」について紹介しています。

これまでの AI は「指示されたことしかできない」か「特定のアプリにしか対応できない」ことが多かったのですが、この新しいモデルは**「どんなアプリでも、複雑な手順でも、一人で完璧にこなせる万能なデジタル助手」**に進化しました。

わかりやすくするために、いくつかの比喩を使って説明しましょう。


1. 3 つの新しい「成長ステップ」で天才になった

UI-Venus-1.5 は、単に勉強量を増やしただけではありません。これまでの AI が持っていた弱点を克服するために、3 つの特別なトレーニングを取り入れました。

① 基礎体力作り:「100 億語の GUI 辞書」を暗記する(Mid-Training)

  • 昔の AI: 画面のボタンやメニューの意味を、その場その場で「あ、これ何だろう?」と推測していましたが、間違えやすかったです。
  • UI-Venus-1.5: まず、スマホや PC の画面に関する100 億語ものデータを徹底的に読み込み、「ボタンはここにある」「メニューはこう動く」という基礎知識を頭の中に染み込ませました。
  • 比喩: 料理人になる前に、まず「野菜の切り方」や「調味料の味」を 10 年間勉強して、包丁の扱いに慣れた状態にしました。これで、いきなり難しい料理(複雑な操作)を頼んでも、パニックになりません。

② 実践練習:「失敗しながら」学ぶ(Online Reinforcement Learning)

  • 昔の AI: 教科書(過去のデータ)だけを見て勉強していたので、実際の現場(リアルなアプリ)で予期せぬエラーが出ると、どうすればいいかわからず立ち止まってしまいました。
  • UI-Venus-1.5: 実際のスマホや PC の画面を使って、**「失敗してもいいから試行錯誤」**する練習をしました。ボタンを押して反応を見る、間違えたらやり直す、という「生きた経験」を積むことで、臨機応変に対応できるようになりました。
  • 比喩: 料理のレシピ本を読むだけでなく、実際にキッチンで「焦がしてしまったらどうするか」「味が薄かったらどうするか」を実戦で何度も失敗しながら学んだ状態です。

③ 一人の天才に統合:「3 人の専門家」を 1 人にまとめる(Model Merging)

  • 昔の AI: 「画面の場所を探す専門家」「スマホ操作の専門家」「Web サイト操作の専門家」が別々で、それぞれ別の AI として動いていました。使い分けが大変でした。
  • UI-Venus-1.5: これら 3 つの専門家の知識を**「1 つの脳」**に統合しました。
  • 比喩: 「料理のスペシャリスト」「掃除のスペシャリスト」「運転のスペシャリスト」が別々でいるのではなく、「何でもこなす万能な家事代行マン」1 人に生まれ変わりました。ユーザーは「料理して」「掃除して」「運転して」と別々に頼む必要がなく、「今日のご飯と掃除、それから買い物に行ってきて」と一度に頼めば、すべてを完璧にこなしてくれます。

2. どれくらいすごいのか?(成績表)

この AI は、世界中のテスト(ベンチマーク)で最高レベルの成績を残しました。

  • 画面のボタンを見つける力: 「ScreenSpot-Pro」という難しいテストで、**69.6%**の正解率。これは、他の AI が 60% 台で苦しんでいる中、トップクラスです。
  • スマホ操作の力: 「AndroidWorld」というテストで、**77.6%**の成功率。これは、人間が操作するのと同じくらいスムーズにアプリを操れることを意味します。
  • 中国のアプリへの対応: 中国の 40 種類以上の人気アプリ(チケット予約、買い物、チャットなど)でも、人間のように自然に操作できることが実証されました。

3. なぜこれが重要なのか?

これまでの AI は「指示された通りに動くロボット」でしたが、UI-Venus-1.5 は**「状況を見て自分で判断するパートナー」**に近づいています。

  • 昔: 「A のボタンを押して、次に B のボタンを押して」と細かく指示しないと動かない。
  • 今: 「旅行のチケットを予約して」と頼むだけで、アプリを開き、日付を選び、支払いまで完了させる。

まるで、**「画面を見ながら、あなたの代わりにスマホを操る、賢い秘書」**が手元にいるような感覚です。

まとめ

UI-Venus-1.5 は、「基礎知識の暗記(Mid-Training)」「実戦での失敗学習(Online-RL)」、そして**「専門知識の統合(Model Merging)」**という 3 つの魔法をかけられた、これまでにないほど賢く、頼もしいデジタル助手です。

これからは、複雑なスマホ操作や PC 作業を、この AI に任せて、人間はもっとクリエイティブなことに時間を割けるようになるかもしれません。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →