UI-Venus-1.5 Technical Report

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr intelligenten, aber noch etwas unerfahrenen Assistenten, der Ihnen helfen soll, Ihren Computer oder Ihr Smartphone zu bedienen. Früher musste man ihm für jede einzelne Aufgabe (wie „Klicken Sie auf den roten Button" oder „Scrollen Sie nach unten") eine ganz genaue, starre Anleitung geben. Das funktionierte nur, wenn das Programm genau so aussah wie erwartet.

Das Team von Ant Group hat nun mit UI-Venus-1.5 einen neuen, viel schlaueren digitalen Assistenten vorgestellt. Hier ist die Erklärung, wie dieser Assistent funktioniert, ohne technisches Fachchinesisch:

1. Der große Unterschied: Vom Anfänger zum Profi

Frühere Versionen waren wie ein Schüler, der gerade erst angefangen hat, die Sprache der Benutzeroberflächen zu lernen. Sie konnten einfache Dinge, aber wenn sich das Design einer App änderte oder eine Aufgabe kompliziert wurde, kamen sie ins Stolpern.

UI-Venus-1.5 ist wie ein erfahrener Navigator, der die Welt der Apps und Webseiten nicht nur kennt, sondern sie versteht. Er kann nicht nur auf Knöpfe klicken, sondern auch komplexe Aufgaben lösen, wie „Buche mir ein Ticket für den nächsten Zug und speichere es in meiner Lieblingsliste", indem er selbstständig durch die App navigiert.

2. Die drei Geheimrezepte für den Erfolg

Die Forscher haben diesen Assistenten durch drei besondere Trainingsphasen zum Superhelden gemacht:

Phase 1: Das „Mid-Training" – Der große Wissensspeicher
- Die Analogie: Stellen Sie sich vor, Ihr Assistent liest vor dem eigentlichen Training nicht nur ein paar Seiten aus einem Buch, sondern durchblättert 10 Milliarden Seiten an verschiedenen Handbüchern für Computer und Handys.
- Was passiert: Er lernt nicht nur, wie ein Button aussieht, sondern versteht die Logik dahinter. Er weiß, dass ein „Hamburger-Menü" (die drei Striche) fast immer das Menü öffnet, egal ob es auf einem Handy oder einem Laptop ist. Dieses riesige Wissen bildet das Fundament, damit er später nicht raten muss.
Phase 2: Das „Online-Reinforcement Learning" – Lernen durch Ausprobieren
- Die Analogie: Früher lernte der Assistent nur aus alten Fotos von Aufgaben (Offline). Das ist wie das Lernen von Autofahren nur aus einem Buch. UI-Venus-1.5 darf jetzt aber selbst fahren.
- Was passiert: Der Assistent wird in eine virtuelle Welt voller tausender verschiedener Apps und Webseiten gesetzt. Er versucht Aufgaben zu lösen. Wenn er einen Fehler macht (z. B. auf das falsche Icon klickt), bekommt er eine „Rote Karte" (eine negative Rückmeldung). Wenn er erfolgreich ist, bekommt er einen „Goldstern". Durch dieses ständige Ausprobieren und Korrigieren in Echtzeit lernt er, auch in chaotischen Situationen den richtigen Weg zu finden.
Phase 3: Das „Model Merging" – Der perfekte Allrounder
- Die Analogie: Stellen Sie sich vor, Sie hätten drei verschiedene Spezialisten: Einen, der nur Webseiten kennt, einen für Handys und einen, der nur weiß, wo man auf dem Bildschirm klickt. Normalerweise müsste man drei verschiedene Personen anrufen.
- Was passiert: Die Forscher haben diese drei Spezialisten zu einem einzigen, super-intelligenten Wesen verschmolzen. Dieser eine Assistent kann nun alles: Webseiten durchsuchen, Apps auf dem Handy bedienen und genau erkennen, wo er klicken muss. Man braucht nur noch einen Assistenten für alle Aufgaben.

3. Was kann er jetzt wirklich?

Dank dieses Trainings ist UI-Venus-1.5 in Tests besser als alle bisherigen Konkurrenten:

Er findet den richtigen Button auf dem Bildschirm mit einer Genauigkeit von fast 70 % (bei sehr schwierigen Aufgaben), während andere nur bei ca. 50–60 % lagen.
Er kann komplexe Aufgaben auf Android-Handys lösen, bei denen er viele Schritte hintereinander machen muss (z. B. „Öffne die Musik-App, suche nach einem neuen Song und füge ihn zur Playlist hinzu").
Er ist besonders gut darin, chinesische Apps zu bedienen, was für den Alltag in China sehr wichtig ist.

Zusammenfassung

UI-Venus-1.5 ist wie ein digitaler Butler, der nicht stur Befehle ausführt, sondern die Absicht versteht. Er hat durch das Lesen von Millionen von Beispielen gelernt, wie Apps funktionieren, und durch das Üben in einer simulierten Welt gelernt, Fehler zu korrigieren. Das Ergebnis ist ein System, das uns im echten Leben helfen kann, Dinge auf unseren Geräten zu erledigen, ohne dass wir selbst jedes kleine Detail steuern müssen. Es ist ein großer Schritt hin zu einem Computer, der uns wirklich versteht und unterstützt.

UI-Venus-1.5 Technical Report

1. Der große Unterschied: Vom Anfänger zum Profi

2. Die drei Geheimrezepte für den Erfolg

3. Was kann er jetzt wirklich?

Zusammenfassung

Technische Zusammenfassung: UI-Venus-1.5

Mehr davon

One Pic is All it Takes: Poisoning Visual Document Retrieval Augmented Generation with a Single Image

The Geometric Anatomy of Capability Acquisition in Transformers

Disentangling Prompt Element Level Risk Factors for Hallucinations and Omissions in Mental Health LLM Responses

ASCAT: An Arabic Scientific Corpus and Benchmark for Advanced Translation Evaluation

Semantic Shifts of Psychological Concepts in Scientific and Popular Media Discourse: A Distributional Semantics Analysis of Russian-Language Corpora