CRAFT-GUI: Curriculum-Reinforced Agent For GUI Tasks

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einem Roboter beibringen, wie man ein Smartphone bedient – etwa eine Pizza bestellen, einen Termin buchen oder eine App öffnen. Das ist die Aufgabe von CRAFT-GUI, einem neuen KI-Modell, das in dieser Studie vorgestellt wird.

Hier ist die einfache Erklärung, wie das funktioniert, ohne komplizierte Fachbegriffe:

1. Das Problem: Der "Alles-oder-Nichts"-Ansatz

Bisher haben KI-Modelle beim Lernen von Smartphone-Aufgaben oft wie ein Schüler behandelt, der gleichzeitig die Grundschule und die Universität besuchen muss.

Das Szenario: Die KI bekam eine Mischung aus ganz einfachen Aufgaben (z. B. "Tippe auf den roten Button") und extrem schwierigen Aufgaben (z. B. "Finde das richtige Restaurant, ändere die Lieferadresse, wähle eine spezielle Zahlungsmethode und bestätige alles").
Das Ergebnis: Die KI wurde verwirrt. Sie verbrachte zu viel Zeit mit den einfachen Dingen (die sie schon konnte) oder gab bei den schweren Aufgaben sofort auf, weil sie nicht wusste, wo sie anfangen soll. Es war wie ein Lehrer, der versucht, einem Kind Mathematik beizubringen, indem er ihm sofort eine komplexe Gleichung zeigt, ohne es erst das Einmaleins gelehrt zu haben.

2. Die Lösung: Der "Lehrplan" (Curriculum Learning)

Die Forscher von CRAFT-GUI haben eine clevere Idee: Lernen nach Schwierigkeitsgrad.

Stell dir das Training wie einen Video-Spiel-Level-System vor:

Level 1 (Anfänger): Die KI bekommt nur sehr kurze Aufgaben (maximal 3 Schritte). Das sind einfache "Klicks". Hier lernt sie, wie man überhaupt ein Gerät berührt.
Level 2 (Fortgeschritten): Jetzt kommen Aufgaben mit 4 bis 8 Schritten dazu. Die KI muss sich merken, was sie vorher getan hat, und eine kleine Kette von Aktionen bilden.
Level 3 (Profi): Erst wenn die KI die vorherigen Levels gemeistert hat, bekommt sie die "Boss-Kämpfe": sehr lange Aufgaben, bei denen sie auch Bilder verstehen und komplexe Zusammenhänge erkennen muss.

Durch diesen Lehrplan wird die KI Schritt für Schritt stärker, statt überfordert zu werden.

3. Der Belohnungssystem: Nicht nur "Richtig oder Falsch"

Früher bekam eine KI nur eine grobe Belohnung: "Aufgabe geschafft = 1 Punkt" oder "Aufgabe gescheitert = 0 Punkte". Das ist wie ein Lehrer, der nur sagt: "Die Prüfung war schlecht", ohne zu erklären, warum.

CRAFT-GUI nutzt ein feineres Belohnungssystem:

Der Werkzeug-Check: Hat die KI das richtige Werkzeug gewählt? (z. B. "Klicken" statt "Wischen").
Der Ziel-Check: Hat sie genau auf den richtigen Punkt getippt?
Der Denk-Check: Die KI muss ihre Gedanken in einem speziellen Format ("Denk-Tag") niederschreiben, bevor sie handelt. Das zwingt sie, logisch zu denken, bevor sie klickt.
Die Längen-Strafe: Wenn die KI anfängt, zu viel zu reden oder zu lange zu denken, gibt es kleine Strafpunkte. Das verhindert, dass sie in endlose Gedankenspiralen gerät.

Man könnte sagen: Früher bekam die KI nur ein "Daumen hoch" oder "Daumen runter". Jetzt bekommt sie ein detailliertes Feedback wie ein Sporttrainer: "Guter Griff, aber du hast den Ball zu weit links geworfen."

4. Das Ergebnis: Ein smarterer Assistent

Durch diese Kombination aus schrittweisem Lernen und detailliertem Feedback ist CRAFT-GUI deutlich besser geworden als alle vorherigen Modelle.

Auf öffentlichen Tests (wie dem AndroidWorld-Benchmark) hat es sich um 7,1 % verbessert.
Auf eigenen, realen Testdaten (wie Pizza bestellen oder Banking-Apps) war die Verbesserung sogar 10,3 %.

Zusammenfassung in einem Satz

CRAFT-GUI ist wie ein intelligenter Ausbilder, der einem Roboter nicht einfach alles auf einmal zeigt, sondern ihn erst einfache Aufgaben lösen lässt, ihm dann genau sagt, wo er Fehler macht, und ihn so langsam zu einem echten Smartphone-Experten macht.

Each language version is independently generated for its own context, not a direct translation.

, , `), um die Interpretierbarkeit und Konsistenz zu gewährleisten.
* Längen-Strafe ( $P_{length}$ ): Eine adaptive Strafe für zu lange Antworten, um das „Explosions"-Phänomen bei Thinking-Tokens zu verhindern (inspiriert von DAPO).

Für visuelles Verständnis:
- Eine semantische Belohnung ( $R_{sem}$ ), die durch ein „LLM-as-a-Judge"-Verfahren ermittelt wird, um die Übereinstimmung mit den Ground-Truth-Antworten bei komplexen Fragen zu bewerten.

3. Hauptbeiträge

Curriculum-RL-Strategie: Ein systematischer Ansatz, der das Training von einfachen zu komplexen Aufgaben basierend auf Trajektorienmerkmalen (Schrittanzahl, visuelles Verständnis) strukturiert.
Hybride Belohnungsmechanismen: Eine feinabgestimmte Kombination aus regelbasierten Validierungen und modellgestützter Evaluation, die stabile Konvergenz und nuanciertes Feedback ermöglicht.
Umfassende Evaluation: Nachweisliche Verbesserungen gegenüber State-of-the-Art-Methoden (SFT und reine RL-Baselines) sowohl bei Operationen als auch beim visuellen Verständnis.

4. Ergebnisse

Die Methode wurde auf öffentlichen Benchmarks und einem privaten, internen Datensatz evaluiert:

Öffentliche Benchmarks (AndroidWorld): CRAFT-GUI (32B Parameter) erreichte eine Verbesserung von 7,1 % gegenüber den besten vorherigen Ansätzen.
Interne Datensätze: Auf einem proprietären Datensatz mit 80.000 Proben aus sechs Anwendungskategorien (Essenslieferung, Finanzen, Gaming etc.) erzielte das Modell eine durchschnittliche Erfolgsrate von 75,7 %. Dies entspricht einer Steigerung von 10,3 % gegenüber dem besten Baseline-Modell (z. B. Claude-3.7-Sonnet oder GPT-4.1).
Ablationsstudien:
- Der Curriculum-Ansatz übertraf das Standard-RL um 3,8 % und SFT um 14,9 %.
- Die Kombination aus Operations- und Verständnisdaten führte zu einer weiteren Steigerung von 2,5 % im Vergleich zu reinen Operationsdaten, was die Notwendigkeit des gemischten Trainings unterstreicht.

5. Bedeutung und Ausblick

CRAFT-GUI demonstriert empirisch, dass die Integration von Curriculum Learning in Reinforcement Learning die Effizienz und Leistung von GUI-Agenten signifikant steigern kann. Durch die Berücksichtigung der Aufgabenschwierigkeit und die Bereitstellung differenzierter Belohnungssignale überwindet das Framework die Grenzen bestehender RL-Methoden.

Das Modell entwickelt sich zu einem vielseitigeren System, das sowohl niedrige Aktionsebene (Klicks, Swipes) als auch hohe kognitive Fähigkeiten (semantisches Verständnis, Planung) vereint. Zukünftige Arbeiten planen die Erweiterung auf Desktop-Umgebungen und die Einführung von Mechanismen für „Trial-and-Error" mit Rollback-Funktionen, um noch allgemeinere intelligente Agenten zu schaffen.

CRAFT-GUI: Curriculum-Reinforced Agent For GUI Tasks

1. Das Problem: Der "Alles-oder-Nichts"-Ansatz

2. Die Lösung: Der "Lehrplan" (Curriculum Learning)

3. Der Belohnungssystem: Nicht nur "Richtig oder Falsch"

4. Das Ergebnis: Ein smarterer Assistent

Zusammenfassung in einem Satz

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

Linear Programming for Multi-Criteria Assessment with Cardinal and Ordinal Data: A Pessimistic Virtual Gap Analysis

Seven simple steps for log analysis in AI systems

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

AHC: Meta-Learned Adaptive Compression for Continual Object Detection on Memory-Constrained Microcontrollers