AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr intelligenten, aber noch etwas unerfahrenen Assistenten namens „KI-Agent". Dieser Assistent kann nicht nur lesen und schreiben, sondern auch sehen (Bilder verstehen) und Handeln (im Internet suchen, Bilder bearbeiten, Rechnungen machen).

Das Papier „AGENTVISTA" stellt uns einen neuen, extrem schwierigen Test vor, um zu prüfen, wie gut dieser Assistent im echten Leben funktioniert.

Hier ist die Erklärung in einfachen Worten, mit ein paar bildhaften Vergleichen:

1. Das Problem: Der Assistent ist noch ein „Babysitter"

Bisherige Tests für KI waren wie Schulaufgaben im Klassenzimmer.

Die KI bekam ein Bild und eine Frage.
Sie musste antworten.
Aber: Die Aufgaben waren oft zu einfach oder zu künstlich. Es war, als würde man jemanden testen, der nur im Schwimmbad schwimmen kann, und dann erwarten, dass er den Atlantik überquert.

Echte Aufgaben sind chaotisch. Ein Mensch muss vielleicht ein Foto von einem kaputten Kabelschrank machen, im Internet nach dem Schaltplan suchen, ein Bild des Kabels mit dem Plan vergleichen, eine Reparatur planen und dann die Kosten berechnen. Das erfordert viele Schritte, verschiedene Werkzeuge und ein gutes Auge für Details.

2. Die Lösung: AGENTVISTA – Der „Survival-Parcours"

Die Forscher haben AGENTVISTA entwickelt. Das ist kein einfacher Test, sondern ein ultra-harter Überlebensparcours für KI-Agenten.

Der Parcours: Er besteht aus 209 verschiedenen Aufgaben aus 7 Welten (z. B. Einkaufen, Reisen, Technik, Kultur).
Die Werkzeuge: Der KI-Assistent darf nicht nur raten. Er muss echte Werkzeuge benutzen:
- Google-Suche: Um Fakten zu finden.
- Bildersuche: Um zu vergleichen, wie etwas aussieht.
- Webseiten-Besuch: Um Details zu lesen.
- Code-Interpreter: Um Bilder zu zoomen, zu schneiden oder Mathe zu rechnen.
Die Herausforderung: Die Aufgaben sind so gestellt, dass die KI lange Ketten von Aktionen durchführen muss. Sie muss oft 10, 15 oder sogar 25 Schritte hintereinander machen, ohne den Faden zu verlieren.

Ein Beispiel aus dem Papier:
Stell dir vor, du willst den Boden in deinem Wohnzimmer neu verlegen.

Du machst ein Foto vom alten Boden (Bild 1).
Du suchst online nach einem ähnlichen Vinyl-Boden.
Du musst prüfen, ob das Zimmer, in dem du den Boden willst (Bild 2), wirklich das ist, das du meinst (vielleicht ist es ein Schlafzimmer, nicht ein Wohnzimmer).
Du musst die Maße des Raums aus einem anderen Bild (Bild 3) berechnen.
Du musst den Preis pro Quadratmeter finden und die Gesamtkosten berechnen.

Ein KI-Agent muss all das allein schaffen, indem er zwischen Bildern, Suchmaschinen und Taschenrechnern hin- und herspringt.

3. Das Ergebnis: Die KI stolpert noch

Die Forscher haben die besten KI-Modelle der Welt (wie Gemini, GPT-5, Claude) durch diesen Parcours geschickt. Das Ergebnis war ernüchternd:

Die Punktzahl: Selbst der „König" der KIs (Gemini-3-Pro) hat nur 27,3 % der Aufgaben richtig gelöst.
Die Metapher: Stell dir vor, du gibst einem Menschen einen Kompass, eine Karte und einen Fernglas. Wenn er bei 100 Wanderungen nur 27 Mal das Ziel erreicht, ist er noch kein erfahrener Abenteurer. Die KI ist noch sehr verloren.
Wo sie scheitern:
- Das Auge: Oft sieht die KI das falsche Detail. Sie verwechselt ein Kabel mit einem anderen oder liest eine Zahl falsch ab. Das ist wie ein Detektiv, der den falschen Fingerabdruck findet.
- Die Geduld: Bei langen Aufgaben (über 25 Schritte) vergisst die KI oft, was sie am Anfang gesagt hat, oder macht einen Fehler in Schritt 3, der alles in Schritt 20 ruiniert.
- Halluzinationen: Manchmal erfindet die KI Fakten, die gar nicht da sind, nur um die Aufgabe zu „lösen".

4. Warum ist das wichtig?

Dieser Test zeigt uns, dass wir noch einen langen Weg vor uns haben, bevor KIs wirklich als zuverlässige Helfer im Alltag eingesetzt werden können.

Bisher: KIs sind wie brillante Studenten, die nur theoretische Prüfungen bestehen.
Ziel: Wir brauchen KIs, die wie erfahrene Handwerker sind, die in einer chaotischen Werkstatt echte Probleme lösen können, ohne das Haus abzubrennen.

Fazit:
AGENTVISTA ist wie ein Spiegel, der zeigt, wo die KI noch Schwächen hat. Es ist kein böser Test, sondern ein notwendiger Schritt. Nur wenn wir wissen, wo die KI stolpert (z. B. bei kleinen Details auf Fotos oder bei langen Aufgaben), können wir sie besser trainieren, bis sie eines Tages wirklich unser zuverlässiger digitaler Begleiter wird.

AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

1. Das Problem: Der Assistent ist noch ein „Babysitter"

2. Die Lösung: AGENTVISTA – Der „Survival-Parcours"

3. Das Ergebnis: Die KI stolpert noch

4. Warum ist das wichtig?

1. Problemstellung

2. Methodik: Der AGENTVISTA Benchmark

3. Schlüsselergebnisse

4. Fehleranalyse

5. Bedeutung und Beiträge

AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

1. Das Problem: Der Assistent ist noch ein „Babysitter"

2. Die Lösung: AGENTVISTA – Der „Survival-Parcours"

3. Das Ergebnis: Die KI stolpert noch

4. Warum ist das wichtig?

1. Problemstellung

2. Methodik: Der AGENTVISTA Benchmark

3. Schlüsselergebnisse

4. Fehleranalyse

5. Bedeutung und Beiträge

Mehr davon

Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language Models

A-SelecT: Automatic Timestep Selection for Diffusion Transformer Representation Learning

A Survey of OCR Evaluation Methods and Metrics and the Invisibility of Historical Documents

CANGuard: A Spatio-Temporal CNN-GRU-Attention Hybrid Architecture for Intrusion Detection in In-Vehicle CAN Networks

Consistency Amplifies: How Behavioral Variance Shapes Agent Accuracy