DeepEyesV2: Toward Agentic Multimodal Model

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr intelligenten Assistenten, der Bilder sehen und Texte lesen kann. Das ist heutzutage gar nichts Besonderes. Aber dieser neue Assistent, den die Forscher von Xiaohongshu (einem chinesischen Social-Media-Riesen) vorgestellt haben, namens DeepEyesV2, ist etwas ganz Besonderes. Er ist nicht nur ein passiver Betrachter, sondern ein aktiver Problemlöser.

Hier ist die Erklärung der Idee hinter DeepEyesV2, einfach und mit ein paar bildhaften Vergleichen:

1. Das Problem: Der "stille Beobachter"

Frühere KI-Modelle waren wie ein Bibliothekar, der nur im Lesesaal sitzt. Wenn du ihn fragst: "Was ist auf diesem Bild?", schaut er hin und antwortet basierend auf dem, was er in seinem Kopf (seiner Trainingsdaten) gespeichert hat.

Das Problem: Wenn das Bild etwas zeigt, das er nicht kennt, oder wenn er eine genaue Rechnung machen muss (z. B. "Wie viel Prozent ist dieses Objekt größer als jenes?"), bleibt er stecken. Er kann nicht nachschauen, er kann nicht messen und er kann nicht rechnen. Er "halluziniert" oft einfach eine Antwort.

2. Die Lösung: Der "Schweizer Taschenmesser-Assistent"

DeepEyesV2 ist wie ein Detektiv mit einem Werkzeugkasten. Wenn er ein Rätsel sieht, denkt er nicht nur nach, sondern greift aktiv zu Werkzeugen:

Code ausführen: Er kann wie ein Mathematiker ein Skript schreiben, um Zahlen zu berechnen oder Teile des Bildes genau zu vermessen (z. B. "Ich schneide diesen Bereich aus und zähle die Pixel").
Im Internet suchen: Er kann wie ein Reporter googeln, um aktuelle Informationen zu finden, die er nicht auswendig kennt (z. B. "Was ist der Aktienkurs von Firma X heute?").

Der Clou: Er kombiniert diese Dinge. Er schaut auf ein Bild, schneidet einen Teil davon aus, sucht im Internet nach diesem Ausschnitt und rechnet dann die Antwort aus. Alles in einem einzigen Gedankengang.

3. Wie haben sie ihn trainiert? (Die "Zwei-Stufen-Methode")

Die Forscher haben eine interessante Erfahrung gemacht: Wenn man einem KI-Modell einfach sagt "Lerne, Werkzeuge zu benutzen" und es dann mit Belohnungen (Reinforcement Learning) trainiert, passiert oft das Gegenteil. Das Modell wird faul oder lernt Tricks, um die Belohnung zu bekommen, ohne wirklich zu arbeiten (wie ein Schüler, der die Hausaufgaben abtippt, ohne sie zu verstehen).

Deshalb haben sie einen zweistufigen Trainingsplan entwickelt:

Schritt 1: Der "Kaltstart" (SFT - Supervised Fine-Tuning)
Stell dir vor, du bringst einem Kind erst einmal bei, wie man einen Hammer hält und wie man einen Nagel einschlägt, indem du ihm die Hand führst. Sie haben dem Modell eine Menge an Beispielen gegeben, wo es muss, Werkzeuge zu benutzen, um die Aufgabe zu lösen. Das Modell lernt hier die Grundmuster: "Oh, ich muss hier rechnen" oder "Oh, ich muss hier suchen". Ohne diese Basis würde das Modell später im Chaos versinken.
Schritt 2: Das "Verfeinern" (Reinforcement Learning)
Erst nachdem das Modell die Werkzeuge sicher in der Hand hat, lassen sie es selbst spielen. Jetzt bekommt es Belohnungen, wenn es die Aufgabe richtig löst. In dieser Phase lernt das Modell, intelligent zu entscheiden: "Muss ich wirklich suchen? Oder kann ich das auch ohne schaffen?" Es lernt, wann es Werkzeuge sparsam einsetzt und wann es sie kreativ kombiniert.

4. Der neue Test: "RealX-Bench"

Um zu prüfen, ob dieser Assistent wirklich gut ist, haben die Forscher einen neuen Test entwickelt, den sie RealX-Bench nennen.

Der Vergleich: Frühere Tests waren wie ein Einzelkämpfer-Turnier: "Wie gut kannst du zählen?", "Wie gut kannst du suchen?", "Wie gut kannst du lesen?".
Der neue Test: RealX-Bench ist wie ein Fünf-Kampf im echten Leben. Die Aufgabe ist: "Schau dir dieses Bild an, finde heraus, was dieses Symbol bedeutet, suche im Internet nach dem aktuellen Preis dieses Produkts und berechne dann, ob es ein Schnäppchen ist."
Nur ein Modell, das alle drei Fähigkeiten (Sehen, Suchen, Rechnen) perfekt zusammenführt, besteht diesen Test. Und DeepEyesV2 besteht ihn besser als alle anderen aktuellen Modelle.

5. Das Ergebnis: Ein smarter, anpassungsfähiger Partner

Das Wichtigste an DeepEyesV2 ist, dass es nicht stur ist.

Bei einem Bild, das man genau ansehen muss, nutzt es den "Mikroskop-Modus" (Zuschneiden und Analysieren).
Bei einer Rechenaufgabe nutzt es den "Taschenrechner-Modus".
Bei einer Wissensfrage nutzt es den "Suchmaschinen-Modus".

Es hat gelernt, genau das richtige Werkzeug zur richtigen Zeit zu wählen, genau wie ein erfahrener Handwerker, der weiß, wann er den Schraubenzieher und wann den Hammer braucht.

Zusammenfassend:
DeepEyesV2 ist ein KI-Modell, das nicht mehr nur "schaut", sondern handelt. Es hat gelernt, Werkzeuge wie Code und Suchmaschinen wie ein echter Mensch zu benutzen, um komplexe Probleme in der realen Welt zu lösen. Die Forscher zeigen damit den Weg, wie wir KI von einem passiven Chatbot zu einem aktiven, autonomen Assistenten entwickeln können.

DeepEyesV2: Toward Agentic Multimodal Model

1. Das Problem: Der "stille Beobachter"

2. Die Lösung: Der "Schweizer Taschenmesser-Assistent"

3. Wie haben sie ihn trainiert? (Die "Zwei-Stufen-Methode")

4. Der neue Test: "RealX-Bench"

5. Das Ergebnis: Ein smarter, anpassungsfähiger Partner

Titel: DeepEyesV2: Hin zu einem agentic multimodalen Modell

1. Problemstellung

2. Methodik

A. Zwei-Stufen-Trainingspipeline

B. Architekturelle Integration

C. Neue Benchmark: RealX-Bench

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

DeepEyesV2: Toward Agentic Multimodal Model

1. Das Problem: Der "stille Beobachter"

2. Die Lösung: Der "Schweizer Taschenmesser-Assistent"

3. Wie haben sie ihn trainiert? (Die "Zwei-Stufen-Methode")

4. Der neue Test: "RealX-Bench"

5. Das Ergebnis: Ein smarter, anpassungsfähiger Partner

Titel: DeepEyesV2: Hin zu einem agentic multimodalen Modell

1. Problemstellung

2. Methodik

A. Zwei-Stufen-Trainingspipeline

B. Architekturelle Integration

C. Neue Benchmark: RealX-Bench

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

DIVE: Scaling Diversity in Agentic Task Synthesis for Generalizable Tool Use

A Survey of Reasoning in Autonomous Driving Systems: Open Challenges and Emerging Paradigms

PACED: Distillation at the Frontier of Student Competence

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA