DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning

Das Paper stellt DeepEyes vor, ein Modell, das durch Reinforcement Learning ohne vorgeschaltete überwachte Feinabstimmung lernt, visuelle Informationen aktiv in seinen textbasierten Denkprozess zu integrieren, wodurch es die Leistung bei Wahrnehmungs-, Reasoning- und Halluzinationsaufgaben signifikant verbessert und menschliche visuelle Denkmuster nachahmt.

Ziwei Zheng, Michael Yang, Jack Hong, Chenxiao Zhao, Guohai Xu, Le Yang, Chao Shen, Xing Yu

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

DeepEyes: Wenn KI lernt, mit ihren „Augen" zu denken

Stell dir vor, du hast einen sehr klugen Freund, der ein Buch lesen und Fragen dazu beantworten kann. Er ist brillant im Textverständnis. Aber wenn du ihm ein Foto zeigst und fragst: „Ist auf diesem Bild links oder rechts eine Uhr?", stößt er oft an seine Grenzen. Er versucht, das Bild nur mit seinem „Wortschatz" zu beschreiben, statt wirklich hinzusehen. Er rät vielleicht, basierend auf dem, was er in anderen Bildern gesehen hat, statt das Bild genau zu prüfen.

Das ist das Problem, das DeepEyes lösen will. Es ist ein neues KI-Modell, das gelernt hat, nicht nur über Bilder zu sprechen, sondern aktiv mit ihnen zu denken.

1. Der Unterschied: Lesen vs. Suchen

Frühere KI-Modelle waren wie jemand, der ein Buch liest, aber die Bilder im Buch ignoriert. Sie versuchen, alles aus dem Text abzuleiten.
DeepEyes hingegen ist wie ein Detektiv oder ein Wissenschaftler im Labor. Wenn er eine Frage hat, sagt er nicht nur: „Ich denke, die Uhr ist hier." Er sagt: „Moment, ich bin mir nicht sicher. Ich werde jetzt heranzoomen, um mir den Bereich genauer anzusehen."

Das nennt man „Active Perception" (Aktive Wahrnehmung). Das Modell entscheidet selbst:

  • „Ich brauche mehr Details." -> Es zoomt in einen Teil des Bildes hinein.
  • „Ich habe genug gesehen." -> Es gibt die Antwort.

2. Wie lernt das Modell das? (Das Training ohne Lehrbuch)

Normalerweise muss man KI-Modelle erst mit tausenden Beispielen füttern („Hier ist ein Bild, hier ist die Antwort, hier ist der Gedankengang"), damit sie lernen, wie man Bilder analysiert. Das ist wie ein Schüler, der eine Formel auswendig lernt, ohne zu verstehen, warum sie funktioniert.

DeepEyes macht es anders. Es gibt ihm kein fertiges Lehrbuch. Stattdessen nutzen die Forscher eine Methode namens Reinforcement Learning (Bestärkendes Lernen).

  • Die Analogie: Stell dir vor, du trainierst einen Hund. Du sagst ihm nicht, wie er einen Ball apportieren soll. Du wirfst den Ball. Wenn der Hund den Ball bringt, gibt es einen Leckerbissen (Belohnung). Wenn er ihn liegenlässt, gibt es nichts.
  • Bei DeepEyes: Das Modell bekommt eine Frage und ein Bild. Es darf so oft zoomen, wie es will. Wenn es am Ende die richtige Antwort gibt und dabei das Bild sinnvoll untersucht hat, bekommt es eine große „Belohnung". Wenn es nur rät oder sich im Kreis dreht, bekommt es keine Belohnung.
  • Das Ergebnis: Durch viele Versuche lernt das Modell von selbst: „Aha! Wenn ich erst mal heranzoomen, finde ich die Antwort sicherer!" Es entwickelt diese Fähigkeit ganz natürlich, ohne dass jemand ihm vorher gezeigt hat, wie man zoomt.

3. Die drei Phasen des Lernens

Das Paper beschreibt eine spannende Reise, die das Modell während des Trainings macht:

  1. Das Neugierige Kind (Anfang): Am Anfang ist das Modell noch ungeschickt. Es zoomt wild herum, oft an die falschen Stellen, wie ein Kind, das zum ersten Mal durch ein Fernglas schaut. Es findet nichts, aber es lernt, dass Zoomen wichtig ist.
  2. Der Eifrige Sucher (Mitte): Bald darauf zoomt es zu viel. Es untersucht jeden Zentimeter des Bildes, auch wenn es nicht nötig ist. Es ist sehr fleißig, aber nicht effizient.
  3. Der Meister-Detektiv (Ende): Schließlich wird es schlau. Es weiß genau, wann es zoomen muss und wo. Es spart Zeit, zoomt nur an die entscheidende Stelle und findet die Antwort schnell und präzise. Es entwickelt Muster, die menschlichem Denken sehr ähnlich sind: Suchen, Vergleichen und Bestätigen.

4. Warum ist das so wichtig?

  • Keine Halluzinationen: Oft erfinden KIs Dinge, die nicht da sind (z. B. „Ich sehe einen Hund", obwohl da nur ein Stein ist). DeepEyes kann sich selbst korrigieren: „Moment, ich sehe keinen Hund. Ich zoom mal ran... Ah, es ist ein Stein."
  • Hohe Auflösung: Bei sehr großen Bildern mit winzigen Details (z. B. winzige Schrift auf einem Plakat) scheitern normale KIs oft. DeepEyes kann sich auf die winzige Stelle konzentrieren, genau wie wir es tun, wenn wir eine kleine Schrift lesen wollen.
  • Alles in einem: Früher brauchte man für das Zoomen ein extra Werkzeug und für das Denken ein extra Modell. DeepEyes macht beides in einem Schritt. Es ist ein „All-in-One"-System.

Fazit

DeepEyes ist wie ein KI-Assistent, der gelernt hat, dass man nicht alles aus dem Kopf raten sollte. Stattdessen hat es gelernt, aktiv nachzusehen, heranzuzoomen und die Details zu prüfen, bevor es eine Antwort gibt. Es ist ein großer Schritt hin zu einer Künstlichen Intelligenz, die nicht nur „spricht", sondern wirklich „sieht" und versteht, wie ein Mensch.

Die Forscher nennen das „Denken mit Bildern". Und das Beste daran: Das Modell hat sich das alles selbst beigebracht, indem es einfach nur belohnt wurde, wenn es gute Arbeit leistete.