VSearcher: Long-Horizon Multimodal Search Agent via Reinforcement Learning

Die Arbeit stellt VSearcher vor, einen multimodalen Suchagenten, der durch eine Reinforcement-Learning-Pipeline und eine iterative Datensynthese statische Multimodal-Modelle in autonome Systeme verwandelt, die komplexe, langfristige Suchaufgaben im Web mit Text-, Bild- und Browser-Tools bewältigen und dabei aktuelle proprietäre Modelle übertreffen.

Ruiyang Zhang, Qianguo Sun, Chao Song, Yiyan Qi, Zhedong Zheng

Veröffentlicht 2026-03-09
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr intelligenten Bibliothekar, der alle Bücher der Welt auswendig kennt, aber er hat keine Augen und kann nicht ins Internet gehen. Er kann dir nur Dinge erzählen, die er in seinem Kopf hat. Wenn du ihn fragst: „Wie sieht das aktuelle Wetter in Tokio aus?" oder „Was ist auf diesem neuen Bild zu sehen?", stottert er, weil er keine aktuellen Daten hat und Bilder nicht versteht.

Das ist das Problem, das die Forscher mit VSearcher lösen wollen.

Hier ist die Geschichte von VSearcher, einfach erklärt:

1. Das Problem: Der starre Bibliothekar

Die meisten aktuellen KI-Modelle sind wie dieser Bibliothekar. Sie sind super schlau, aber ihr Wissen ist „eingefroren" (wie ein altes Lexikon). Sie können keine Bilder analysieren und sie können nicht selbstständig im Internet nachschauen, um neue Informationen zu finden. Wenn sie ein komplexes Rätsel lösen müssen, das Bilder und aktuelle Fakten kombiniert, scheitern sie oft.

2. Die Lösung: VSearcher, der Detektiv

VSearcher ist wie ein Detektiv, der nicht nur Bücher lesen kann, sondern auch:

  • Augen hat: Er kann Bilder sehen und verstehen.
  • Ein Handy besitzt: Er kann selbstständig im Internet suchen (Textsuche, Bildersuche).
  • Geduld hat: Er kann viele Schritte hintereinander machen, um eine Antwort zu finden (z. B. erst ein Bild suchen, dann den Namen des Objekts googeln, dann eine Webseite öffnen und lesen).

3. Wie lernt VSearcher? (Der dreistufige Trainingsplan)

Um aus dem langweiligen Bibliothekar einen cleveren Detektiv zu machen, haben die Forscher einen speziellen Trainingsplan entwickelt:

Schritt A: Der „Geheimnis-Generator" (Daten-Synthese)

Ein Detektiv braucht schwierige Fälle zum Üben. Die Forscher wollten keine einfachen Fragen wie „Wer ist der Präsident?". Sie wollten Rätsel, die so schwer sind, dass man sie nicht aus dem Kopf beantworten kann.

  • Die Methode: Sie haben eine Maschine gebaut, die automatisch schwierige Fragen erfindet.
  • Die Analogie: Stell dir vor, sie nehmen eine einfache Frage („Wer ist dieser Mann?"), verstecken den Namen und fügen stattdessen eine obscure Tatsache hinzu („Er ist der Mann, der 1985 in einem kleinen Dorf in Peru ein seltsames Ritual durchführte"). Dann fügen sie ein Bild hinzu, das nur schwer zu identifizieren ist.
  • Das Ergebnis: Tausende von extrem kniffligen Rätseln, die den KI-Detektiv zwingen, wirklich zu suchen und zu denken.

Schritt B: Der „Spiegel-Training" (Rejection Sampling)

Jetzt haben sie einen Anfänger-Detektiv (das Basis-Modell) und einen Meister-Detektiv (eine sehr starke, teure KI von Google, genannt Gemini).

  • Die Methode: Der Meister-Detektiv löst die schwierigen Rätsel. Die Forscher schauen genau hin: Hat er die richtige Antwort gefunden?
  • Das Filtern: Wenn der Meister einen falschen Weg geht oder die falsche Antwort gibt, wird dieser Weg verworfen. Nur die perfekten Lösungswege werden gespeichert.
  • Das Lernen: Der Anfänger-Detektiv schaut sich diese perfekten Wege an und lernt: „Aha, so muss ich suchen! So muss ich denken!" Er ahmt den Meister nach, aber nur die besten Beispiele.

Schritt C: Der „Echte Einsatz" (Reinforcement Learning)

Jetzt ist der Detektiv bereit für das echte Leben. Er wird in eine simulierte Welt geschickt, die wie das echte Internet aussieht.

  • Die Methode: Er darf jetzt selbstständig suchen. Wenn er die richtige Antwort findet, bekommt er einen Stern (Belohnung). Wenn er sich verläuft oder falsch liegt, bekommt er keine Sterne.
  • Der Effekt: Durch Tausende von Versuchen lernt er, welche Suchstrategien funktionieren und welche nicht. Er wird selbstbewusster und schneller. Er lernt, wann er ein Bild suchen muss und wann er eine Webseite öffnen muss.

4. Der große Test: MM-SearchExam

Um zu beweisen, dass VSearcher wirklich gut ist, haben die Forscher eine Olympiade für KI-Detektive organisiert.

  • Sie haben extrem schwierige Fragen gesammelt, bei denen selbst die teuersten, geschlossenen KI-Modelle (wie die von OpenAI oder Google) oft scheitern.
  • Das Ergebnis: VSearcher hat nicht nur die anderen Open-Source-Modelle geschlagen, sondern hat sogar besser abgeschnitten als einige der teuersten, proprietären Modelle. Er ist jetzt einer der besten KI-Detektive der Welt, wenn es darum geht, Bilder und Internetrecherche zu kombinieren.

Zusammenfassung in einem Satz

VSearcher ist ein KI-System, das durch das Üben an künstlich erzeugten, extrem schwierigen Rätseln und durch das Lernen von einem Meister-Detektiv gelernt hat, wie man Bilder sieht, im Internet sucht und komplexe Probleme Schritt für Schritt löst – und das alles besser als viele der bisherigen Spitzenmodelle.