WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning

Die Arbeit stellt WideSeek-R1 vor, ein durch Multi-Agenten-Reinforcement-Learning trainiertes Framework, das durch parallele Breite statt tiefer einzelner Agenten effiziente Informationsbeschaffung ermöglicht und dabei mit einem 4B-Modell die Leistung eines 671B-Einzelagenten erreicht.

Zelai Xu, Zhexuan Xu, Ruize Zhang, Chunyang Zhu, Shi Yu, Weilin Liu, Quanlu Zhang, Wenbo Ding, Chao Yu, Yu Wang

Veröffentlicht 2026-03-13
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der einsame Genie-Gelehrte vs. das organisierte Team

Stellen Sie sich vor, Sie wollen ein riesiges, komplexes Puzzle lösen.
Bisher haben KI-Forscher versucht, einen einzigen, super-intelligenten Gelehrten (den „DeepSeek-R1-671B") zu erschaffen. Dieser Gelehrte sitzt in einem riesigen Raum, liest unendlich viele Bücher und denkt lange nach. Das nennt man „Tiefen-Skalierung" (Depth Scaling). Er versucht, alles allein zu lösen, indem er Schritt für Schritt weiterdenkt.

Das Problem ist: Wenn die Aufgabe sehr breit ist (z. B. „Erstelle eine Liste aller Nationalparks in Neuseeland mit ihren Daten, Größe und Lage"), wird dieser einzelne Gelehrte überfordert.

  1. Der Kontext-Fluch: Er vergisst Dinge, weil sein Gedächtnis (der Kontext) mit zu vielen Informationen aus früheren Schritten „verschmutzt" wird.
  2. Die Wartezeit: Er muss alles nacheinander tun. Erst Park A, dann Park B, dann Park C. Das dauert ewig.

Die neue Lösung: WIDESEEK-R1 – Das effiziente Team

Die Autoren von WIDESEEK-R1 haben eine andere Idee: Statt einen noch größeren Gelehrten zu bauen, bauen wir ein kleines, aber hochorganisiertes Team.

Stellen Sie sich ein Bauunternehmen vor:

  • Der Bauleiter (Lead Agent): Er ist nicht derjenige, der die Ziegel trägt. Seine Aufgabe ist es, den Plan zu machen. Er teilt die große Aufgabe in viele kleine, unabhängige Stücke auf.
  • Die Arbeiter (Subagents): Das sind viele kleine, schnelle Helfer. Jeder bekommt eine kleine Aufgabe (z. B. „Suche Infos zu Park A", „Suche Infos zu Park B").

Der Clou an WIDESEEK-R1 ist, dass diese Helfer gleichzeitig (parallel) arbeiten können. Während der Bauleiter den Plan macht, suchen 10 Arbeiter gleichzeitig nach Informationen. Das nennt man „Breiten-Skalierung" (Width Scaling).

Wie lernt das Team? (Multi-Agent Reinforcement Learning)

Früher mussten Menschen mühsam Regeln aufschreiben, wie das Team zusammenarbeiten soll (z. B. „Arbeiter 1 muss warten, bis Arbeiter 2 fertig ist"). Das war unflexibel.

WIDESEEK-R1 lernt jedoch durch Selbstversuch und Belohnung (Reinforcement Learning):

  1. Das Team bekommt eine Aufgabe.
  2. Der Bauleiter teilt sie auf, die Arbeiter suchen.
  3. Wenn das Ergebnis gut ist, bekommen alle eine Belohnung. Wenn es schlecht ist, eine Strafe.
  4. Nach 20.000 Übungsrunden (die die Forscher künstlich erstellt haben) lernen der Bauleiter und die Arbeiter perfekt zusammenzuarbeiten. Der Bauleiter lernt, wie man Aufgaben am besten aufteilt, und die Arbeiter lernen, wie man die Informationen am besten findet.

Das erstaunliche Ergebnis

Das Papier zeigt etwas Verblüffendes:

  • Das kleine Team (WIDESEEK-R1-4B) besteht aus einem Modell mit nur 4 Milliarden Parametern (vergleichbar mit einem durchschnittlichen Smartphone-Modell).
  • Der riesige einsame Gelehrte (DeepSeek-R1-671B) hat 671 Milliarden Parameter (ein riesiger Supercomputer).

Trotzdem schafft das kleine Team fast das gleiche Ergebnis wie der riesige Gelehrte!

  • Warum? Weil das Team effizienter arbeitet. Es nutzt die „Breite" (viele Köpfe gleichzeitig) statt nur die „Tiefe" (ein sehr langer Denkprozess).
  • Skalierung: Wenn man dem Team noch mehr Arbeiter gibt (z. B. von 5 auf 10), wird es immer besser. Der einzelne Gelehrte stößt jedoch schnell an eine Grenze, egal wie lange er nachdenkt.

Zusammenfassung in einer Metapher

  • Der alte Weg (Tiefen-Skalierung): Ein einzelner Marathonläufer, der versucht, einen extremen Berg zu besteigen, indem er nur noch tiefer in sich hinein denkt. Irgendwann ist er erschöpft.
  • Der neue Weg (WIDESEEK-R1 / Breiten-Skalierung): Ein Hubschrauber mit vielen Rettungssanitätern. Der Pilot (Bauleiter) koordiniert, und 10 Sanitäter steigen gleichzeitig aus und retten Patienten in verschiedenen Dörfern. Sie sind schneller, effizienter und brauchen weniger Treibstoff (Rechenleistung) als ein riesiger, schwerer Flugzeugträger.

Fazit: Die Zukunft liegt nicht unbedingt darin, KI-Modelle immer riesiger zu machen, sondern darin, sie klüger zu organisieren, damit viele kleine Modelle gemeinsam große Probleme lösen können. Das macht KI günstiger, schneller und für mehr Menschen zugänglich.