WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der einsame Genie-Gelehrte vs. das organisierte Team

Stellen Sie sich vor, Sie wollen ein riesiges, komplexes Puzzle lösen.
Bisher haben KI-Forscher versucht, einen einzigen, super-intelligenten Gelehrten (den „DeepSeek-R1-671B") zu erschaffen. Dieser Gelehrte sitzt in einem riesigen Raum, liest unendlich viele Bücher und denkt lange nach. Das nennt man „Tiefen-Skalierung" (Depth Scaling). Er versucht, alles allein zu lösen, indem er Schritt für Schritt weiterdenkt.

Das Problem ist: Wenn die Aufgabe sehr breit ist (z. B. „Erstelle eine Liste aller Nationalparks in Neuseeland mit ihren Daten, Größe und Lage"), wird dieser einzelne Gelehrte überfordert.

Der Kontext-Fluch: Er vergisst Dinge, weil sein Gedächtnis (der Kontext) mit zu vielen Informationen aus früheren Schritten „verschmutzt" wird.
Die Wartezeit: Er muss alles nacheinander tun. Erst Park A, dann Park B, dann Park C. Das dauert ewig.

Die neue Lösung: WIDESEEK-R1 – Das effiziente Team

Die Autoren von WIDESEEK-R1 haben eine andere Idee: Statt einen noch größeren Gelehrten zu bauen, bauen wir ein kleines, aber hochorganisiertes Team.

Stellen Sie sich ein Bauunternehmen vor:

Der Bauleiter (Lead Agent): Er ist nicht derjenige, der die Ziegel trägt. Seine Aufgabe ist es, den Plan zu machen. Er teilt die große Aufgabe in viele kleine, unabhängige Stücke auf.
Die Arbeiter (Subagents): Das sind viele kleine, schnelle Helfer. Jeder bekommt eine kleine Aufgabe (z. B. „Suche Infos zu Park A", „Suche Infos zu Park B").

Der Clou an WIDESEEK-R1 ist, dass diese Helfer gleichzeitig (parallel) arbeiten können. Während der Bauleiter den Plan macht, suchen 10 Arbeiter gleichzeitig nach Informationen. Das nennt man „Breiten-Skalierung" (Width Scaling).

Wie lernt das Team? (Multi-Agent Reinforcement Learning)

Früher mussten Menschen mühsam Regeln aufschreiben, wie das Team zusammenarbeiten soll (z. B. „Arbeiter 1 muss warten, bis Arbeiter 2 fertig ist"). Das war unflexibel.

WIDESEEK-R1 lernt jedoch durch Selbstversuch und Belohnung (Reinforcement Learning):

Das Team bekommt eine Aufgabe.
Der Bauleiter teilt sie auf, die Arbeiter suchen.
Wenn das Ergebnis gut ist, bekommen alle eine Belohnung. Wenn es schlecht ist, eine Strafe.
Nach 20.000 Übungsrunden (die die Forscher künstlich erstellt haben) lernen der Bauleiter und die Arbeiter perfekt zusammenzuarbeiten. Der Bauleiter lernt, wie man Aufgaben am besten aufteilt, und die Arbeiter lernen, wie man die Informationen am besten findet.

Das erstaunliche Ergebnis

Das Papier zeigt etwas Verblüffendes:

Das kleine Team (WIDESEEK-R1-4B) besteht aus einem Modell mit nur 4 Milliarden Parametern (vergleichbar mit einem durchschnittlichen Smartphone-Modell).
Der riesige einsame Gelehrte (DeepSeek-R1-671B) hat 671 Milliarden Parameter (ein riesiger Supercomputer).

Trotzdem schafft das kleine Team fast das gleiche Ergebnis wie der riesige Gelehrte!

Warum? Weil das Team effizienter arbeitet. Es nutzt die „Breite" (viele Köpfe gleichzeitig) statt nur die „Tiefe" (ein sehr langer Denkprozess).
Skalierung: Wenn man dem Team noch mehr Arbeiter gibt (z. B. von 5 auf 10), wird es immer besser. Der einzelne Gelehrte stößt jedoch schnell an eine Grenze, egal wie lange er nachdenkt.

Zusammenfassung in einer Metapher

Der alte Weg (Tiefen-Skalierung): Ein einzelner Marathonläufer, der versucht, einen extremen Berg zu besteigen, indem er nur noch tiefer in sich hinein denkt. Irgendwann ist er erschöpft.
Der neue Weg (WIDESEEK-R1 / Breiten-Skalierung): Ein Hubschrauber mit vielen Rettungssanitätern. Der Pilot (Bauleiter) koordiniert, und 10 Sanitäter steigen gleichzeitig aus und retten Patienten in verschiedenen Dörfern. Sie sind schneller, effizienter und brauchen weniger Treibstoff (Rechenleistung) als ein riesiger, schwerer Flugzeugträger.

Fazit: Die Zukunft liegt nicht unbedingt darin, KI-Modelle immer riesiger zu machen, sondern darin, sie klüger zu organisieren, damit viele kleine Modelle gemeinsam große Probleme lösen können. Das macht KI günstiger, schneller und für mehr Menschen zugänglich.

WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning

Das große Problem: Der einsame Genie-Gelehrte vs. das organisierte Team

Die neue Lösung: WIDESEEK-R1 – Das effiziente Team

Wie lernt das Team? (Multi-Agent Reinforcement Learning)

Das erstaunliche Ergebnis

Zusammenfassung in einer Metapher

1. Problemstellung

2. Methodik: WIDESEEK-R1

Architektur

Trainingsansatz (MARL)

Datenerstellung

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

WideSeek-R1: Exploring Width Scaling for Broad Information Seeking via Multi-Agent Reinforcement Learning

Das große Problem: Der einsame Genie-Gelehrte vs. das organisierte Team

Die neue Lösung: WIDESEEK-R1 – Das effiziente Team

Wie lernt das Team? (Multi-Agent Reinforcement Learning)

Das erstaunliche Ergebnis

Zusammenfassung in einer Metapher

1. Problemstellung

2. Methodik: WIDESEEK-R1

Architektur

Trainingsansatz (MARL)

Datenerstellung

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Unsupervised Point Cloud Pre-Training via Contrasting and Clustering

Conceptual Views of Neural Networks: A Framework for Neuro-Symbolic Analysis

Combining Tree-Search, Generative Models, and Nash Bargaining Concepts in Game-Theoretic Reinforcement Learning

3D-LFM: Lifting Foundation Model

Sparse Training for Federated Learning with Regularized Error Correction