Optimize Wider, Not Deeper: Consensus Aggregation for Policy Optimization

Die Arbeit stellt CAPO vor, eine Methode, die die Rechenressourcen von der Vertiefung (mehr Epochen) auf die Breite (mehr replizierte PPO-Modelle mit unterschiedlicher Mini-Batch-Reihenfolge) verlagert und durch Konsensaggregation im natürlichen Parameterraum eine signifikant effizientere Policy-Optimierung ohne zusätzliche Umgebungsinteraktionen ermöglicht.

Zelal Su (Lain), Mustafaoglu, Sungyoung Lee, Eshan Balachandar, Risto Miikkulainen, Keshav Pingali

Veröffentlicht 2026-03-16
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Titel: Nicht tiefer graben, sondern breiter bauen – Eine neue Strategie für KI-Lernen

Stellen Sie sich vor, Sie versuchen, einen sehr schwierigen Weg durch einen dichten, nebligen Wald zu finden. Ihr Ziel ist es, den schnellsten und sichersten Pfad zu einem Schatz (dem besten Verhalten für eine KI) zu finden.

Bisher haben KI-Systeme (wie das bekannte PPO-Verfahren) versucht, diesen Weg zu finden, indem sie einen sehr langen, intensiven Spaziergang machten. Sie haben denselben Waldabschnitt immer und immer wieder durchquert, um jeden einzelnen Schritt zu perfektionieren.

Das Problem dabei? Je länger man diesen einen Weg geht, desto mehr verirrt man sich. Man läuft in Kreisen, stolpert über Wurzeln, die man schon gesehen hat, und verliert sich im Nebel. In der Fachsprache nennt man das „Rauschen" oder „Verschwendung". Man hat viel Energie verbraucht, aber nicht viel weitergekommen.

Die neue Idee von CAPO: Das Orchester-Prinzip

Die Autoren dieses Papers schlagen eine völlig andere Strategie vor: „Optimiere breiter, nicht tiefer."

Statt dass ein KI-System den Wald 100-mal durchquert, schicken sie vier verschiedene KI-Systeme (ein kleines Team) gleichzeitig los. Alle vier starten am selben Punkt und bekommen die exakt gleiche Karte (die gleichen Daten aus dem Wald). Der einzige Unterschied ist, dass jeder KI-System die Karte in einer anderen Reihenfolge abarbeitet (wie wenn vier verschiedene Reiseführer die gleichen Sehenswürdigkeiten in unterschiedlicher Reihenfolge zeigen).

Hier kommt die Magie ins Spiel:

  1. Das Signal (Der Weg): Alle vier KIs finden im Grunde den gleichen richtigen Weg zum Schatz. Das ist das „Signal".
  2. Das Rauschen (Die Fehler): Da jeder die Karte anders liest, machen sie unterschiedliche kleine Fehler. Der eine stolpert links, der andere rechts. Der eine geht ein paar Schritte zu weit, der andere zu kurz. Das ist das „Rauschen" oder die „Verschwendung".

Der Konsens (Die Einigung)

Am Ende des Tages treffen sich die vier KIs wieder. Anstatt dass einer von ihnen entscheidet, was der richtige Weg ist, mitteln sie ihre Ergebnisse.

  • Da alle den gleichen richtigen Weg gefunden haben, verstärkt sich dieser Weg durch die Mittelung.
  • Da ihre Fehler zufällig in verschiedene Richtungen gehen (links vs. rechts), heben sie sich gegenseitig auf.

Das Ergebnis ist eine KI, die den perfekten, glatten Weg kennt, ohne die Stolpersteine der einzelnen Läufe.

Warum ist das so genial?

  • Kein neuer Wald nötig: Die KIs brauchen keine neuen Daten aus der realen Welt (keine neuen „Umwelt-Interaktionen"). Sie nutzen nur die gleichen Daten, die sie schon haben, aber auf eine klügere Weise.
  • Schneller und besser: In Tests hat sich gezeigt, dass diese Methode bei komplexen Aufgaben (wie einem Roboter, der auf zwei Beinen laufen soll) bis zu 8,6-mal besser funktioniert als die alten Methoden.
  • Die Tiefe ist ein Sackgasse: Wenn man versucht, einen KI-Lauf nur noch tiefer zu optimieren (mehr Runden im selben Wald), wird es nur schlimmer. Man läuft sich nur noch mehr in die Irre. Es ist besser, mehr Köpfe (Breite) einzusetzen, als mehr Zeit (Tiefe) auf denselben Kopf zu verwenden.

Eine einfache Analogie: Der Kochwettbewerb

Stellen Sie sich vor, Sie wollen das perfekte Rezept für eine Suppe finden.

  • Die alte Methode (PPO): Ein einzelner Koch kocht die Suppe 20-mal hintereinander. Beim ersten Mal ist sie gut. Beim 10. Mal hat er so oft nachgeschmeckt und gewürfelt, dass er die Zutaten durcheinanderbringt und die Suppe am Ende schmeckt wie Wasser.
  • Die neue Methode (CAPO): Vier Köche kochen gleichzeitig die gleiche Suppe mit den gleichen Zutaten. Jeder würfelt etwas anders. Am Ende probieren alle vier ihre Suppen, mischen sie in einem riesigen Topf zusammen und schmecken das Ergebnis.
    • Die guten Geschmacksnoten (das Signal) sind bei allen da und werden verstärkt.
    • Die kleinen Fehler (zu viel Salz hier, zu wenig Pfeffer dort) gleichen sich aus.
    • Das Ergebnis ist eine Suppe, die viel besser schmeckt als die, die der einzelne Koch nach 20 Versuchen produziert hätte.

Fazit

Die Botschaft der Forscher ist einfach: Wenn Sie eine KI trainieren, hören Sie auf, sie stundenlang auf derselben Aufgabe zu quälen. Lassen Sie stattdessen mehrere Versionen parallel arbeiten und lassen Sie sie sich auf einen gemeinsamen, besseren Weg einigen. Das spart Zeit, Ressourcen und führt zu besseren Ergebnissen.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →