To Mix or To Merge: Toward Multi-Domain Reinforcement Learning for Large Language Models

Die Arbeit M2RL analysiert und vergleicht die Trainingsparadigmen des gemischten Multi-Task-Reinforcement-Learning mit Verifizierbaren Belohnungen (RLVR) und des separaten Trainings mit nachfolgendem Modell-Merging für Large Language Models, wobei sie feststellt, dass domainspezifisches RLVR sich gegenseitig kaum beeinträchtigt und in rechenintensiven Bereichen synergistische Effekte zeigt.

Haoqing Wang, Xiang Long, Ziheng Li, Yilong Xu, Tingguang Li, Yehui Tang

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie wollen einen ultimativen „Super-Assistenten" erschaffen, der nicht nur in einem Bereich brillant ist, sondern in Mathematik, Programmieren, Wissenschaft, Befehlsbefolgung und sogar als Agent, der Werkzeuge benutzt.

Die Forscher von Samsung und der Universität Peking haben in dieser Studie (veröffentlicht im Februar 2026) genau das untersucht: Wie trainiert man eine solche KI am besten?

Hier ist die Geschichte der Studie, erzählt wie eine einfache Geschichte mit ein paar bildhaften Vergleichen:

Das große Dilemma: Alles auf einmal oder getrennte Experten?

Stellen Sie sich vor, Sie wollen einen Koch, der die perfekte Pizza, das beste Steak und den köstlichsten Kuchen backt. Es gibt zwei Möglichkeiten, ihn zu trainieren:

  1. Der „Alles-auf-einem-Topf"-Ansatz (Mixed Multi-Task RL): Sie werfen alle Zutaten (Pizza, Steak, Kuchen) in einen riesigen Topf und lassen den Koch gleichzeitig alles lernen.
  2. Der „Experten-Team"-Ansatz (Separate Training + Merging): Sie trainieren zuerst einen Pizzameister, dann einen Steakchef und einen Kuchenbäcker separat. Danach nehmen Sie die Köpfe dieser drei Experten und „vermischen" ihr Wissen zu einem einzigen Super-Kopf.

Die Frage der Studie war: Welcher Weg führt zum besseren Ergebnis?

Was haben sie herausgefunden?

Die gute Nachricht: Beide Wege funktionieren fast gleich gut!

  • Kein Chaos im Kopf: Viele hatten Angst, dass das Lernen von Mathematik das Programmieren verwirren könnte (wie wenn man versucht, gleichzeitig Französisch und Chinesisch zu lernen und die Wörter durcheinanderbringt). Die Studie zeigt aber: Das Gehirn der KI ist robust. Die Bereiche stören sich kaum gegenseitig.
  • Die Magie der Synergie: Besonders bei den „Denk-Bereichen" (Mathematik, Programmieren, Wissenschaft) hilft das eine dem anderen. Wenn die KI besser Mathe lernt, wird sie automatisch auch besser im Programmieren. Es ist, als würden Muskeln, die beim Laufen trainiert werden, auch beim Schwimmen helfen.
  • Der Zeit- und Energie-Faktor: Der „Alles-auf-einem-Topf"-Ansatz ist sogar effizienter. Er benötigt nur etwa 64 % der Rechenzeit (GPU-Stunden) im Vergleich zum separaten Training und anschließenden Zusammenfügen. Das ist wie ein Schnellkochtopf im Vergleich zum langsamen Schmoren.

Ein tieferer Blick: Wie funktioniert das im Inneren?

Die Forscher haben sich das „Gehirn" der KI genauer angesehen, um zu verstehen, warum das funktioniert:

  1. Das Gewebe-Überlappung (Weight Shift): Wenn die KI lernt, verändert sich ihr inneres „Gewebe" (die Gewichte). Die Forscher fanden heraus, dass die Veränderungen beim Lernen von Mathe und Programmieren sich stark überschneiden. Es ist, als würden beide Fächer dieselben Nervenbahnen im Gehirn stärken.
  2. Die Nachbarschaft der Ideen: Die KI lernt nicht nur Fakten, sondern entwickelt eine „Intuition". Wenn die KI gut im Programmieren ist, liegt ihre „Intuition" für Mathematik in der gleichen „Nachbarschaft". Das Zusammenfügen der Experten funktioniert also gut, weil ihre Denkweisen sich ähneln.
  3. Der Unterschied beim Lernen:
    • Beim Zusammenfügen (Merging) behält die KI die ursprünglichen Fähigkeiten der einzelnen Experten sehr genau bei. Es ist wie ein Team, bei dem jeder seine Spezialität behält.
    • Beim gemeinsamen Lernen (Multi-Task) entstehen manchmal neue, emergente Fähigkeiten. Die KI entwickelt eine Art „Super-Intelligenz", die über die Summe der Einzelteile hinausgeht, weil die Aufgaben sich gegenseitig befeuern.

Ein wichtiges Warnschild: Das „Verifizierungs-Dilemma"

Hier wird es spannend und ein bisschen traurig für die KI.

Die Studie untersuchte, ob die KI auch selbstkritisch wird – also ob sie weiß, ob ihre eigene Antwort richtig ist.

  • Das Ergebnis: Je mehr die KI in vielen Bereichen gleichzeitig lernt, desto besser wird sie darin, das Endergebnis zu beurteilen (z. B. „Ist das Ergebnis 42?").
  • ABER: Sie wird schlechter darin, den Weg dorthin zu prüfen (z. B. „War das logische Herleitungsverfahren korrekt?").

Die Analogie:
Stellen Sie sich einen Schüler vor, der für eine Prüfung lernt.

  • Wenn er nur Mathe lernt, kann er jeden Schritt seiner Rechnung genau prüfen.
  • Wenn er aber versucht, Mathe, Kochen und Programmieren gleichzeitig zu lernen, wird er so schnell und effizient, dass er am Ende nur noch das Ergebnis ansieht und sagt: „Das sieht gut aus!", ohne den Weg zu überprüfen. Er verliert die Fähigkeit, die Logik im Detail zu sehen.

Die Lösung: Der „Experten-Team"-Ansatz (getrennt trainieren und dann mischen) behält diese Fähigkeit, den Weg genau zu prüfen, besser bei als das gemeinsame Training.

Fazit für den Alltag

Diese Studie sagt uns:
Wenn Sie einen KI-Assistenten wollen, der in vielen Bereichen gut ist, können Sie ihn entweder gemeinsam trainieren (schneller, günstiger, aber er verliert vielleicht etwas an Detailgenauigkeit beim Prüfen) oder Experten zusammenfügen (etwas aufwendiger, aber er behält seine Fähigkeit, jeden Schritt genau zu durchdenken).

Beide Wege führen zu einem „Super-Assistenten", aber je nachdem, ob Ihnen die Geschwindigkeit oder die genaue Logikprüfung wichtiger ist, sollten Sie den richtigen Weg wählen. Die KI ist also kein Chaos-Topf mehr, sondern ein gut organisiertes Team, das zusammenarbeiten kann, ohne sich zu verwirren.