Diversity-Enhanced Reasoning for Subjective Questions

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen extrem klugen, aber etwas starren Assistenten. Dieser Assistent ist ein Large Reasoning Model (LRM), also eine spezielle Art von Künstlicher Intelligenz, die darauf trainiert wurde, komplexe Probleme Schritt für Schritt zu lösen – wie ein Mathematik-Genie, das lange Rechenvorgänge durchführt.

Das Problem ist: Dieser Assistent ist so sehr darauf trainiert, die eine richtige Antwort zu finden (wie bei Matheaufgaben), dass er bei subjektiven Fragen (z. B. „Was ist der beste Urlaubsort?" oder „Ist das fair?") versagt. Bei solchen Fragen gibt es keine einzige richtige Antwort; es kommt darauf an, aus welcher Perspektive man schaut. Ein Tourist, ein Einheimischer und ein Umweltschützer würden alle etwas anderes sagen.

Der aktuelle Trainingsstil macht den Assistenten aber zu einem „Einheitsbrei": Er sucht nur nach einer Antwort und verliert dabei die Vielfalt der Meinungen.

Hier kommt die Idee der Autoren aus dem Paper MultiRole-R1 ins Spiel. Sie haben eine neue Methode entwickelt, um dem Assistenten beizubringen, Vielfalt zu denken.

Die zwei Hauptzutaten der neuen Methode

Stell dir das Training wie das Vorbereiten eines großen, internationalen Dinner-Partys vor, bei dem jeder Gast eine andere Meinung hat.

1. Die „Perspektiven-Vielfalt" (Das Rollenspiel)

Statt dass der Assistent einfach nur „denkt", lassen sie ihn in verschiedene Rollen schlüpfen.

Die Analogie: Stell dir vor, du musst entscheiden, ob ein neues Gesetz gut ist.
- Der Assistent denkt zuerst wie ein Bürgermeister (fokussiert auf Ordnung und Steuern).
- Dann denkt er wie ein Student (fokussiert auf Freiheit und Kosten).
- Und schließlich wie ein Umweltschützer (fokussiert auf Nachhaltigkeit).
Der Trick: Anstatt diese Meinungen zu ignorieren, werden sie zu einer langen, zusammenhängenden Geschichte verknüpft. Der Assistent lernt so: „Ah, die Antwort hängt davon ab, wer fragt!" Das verhindert, dass er nur eine einzige, starre Sichtweise einnimmt.

2. Die „Wort-Vielfalt" (Das Suchen im großen Wald)

Wenn der Assistent antwortet, neigt er dazu, immer die gleichen Sätze zu benutzen (wie ein gebrochener Plattenspieler). Die Autoren wollen das ändern.

Die Analogie: Stell dir vor, du suchst nach einem Schatz in einem riesigen Wald. Der alte Assistent läuft immer nur den gleichen, geraden Weg. Der neue Assistent darf aber den Wald querfeldein durchstreifen. Er darf auch mal über einen Baum springen, einen anderen Pfad nehmen oder eine Blume untersuchen.
Der Trick: Sie belohnen den Assistenten nicht nur für die richtige Antwort, sondern auch dafür, dass er anders formuliert und unterschiedliche Wege geht, um dorthin zu kommen. Das nennt man „Token-Level Diversity".

Wie funktioniert das Training? (Das Belohnungssystem)

Stell dir vor, du trainierst einen Hund.

Der alte Weg: Du sagst: „Wenn du den Ball bringst, gibt es Leckerlis." Der Hund bringt nur den Ball, aber er lernt nicht, kreativ zu sein.
Der neue Weg (MultiRole-R1): Du sagst: „Wenn du den Ball bringst, gibt es Leckerlis. Aber wenn du dabei auch noch einen coolen Trick machst oder auf eine andere Art zum Ball läufst, bekommst du extra Leckerlis!"

Im Paper nennen sie das Reward Shaping. Sie geben dem KI-Modell einen zusätzlichen Bonus, wenn es vielfältige Antworten liefert. Das zwingt das Modell, den „Suchraum" zu erweitern und nicht nur den ersten, offensichtlichsten Weg zu nehmen.

Was ist das Ergebnis?

Die Forscher haben ihre Methode an verschiedenen Modellen getestet. Die Ergebnisse sind beeindruckend:

Bessere Antworten bei Meinungsfragen: Der Assistent liefert jetzt viel nuanciertere und realistischere Antworten, weil er verschiedene Standpunkte einbezieht.
Überraschender Bonus bei Mathe: Selbst bei reinen Matheaufgaben (wo es nur eine richtige Antwort gibt) wurde der Assistent besser! Warum? Weil er durch das „Querdenken" und das Suchen nach verschiedenen Wegen auch bei schwierigen Problemen schneller den richtigen Lösungsweg findet.
Effizienz: Früher dachte man, je länger der Assistent nachdenkt, desto besser ist das Ergebnis. Die Autoren zeigen jedoch: Es kommt nicht auf die Länge des Denkens an, sondern auf die Vielfalt der Gedanken. Ein kurzer, aber vielfältiger Gedankengang ist besser als ein langer, langweiliger Monolog.

Zusammenfassung in einem Satz

Die Autoren haben einer starren KI beigebracht, wie ein guter Moderator zu sein: Sie lernt, verschiedene Rollen zu spielen und unterschiedliche Wege zu gehen, um nicht nur die „richtige" Antwort zu finden, sondern die beste Antwort für jede Situation – und macht dabei sogar bei Matheaufgaben besser mit.

Each language version is independently generated for its own context, not a direct translation.

Titel: Diversity-Enhanced Reasoning für subjektive Fragen (Vielfaltsgestärktes Schlussfolgern für subjektive Fragen)

Veröffentlicht bei: ICLR 2026
Autoren: Yumeng Wang, Zhiyuan Fan, Jiayu Liu, Jen-tse Huang, Yi R. (May) Fung (HKUST & Johns Hopkins University)

1. Problemstellung

Große Schlussfolgerungsmodelle (Large Reasoning Models, LRMs) wie DeepSeek-R1 oder OpenAI o1, die durch Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) trainiert wurden, zeigen hervorragende Leistungen bei objektiven Aufgaben (z. B. Mathematik, Code). Allerdings führt RLVR oft zu einem Verlust an Vielfalt (Diversity Degradation) in den generierten Antworten.

Dies ist besonders problematisch für subjektive Fragen (z. B. ethische Dilemmata, Meinungsfragen, kulturelle Kontexte), bei denen es kein einziges „richtiges" Ergebnis gibt. Die Antwort hängt stark von der Perspektive des Stakeholders (z. B. Rolle, Kultur, Beruf) ab.

Herausforderung: Bestehende Methoden zur Erhöhung der Vielfalt konzentrieren sich meist auf objektive Aufgaben mit einer einzigen Ground Truth. Sie versagen bei subjektiven Aufgaben, da sie das Modell darauf trainieren, eine korrekte Antwort zu finden, anstatt multiple, gleichwertige Perspektiven zu generieren.
Folge: Modelle neigen dazu, sich in homogenen Denkmustern zu verlieren, was die Testzeit-Skalierung (Test-time Scaling) und die Anwendbarkeit in der realen Welt einschränkt.

2. Methodik: MultiRole-R1 Framework

Die Autoren schlagen MultiRole-R1 vor, ein Trainingsframework, das die Vielfalt auf zwei Ebenen verbessert:

Semantische Ebene (Perspektivenvielfalt): Integration verschiedener realer Stakeholder-Perspektiven.
Token-Ebene (Token-Level-Vielfalt): Erweiterung des Suchraums für die Denkpfade.

Das Framework besteht aus zwei Hauptphasen:

Phase 1: Synthese und Feinabstimmung multipler Rollenpfade (Multi-Role SFT)

Rollen-Exploration: Das Modell wird angewiesen, kontrastierende Rollen (z. B. „Ethiker", „Politiker", „Lokaler Bewohner") zu generieren, die unterschiedliche Meinungen zu einer Frage haben.
Selbstkonsistenz-Filterung (Self-Consistency Filtering): Für jede Rolle werden mehrere Denkpfade generiert. Nur die konsistenteste Antwort pro Rolle wird beibehalten (Majority Voting innerhalb der Rolle), um Kohärenz zu gewährleisten.
Pfad-Synthese: Die konsistenten Pfade verschiedener Rollen werden zu einem langen, zusammenhängenden Chain-of-Thought (CoT) verknüpft. Das Modell lernt so, verschiedene Perspektiven nacheinander zu durchlaufen und zu synthetisieren.
Merging-Strategien:
- Divergent Merging: Für Aufgaben, bei denen Rollen unterschiedliche Antworten haben (z. B. GLOQA), wird eine gewichtete Aggregation verwendet.
- Convergent Merging: Für Aufgaben mit einem konsistenten Ziel (z. B. Ethik-Fragen), wird ein Konsens durch Mehrheitsentscheid im Denkpfad erreicht.
Unüberwachtes Training: Das Training erfolgt ausschließlich auf subjektiven Fragen, wobei die Daten selbstsynthetisiert werden (keine manuelle Ground-Truth-Labelierung nötig).

Phase 2: Vielfalts-gestärktes Reinforcement Learning (GRPO mit Reward Shaping)

Algorithmus: Group Relative Policy Optimization (GRPO).
Belohnungsfunktion (Reward Function):
- Verifizierbare Belohnung ( $R_{acc}$ ): Prüft die Korrektheit der Antwort basierend auf der Rollen-Ground-Truth.
- Vielfalts-Belohnung ( $R_{div}$ ): Ein zusätzlicher Signalwert, der auf Token-Ebene berechnet wird. Er misst lexikalische, strukturelle und diskursive Vielfalt (z. B. Wortschatz, Satzlänge, Entropie).
- Gesamtbelohnung: $R = \delta R_{acc} + (1 - \delta) R_{div}$ .
Ziel: Die Diversitäts-Belohnung verhindert, dass das Modell in lokale Optima (wiederholte, homogene Antworten) fällt, und fördert die Exploration verschiedener Lösungswege, ohne die optimale Politik zu verändern (Reward Shaping).

3. Schlüsselbeiträge

Erste Anwendung von Diversity-Training auf subjektive Aufgaben: MultiRole-R1 ist das erste Framework, das RLVR explizit für subjektive Fragen mit multiplen Ground Truths adaptiert.
Unüberwachter Daten-Pipeline: Die Fähigkeit, hochwertige Trainingsdaten durch selbstsynthetisierte, rollenbasierte Denkpfade zu generieren, ohne auf teure manuelle Annotationen angewiesen zu sein.
Nachweis der Rolle von Vielfalt als Indikator: Die Studie zeigt, dass Vielfalt ein konsistenterer Indikator für Genauigkeit ist als die Länge des Denkpfads (Reasoning Length).
Generalisierung: Das Modell, das nur auf subjektiven Daten trainiert wurde, zeigt Verbesserungen auch bei objektiven, fortgeschrittenen mathematischen Aufgaben (OOD-Generalisierung).

4. Ergebnisse

Leistungssteigerung

In-Domain (ID): Auf drei subjektiven Aufgaben (BBQ, GlobalOpinionQA, ETHICS) wurde die Genauigkeit um durchschnittlich 14,1 % gesteigert.
Out-of-Domain (OOD): Auf vier OOD-Aufgaben (inkl. CALI, CSQA, GSM8K) wurde eine Verbesserung von 7,64 % erzielt.
Mathematik (AIME 2024): Überraschenderweise führte das Training auf subjektiven Fragen zu einer 5,78 %igen Genauigkeitssteigerung auf dem schwierigen mathematischen Benchmark AIME 2024. Dies unterstreicht die Übertragbarkeit des Diversitätsansatzes.

Effizienz und Korrelation

Länge vs. Genauigkeit: Im Gegensatz zu bisherigen Annahmen (längeres Denken = besser) generiert MultiRole-R1 kürzere, aber präzisere Antworten.
Korrelation: Die Korrelation zwischen Vielfalt und Genauigkeit beträgt r = 0,74, während die Korrelation zwischen Länge und Genauigkeit nur r = 0,55 beträgt. Vielfalt ist also ein verlässlicherer Prädiktor für Erfolg.
Vergleich mit Baselines: MultiRole-R1 übertrifft Zero-Shot CoT, Prompting-Methoden (Role-Play, Self-Refine) und herkömmliches SFT/DPO deutlich, insbesondere in Kombination mit GRPO und Reward Shaping.

Ablation Studies

Der Großteil des Gewinns (ca. 7,5 %) stammt aus der Perspektivenvielfalt (Phase 1 SFT).
Der Rest (ca. 3,1 %) stammt aus der Token-Level-Vielfalt durch GRPO (Phase 2).
On-Policy-Algorithmen (GRPO) sind für diese Aufgaben besser geeignet als Off-Policy-Algorithmen (DPO), da DPO Schwierigkeiten hat, gleichwertige, aber unterschiedliche Antworten zu modellieren.

5. Bedeutung und Fazit

Das Paper demonstriert, dass die Optimierung von Vielfalt (Diversity) ein entscheidender Hebel für die Verbesserung von KI-Modellen bei komplexen, mehrdeutigen Aufgaben ist.

Paradigmenwechsel: Statt nur die Länge des Chain-of-Thoughts zu erhöhen (was oft zu Redundanz führt), sollte die Qualität der Vielfalt (unterschiedliche Perspektiven und Denkstrukturen) priorisiert werden.
Praktische Relevanz: Das Framework ermöglicht es Modellen, realistischere, nuanciertere und menschenähnlichere Antworten in Bereichen wie Ethik, Politik und Kultur zu geben.
Zukunft: Die Arbeit legt den Grundstein für „Persona-augmented" Benchmarks und zeigt, dass Diversität als Regularisierungsmittel in RLVR-Systemen effektiv gegen das „Echo-Kammer"-Phänomen (Diversity Collapse) wirkt.

Zusammenfassend beweist MultiRole-R1, dass das gezielte Trainieren auf Perspektivenvielfalt nicht nur subjektive Fragen löst, sondern auch die allgemeine Schlussfolgerungsfähigkeit von Modellen auf objektive, hochkomplexe Domänen überträgt.