Aligning Language Models from User Interactions

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber etwas steifen Assistenten. Er kann alles, was in Büchern steht, aber er weiß nicht immer, wie Menschen wirklich sprechen oder was sie genau wollen. Normalerweise lernt dieser Assistent nur aus fertigen Lehrbüchern, die von Experten geschrieben wurden. Aber was ist, wenn wir ihn direkt aus den echten Gesprächen mit Menschen lernen lassen?

Genau das ist die Idee hinter dem Papier "Aligning Language Models from User Interactions" (Ausrichtung von Sprachmodellen durch Nutzerinteraktionen). Die Forscher haben eine Methode namens SDPO entwickelt, die wie ein genialer Trick funktioniert.

Hier ist die Erklärung in einfachen Worten, mit ein paar anschaulichen Vergleichen:

1. Das Problem: Der verlorene Schatz

Jeden Tag sprechen Millionen Menschen mit KI-Assistenten. Sie stellen Fragen, bekommen Antworten und dann sagen sie oft: "Nein, das war nicht gemeint," oder "Kannst du das bitte kürzer machen?" oder "Das ist falsch!"

Normalerweise werden diese Gespräche einfach gelöscht. Das ist, als würde ein Koch, der gerade einen Gast bedient hat, der sagt "Das Salz ist zu viel", den Teller wegwerfen und beim nächsten Gast wieder das gleiche salzige Essen servieren, ohne jemals daraus zu lernen. Die KI verpasst eine riesige Chance zu lernen, weil sie keine expliziten Noten oder Bewertungen bekommt.

2. Die Lösung: "Rückblickendes Lernen" (Hindsight)

Die Forscher haben eine clevere Beobachtung gemacht: Die KI kann eigentlich schon lernen, wenn man ihr den Kontext gibt.

Stell dir vor, du hast eine Antwort gegeben und der Nutzer sagt: "Ich wollte nur Ja oder Nein." Wenn du die KI jetzt noch einmal fragst: "Hey, der Nutzer hat gesagt, er will nur Ja oder Nein. Was hättest du damals gesagt?", dann wird die KI sofort eine bessere Antwort geben. Sie versteht den Fehler im Nachhinein.

Das ist der Kern der Methode:

Schritt 1: Die KI gibt eine Antwort (vielleicht mit Fehlern).
Schritt 2: Der Nutzer reagiert (mit Kritik, einer Korrektur oder einer neuen Frage).
Schritt 3: Die KI schaut sich die ganze Situation an (Frage + Antwort + Nutzerreaktion) und fragt sich: "Was hätte ich tun sollen, wenn ich gewusst hätte, dass der Nutzer so reagiert?"

3. Der Trick: Sich selbst unterrichten (Self-Distillation)

Hier kommt der magische Teil, den die Forscher SDPO nennen.

Stell dir vor, die KI ist wie ein Schüler. Normalerweise braucht sie einen Lehrer, der ihr sagt, was richtig ist. Aber hier ist die KI ihr eigener Lehrer.

Die KI schreibt eine Antwort auf ein Blatt Papier.
Dann schaut sie sich die Reaktion des Nutzers an.
Sie schreibt sich selbst einen Zettel: "Aha, an dieser Stelle war mein Tonfall zu frech. Wenn ich gewusst hätte, dass der Nutzer das nicht mag, hätte ich höflicher sein müssen."
Dann "schaut" sie auf diesen Zettel und korrigiert ihre eigene Antwort im Gedächtnis.

Sie lernt also nicht von einem externen Lehrer, sondern distilliert (extrahiert) das Wissen aus ihrer eigenen Fähigkeit, im Nachhinein bessere Entscheidungen zu treffen. Sie vergleicht: "Wie habe ich es getan?" vs. "Wie hätte ich es tun sollen, wenn ich die Rückmeldung des Nutzers schon gekannt hätte?"

4. Was passiert dabei? (Die Ergebnisse)

Die Forscher haben diese Methode an echten, chaotischen Chat-Daten getestet (aus dem "WildChat"-Datensatz). Das Ergebnis ist erstaunlich:

Bessere Anpassung: Die KI wurde viel besser darin, Anweisungen zu befolgen und den Stil des Nutzers zu treffen.
Kein Verfall: Sie hat nicht vergessen, wie man Mathe löst oder Code schreibt, obwohl sie nur aus Chats gelernt hat.
Persönlichkeit: Die KI kann sich an einen bestimmten Nutzer anpassen. Wenn ein Nutzer immer kurze, lockere Antworten mag, lernt die KI das nach ein paar Chats und passt sich automatisch an, ohne dass jemand ihr explizit sagt: "Sei locker."

5. Ein wichtiger Unterschied zu anderen Methoden

Früher musste man für das Training der KI riesige Mengen an Daten sammeln, bei denen Menschen Antworten bewerten (z. B. "Antwort A ist besser als Antwort B"). Das ist teuer und langsam.
Bei dieser Methode ist die Rückmeldung des Nutzers (z. B. "Das war falsch") der Lehrer. Die KI lernt aus dem "Warum" der nächsten Nachricht.

Zusammenfassung in einem Bild

Stell dir vor, du spielst ein Videospiel.

Früher: Du hast nur die Anleitung gelesen, bevor du angefangen hast.
Mit SDPO: Du spielst, machst einen Fehler, der Gegner greift an, und du lernst sofort aus deiner Reaktion, wie du es beim nächsten Mal besser machst. Du trainierst dich selbst, indem du deine eigenen Fehler im Nachhinein analysierst.

Fazit: Die Forscher haben gezeigt, dass wir KI-Modelle nicht mehr nur mit teuren, manuell erstellten Datensätzen trainieren müssen. Wir können sie direkt aus den echten, täglichen Gesprächen mit Menschen lernen lassen. Die KI wird dadurch nicht nur schlauer, sondern auch menschlicher und besser darin, genau das zu tun, was wir wollen.

Each language version is independently generated for its own context, not a direct translation.

Problemstellung

Moderne Sprachmodelle (LLMs) generieren täglich enorme Mengen an Daten durch Multi-Turn-Interaktionen mit Nutzern. Diese Daten sind eine der reichhaltigsten Quellen für implizites Feedback: Nachfolgende Nachrichten der Nutzer können darauf hinweisen, dass eine Antwort falsch war, Anweisungen nicht befolgt wurden oder der Stil nicht den Präferenzen entsprach.
Bisher wird diese Datenquelle jedoch weitgehend ignoriert oder verworfen, da es an effektiven Methoden fehlt, sie direkt zu nutzen. Im Gegensatz zu standardisierten Datensätzen (wie RLHF-Daten) liegen bei echten Nutzerinteraktionen keine expliziten Labels, Experten-Demonstrationen oder Belohnungsfunktionen vor. Die Herausforderung besteht darin, ein Prinzip zu finden, um Modelle direkt aus diesen rohen, ungelabelten Konversationen zu lernen, ohne externe Supervision oder Reward-Modelle zu benötigen.

Methodik: Self-Distillation Policy Optimization (SDPO)

Die Autoren schlagen eine Methode namens Self-Distillation Policy Optimization (SDPO) vor, die die inhärente In-Context-Learning-Fähigkeit von LLMs nutzt. Das Kernkonzept basiert auf der Idee des „Rückblicks" (Hindsight):

Hindsight-Policy: Wenn ein Nutzer auf eine Antwort des Modells reagiert (Nachfolge-Nachricht $o$ ), enthält diese Information, wie die Antwort hätte sein sollen. Das Modell wird erneut promptet, wobei der Kontext $x$ (Verlauf) und die Nutzer-Nachfolge $o$ kombiniert werden. Dies erzeugt eine „Hindsight-Verteilung" $\pi_\theta(\cdot | x, o)$ , die darstellt, wie das Modell reagieren würde, wenn es die Information der Nutzer-Nachfolge bereits bei der ersten Antwort gehabt hätte.
Vergleich und Advantage: Die ursprüngliche Antwort $y$ $y$ (generiert aus $\pi_\theta(\cdot | x)$ $π_{θ} (\cdot ∣ x)$ ) wird mit der Hindsight-Verteilung verglichen. Für jedes Token $y_i$ $y_{i}$ wird der Log-Ratio berechnet:
$A_i(x, y, o) = \log \frac{\pi_\theta(y_i | x, o, y_{<i})}{\pi_\theta(y_i | x, y_{<i})}$
- Ein positiver Advantage bedeutet, dass das Token unter Berücksichtigung der Nutzer-Rückmeldung wahrscheinlicher war (wird belohnt).
- Ein negativer Advantage bedeutet, dass das Token unwahrscheinlicher wurde (wird bestraft), z. B. wenn der Nutzer einen Fehler korrigiert.
Selbstdistillation (Self-Distillation): Anstatt ein separates Reward-Modell zu trainieren, wird das aktuelle Modell direkt auf die Hindsight-Verteilung „distilliert". Das Modell lernt, seine eigene ursprüngliche Verteilung so anzupassen, dass sie der verbesserten Hindsight-Verteilung näher kommt. Dies geschieht durch Minimierung der Reverse-KL-Divergenz oder mittels Policy-Gradient-Updates basierend auf den Token-Level-Advantages.

Der Algorithmus ist skalierbar und kann sowohl online (nach jeder Nutzerinteraktion) als auch offline auf geloggten Konversationen (Off-Policy) angewendet werden.

Wichtige Beiträge

Prinzipieller Ansatz ohne externe Labels: SDPO ermöglicht das Lernen direkt aus rohen Nutzerdaten, ohne dass explizite Feedback-Labels, Reward-Modelle oder Präferenzvergleiche benötigt werden.
Nutzung von In-Context-Learning als Lernsignal: Die Arbeit nutzt die Fähigkeit des Modells, Kontext zu nutzen, um eine „Lehrer"-Verteilung (Hindsight) zu erzeugen, die dann zur Optimierung der eigenen „Schüler"-Policy dient.
Theoretische Fundierung: Es wird gezeigt, dass SDPO unter idealisierten Annahmen äquivalent zur Maximierung einer latenten Nutzer-Belohnungsfunktion ist.
Personalisierung und Kontinuierliche Anpassung: Die Methode ermöglicht es Modellen, sich kontinuierlich an individuelle Nutzerpräferenzen anzupassen, ohne dass explizite Profile oder Feedback nötig sind.

Ergebnisse

Die Autoren evaluierten SDPO auf realen Nutzerdaten aus WildChat und WildFeedback (insgesamt ca. 14.000 Konversationen, ~50.000 Interaktionstupel) an verschiedenen Modellen (Qwen3-4B/8B, Olmo3-7B).

Verbesserung der allgemeinen Ausrichtung (Alignment): Das Training auf rohen Nutzerdaten verbesserte die Leistung in Standard-Benchmarks für Instruction-Following (AlpacaEval 2.0, IFEval) und Alignment signifikant.
Kein Catastrophic Forgetting: Im Gegensatz zu reinem Supervised Fine-Tuning (SFT) auf den Assistant-Antworten (was zu starken Leistungseinbußen führte), degradierte SDPO keine anderen Fähigkeiten. Modelle verbesserten sich sogar in Mathe, Coding und Kreativität, ohne ihre Grundfähigkeiten zu verlieren.
Robustheit gegenüber Rauschen: SDPO funktionierte auch auf uncuratierten, chaotischen Daten aus WildChat robust. Das Modell ignorierte automatisch irrelevante Nutzer-Nachfolgen (wo der Advantage nahe Null ist) und lernte nur aus konstruktivem Feedback.
Personalisierung: In Simulationen konnte SDPO sich innerhalb weniger Interaktionen (ca. 50–200) an spezifische Nutzerpräferenzen (z. B. Stil, Tonfall) anpassen und sogar komplexe, sich ändernde Präferenzen über die Zeit lernen, ohne frühere Anpassungen zu vergessen.

Bedeutung und Implikationen

Dieses Paper markiert einen Paradigmenwechsel in der Weiterentwicklung von LLMs:

Schließung der Feedback-Schleife: Es zeigt, dass der Deployment-Prozess selbst eine massive Trainingsquelle darstellt. Die Lücke zwischen Training und Einsatz kann durch das Lernen aus natürlichen Interaktionen geschlossen werden.
Skalierbarkeit: Da die Methode keine manuelle Annotation benötigt, ist sie theoretisch unbegrenzt skalierbar auf die Milliarden von täglichen Interaktionen, die LLMs generieren.
Sicherheit und Ethik: Die Autoren weisen auf Risiken hin (z. B. dass Modelle durch manipulative Nutzeranfragen in unsichere Richtungen gelenkt werden könnten), betonen aber, dass SDPO durch die natürliche Unterdrückung irrelevanter Signale robust ist. Sie fordern jedoch zusätzliche Sicherheitsmechanismen für den Einsatz in der Praxis.

Zusammenfassend demonstriert SDPO, dass rohe Nutzerinteraktionen ausreichen, um Sprachmodelle kontinuierlich zu verbessern, zu personalisieren und besser auszurichten, ohne auf teure und aufwändige externe Feedback-Schleifen angewiesen zu sein.

Aligning Language Models from User Interactions

1. Das Problem: Der verlorene Schatz

2. Die Lösung: "Rückblickendes Lernen" (Hindsight)

3. Der Trick: Sich selbst unterrichten (Self-Distillation)

4. Was passiert dabei? (Die Ergebnisse)

5. Ein wichtiger Unterschied zu anderen Methoden

Zusammenfassung in einem Bild

Problemstellung

Methodik: Self-Distillation Policy Optimization (SDPO)

Wichtige Beiträge

Ergebnisse

Bedeutung und Implikationen

Mehr davon

Diffusion Language Models Know the Answer Before Decoding

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá