RPM: Reasoning-Level Personalization for Black-Box Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber etwas steifen Assistenten (eine KI), der für alle Menschen auf der Welt arbeitet. Wenn du ihn fragst: „Wie schmeckt dieses Brot?", antwortet er für jeden genau gleich: „Es ist lecker und hat einen guten Geschmack." Das Problem ist: Du magst vielleicht knuspriges Brot, während dein Nachbar weiches, mit Butter bestrichenes Brot bevorzugt. Der Assistent merkt das nicht, weil er nur die Endantwort betrachtet, nicht aber, warum du eine bestimmte Antwort gibst.

Die Forscher in diesem Papier haben eine Lösung namens RPM entwickelt. Hier ist eine einfache Erklärung, wie das funktioniert, mit ein paar kreativen Vergleichen:

1. Das Problem: Der „Oberflächen-Scanner"

Bisherige Methoden waren wie ein Oberflächen-Scanner. Sie schauten sich an, was du in der Vergangenheit gesagt hast, und versuchten, das nächste Mal etwas Ähnliches zu sagen.

Beispiel: Wenn du früher oft über „Knusprigkeit" geschrieben hast, denkt die KI: „Aha, er mag Knusprigkeit!" und schlägt das nächste Mal wieder etwas Knuspriges vor.
Der Fehler: Sie verstehen nicht den Grund. Vielleicht mochtest du das knusprige Brot nur, weil es gesund war, nicht weil du den Geschmack liebtest. Die KI verpasst die tieferliegende Logik.

2. Die Lösung: RPM – Der „Detektiv für Denkweisen"

RPM ist wie ein privater Detektiv, der nicht nur deine Antworten aufschreibt, sondern deine Denkweise entschlüsselt. Anstatt nur zu sagen „Was hast du gesagt?", fragt RPM: „Warum hast du das gesagt?"

Hier ist der Ablauf in drei Schritten:

Schritt A: Die „Zutaten" sammeln (Feature Extraction)

Stell dir vor, du schreibst eine Bewertung für ein Restaurant.

Normale KI: Liest den ganzen Text und merkt sich: „Der Nutzer mag italienisches Essen."
RPM (Der Detektiv): Zerlegt deinen Text in kleine, wichtige Zutaten.
- Zutat 1: „Die Pasta war al dente" (Das ist ein Detail).
- Zutat 2: „Der Service war schnell" (Das ist ein anderer Aspekt).
- RPM merkt sich nicht nur den Text, sondern diese spezifischen Bausteine.

Schritt B: Die „Werkzeuge" sortieren (Factor Construction)

Jetzt nimmt RPM diese vielen kleinen Zutaten und sortiert sie in Fächer (Faktoren), die deine Persönlichkeit ausmachen.

Aus „Pasta war al dente" und „Frische Zutaten" macht RPM ein Fach namens „Qualitätsbewusstsein".
Aus „Schneller Service" und „Gute Preise" macht er ein Fach namens „Praktikabilität".
Wichtig: RPM zählt auch, wie oft du diese Fächer benutzt hast. Vielleicht ist dir „Qualität" 10-mal wichtiger als „Preis". Das ist deine persönliche Statistik.

Schritt C: Der „Denkpfad" (Reasoning-Level Personalization)

Das ist der magische Teil. Wenn du eine neue Frage stellst (z. B. „Welches Restaurant soll ich heute besuchen?"), tut RPM folgendes:

Es schaut sich deine neuen „Zutaten" an.
Es greift in deine persönliche Statistik und sieht: „Aha, bei diesem Nutzer ist das Fach 'Qualitätsbewusstsein' sehr stark."
Es sucht in deiner Vergangenheit nach Beispielen, wo du ähnliche „Qualitäts"-Zutaten hattest und wie du damals gedacht hast, um zu einer Entscheidung zu kommen.
Es erstellt einen persönlichen Denkpfad für die KI: „Weil dieser Nutzer Wert auf Qualität legt und in der Vergangenheit bei ähnlichen Fragen immer die beste Option gewählt hat, sollte die Antwort jetzt auch die hochwertigste Option sein."

Warum ist das so cool? (Die Analogie)

Alte Methode (Response-Level): Wie ein Koch, der nur die Gerichte nachkocht, die du bestellt hast. Wenn du ein Steak bestellt hast, kocht er immer Steak. Er weiß nicht, dass du das Steak nur bestellt hast, weil du hungrig warst, nicht weil du Fleisch magst.
RPM (Reasoning-Level): Wie ein persönlicher Ernährungsberater, der deine Essgewohnheiten, deine Ziele und deine Vorlieben versteht. Er weiß: „Wenn du hungrig bist, magst du Fleisch. Wenn du aber auf deine Gesundheit achtest, wählst du Salat." Er passt nicht nur das Essen an, sondern versteht die Logik hinter deiner Wahl.

Das Ergebnis

Dank RPM versteht die KI nicht nur, was du willst, sondern warum du es willst.

Bessere Antworten: Sie treffen genau deinen Geschmack, weil sie deine Denkweise nachahmen.
Nachvollziehbarkeit: Die KI kann dir sogar erklären: „Ich habe dieses Restaurant gewählt, weil du in der Vergangenheit oft 'schnellen Service' erwähnt hast und das für dich sehr wichtig ist." Das ist wie ein offenes Buch, keine Blackbox mehr.

Zusammenfassend: RPM verwandelt eine generische KI in einen Assistenten, der deine innere Logik versteht, anstatt nur deine Worte zu kopieren. Es ist der Unterschied zwischen jemandem, der nur zuhört, und jemandem, der wirklich versteht.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Große Sprachmodelle (LLMs) werden zunehmend als Black-Box-Systeme eingesetzt, bei denen interne Parameter nicht zugänglich sind. Dies stellt eine fundamentale Herausforderung für die Personalisierung dar. Derzeitige Ansätze zur Personalisierung von Black-Box-LLMs beschränken sich fast ausschließlich auf die Response-Level-Personalisierung (Antwort-Ebene).

Grenzen bestehender Methoden: Herkömmliche Verfahren (wie Retrieval-Augmented Generation oder Prompt-Optimierung) versuchen lediglich, die endgültige Ausgabe an den Nutzer anzupassen, indem sie historische Daten oder Profile in den Prompt einfügen.
Mangelnde Tiefe: Diese Ansätze lernen nur oberflächliche Korrelationen zwischen Eingabe und Ausgabe. Sie modellieren nicht den zugrunde liegenden Denkprozess (Reasoning), der das Nutzerverhalten mit der Antwort verbindet.
Folgen: Dies führt zu zwei Hauptproblemen:
1. Oberflächliches Musterlernen: Das System erfasst nicht, wie spezifische Komponenten der Eingabe die Antwort beeinflussen.
2. Fehlende Interpretierbarkeit: Ohne einen expliziten Denkpfad ist unklar, ob die Ausgabe echte Nutzerpräferenzen widerspiegelt oder auf irreführenden Korrelationen basiert.

2. Methodik: RPM (Reasoning-Level Personalization)

Das Paper stellt RPM vor, ein Framework, das einen Paradigmenwechsel hin zur Reasoning-Level-Personalisierung vollzieht. Ziel ist es, den Inferenzprozess des LLMs nicht nur auf die Antwort, sondern auf den vom Nutzer abgeleiteten Denkprozess auszurichten. RPM funktioniert ohne Feinabstimmung der Modellparameter und besteht aus drei Hauptkomponenten:

A. Konstruktion personalisierter Faktoren (Personalized Factor Construction)

Anstatt Nutzerhistorie nur zusammenzufassen, extrahiert RPM strukturierte Merkmale aus jeder Interaktion:

Merkmalsextraktion: Ein LLM extrahiert aus jeder Nutzeranfrage ( $q_i$ ) relevante Merkmale ( $G_{q_i}$ ), die die Antwort beeinflussen könnten (Name, Kontext, Platzhalter für Faktoren).
Faktorenbildung (Clustering): Diese Merkmale werden mittels LLM-basiertem Clustering zu semantischen Clustern gruppiert, die als Faktoren ( $F^{(m)}$ ) bezeichnet werden (z. B. „Geschmack", „Praktikabilität").
Statistische Zuweisung: Jeder Faktor erhält statistische Metriken basierend auf der Nutzerhistorie:
- Coverage: Wie oft erscheint der Faktor?
- Influence: Wie oft beeinflusste er die Antwort?
- Polarity: In welche Richtung (positiv/negativ/neutral) wirkte er?
  Dies erzeugt einen quantifizierbaren Nutzerprofil ( $C_u$ ).

B. Konstruktion personalisierter Denkpfade (Personalized Reasoning Construction)

Für jede historische Anfrage-Antwort-Paarung wird ein personalisierter Denkpfad ( $r_{q_i}$ ) generiert.

Das LLM wird angewiesen, basierend auf den extrahierten Merkmalen, den statistischen Faktoren und der tatsächlichen Antwort eine logische Begründung zu erstellen, die erklärt, warum der Nutzer so geantwortet hat.
Diese Pfade werden in einem „Reasoning-Augmented User History" ( $S_u$ ) gespeichert.

C. Reasoning-Ausgerichtete Generierung (Reasoning-Aligned Generation)

Zum Zeitpunkt der Inferenz für eine neue Anfrage ( $q'$ ):

Merkmalsextraktion: Merkmale werden aus der neuen Anfrage extrahiert und den Nutzerfaktoren zugeordnet.
Retrieval: Anstatt nur nach semantischer Ähnlichkeit der Rohanfrage zu suchen, werden Beispiele aus $S_u$ abgerufen, die auf Merkmalsähnlichkeit basieren. Dies findet Beispiele, die strukturell ähnliche Denkprozesse aufweisen.
Generierung: Das Black-Box-LLM erhält die neue Anfrage, die extrahierten Merkmale, die Nutzerfaktoren und die abgerufenen personalisierten Denkbeispiele als Few-Shot-Prompts. Das Modell wird so geleitet, die Antwort basierend auf dem nachgeahmten, nutzerspezifischen Denkprozess zu generieren.

3. Hauptbeiträge

Neues Paradigma: Einführung und Formalisierung der „Reasoning-Level-Personalisierung", die den Fokus von der Anpassung der Endantwort auf die Ausrichtung des zugrunde liegenden Denkprozesses verlagert.
RPM-Framework: Entwicklung eines datengetriebenen Frameworks, das automatisch nutzerspezifische Denkstrukturen aus rohen Verhaltensdaten ableitet und diese zur Steuerung der Inferenz nutzt.
Umfassende Validierung: Umfassende experimentelle Beweise, die die Wirksamkeit des Frameworks belegen, einschließlich der Überlegenheit gegenüber State-of-the-Art-Methoden und der hohen Interpretierbarkeit der Ergebnisse.

4. Ergebnisse

Die Autoren evaluieren RPM auf vier verschiedenen Aufgaben (Textklassifizierung, Regression, Textgenerierung, Fragebeantwortung) unter Verwendung der Datensätze LaMP und GlobalOpinionQA (GOQA).

Leistungssteigerung: RPM übertrifft konsistent alle bestehenden Baselines (einschließlich Zero-Shot, ICL, RAG, PAG, HYDRA und Fermi) in allen Metriken (z. B. Genauigkeit, F1-Score, MAE, ROUGE).
- Beispiel LaMP-3 (Rating-Vorhersage): RPM erreicht einen MAE von 0,259 im Vergleich zu 0,324 bei HYDRA.
- Beispiel GOQA (QA): RPM erreicht 85,2 % Genauigkeit gegenüber 80,0 % bei HYDRA.
Abhängigkeit vom Reasoning: Ablationsstudien zeigen, dass das Weglassen der expliziten Denkpfade zu einem deutlichen Leistungsabfall führt. Die Kombination aus strukturierten Merkmalen, Faktoren und Denkpfaden ist entscheidend.
Interpretierbarkeit: Menschliche Evaluierungen bestätigen, dass die von RPM generierten Begründungen signifikant interpretierbarer, überzeugender und besser mit dem Nutzerverhalten abgestimmt sind als bei anderen Methoden.
Robustheit und Transfer: RPM funktioniert effektiv über verschiedene Backbone-Modelle hinweg (GPT-3.5, GPT-4o, o3-mini). Zudem können personalisierte Denkmembranen, die mit einem Modell erstellt wurden, direkt auf andere Modelle übertragen werden, ohne dass sie neu konstruiert werden müssen.
Effizienz: Trotz der zusätzlichen Verarbeitungsschritte bleibt der Overhead gering (ca. 0,10s Inferenzzeit pro Nutzer vs. 0,04s bei ICL) und die API-Kosten sind deutlich niedriger als bei Methoden, die iterative Prompt-Optimierung erfordern (wie Fermi).

5. Bedeutung und Ausblick

Das Paper markiert einen bedeutenden Fortschritt im Bereich der Black-Box-LLM-Personalisierung.

Paradigmenwechsel: Es beweist, dass Personalisierung nicht nur durch das Hinzufügen von Kontextdaten (Response-Level), sondern durch das Modellieren des Wie und Warum des Nutzerentscheidungsprozesses (Reasoning-Level) effektiver erreicht werden kann.
Vertrauenswürdigkeit: Durch die explizite Darstellung der Denkpfade und die Verankerung in strukturierten Faktoren wird die „Black-Box" des LLMs für den Nutzer transparenter und vertrauenswürdiger.
Skalierbarkeit: Da RPM keine Modellparameter trainiert und auf strukturierten Daten statt auf rohen Texten basiert, bietet es einen skalierbaren Weg, um Black-Box-Modelle hochgradig zu personalisieren, ohne die Privatsphäre durch den Zugriff auf interne Gewichte zu gefährden.

Zusammenfassend bietet RPM einen systematischen Ansatz, um die Lücke zwischen generischen LLM-Antworten und individuellen Nutzerpräferenzen zu schließen, indem es die zugrunde liegende Logik des Nutzers in den Inferenzprozess integriert.