RPM: Reasoning-Level Personalization for Black-Box Large Language Models

Die Arbeit stellt RPM vor, ein bahnbrechendes Framework, das durch die automatische Extraktion benutzerspezifischer Denkstrukturen aus Rohdaten eine übergeordnete, interpretierbare Personalisierung für Black-Box-LLMs ermöglicht und damit bestehende reaktionsbasierte Ansätze übertrifft.

Jieyong Kim, Tongyoung Kim, Soojin Yoon, Jaehyung Kim, Dongha Lee

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber etwas steifen Assistenten (eine KI), der für alle Menschen auf der Welt arbeitet. Wenn du ihn fragst: „Wie schmeckt dieses Brot?", antwortet er für jeden genau gleich: „Es ist lecker und hat einen guten Geschmack." Das Problem ist: Du magst vielleicht knuspriges Brot, während dein Nachbar weiches, mit Butter bestrichenes Brot bevorzugt. Der Assistent merkt das nicht, weil er nur die Endantwort betrachtet, nicht aber, warum du eine bestimmte Antwort gibst.

Die Forscher in diesem Papier haben eine Lösung namens RPM entwickelt. Hier ist eine einfache Erklärung, wie das funktioniert, mit ein paar kreativen Vergleichen:

1. Das Problem: Der „Oberflächen-Scanner"

Bisherige Methoden waren wie ein Oberflächen-Scanner. Sie schauten sich an, was du in der Vergangenheit gesagt hast, und versuchten, das nächste Mal etwas Ähnliches zu sagen.

  • Beispiel: Wenn du früher oft über „Knusprigkeit" geschrieben hast, denkt die KI: „Aha, er mag Knusprigkeit!" und schlägt das nächste Mal wieder etwas Knuspriges vor.
  • Der Fehler: Sie verstehen nicht den Grund. Vielleicht mochtest du das knusprige Brot nur, weil es gesund war, nicht weil du den Geschmack liebtest. Die KI verpasst die tieferliegende Logik.

2. Die Lösung: RPM – Der „Detektiv für Denkweisen"

RPM ist wie ein privater Detektiv, der nicht nur deine Antworten aufschreibt, sondern deine Denkweise entschlüsselt. Anstatt nur zu sagen „Was hast du gesagt?", fragt RPM: „Warum hast du das gesagt?"

Hier ist der Ablauf in drei Schritten:

Schritt A: Die „Zutaten" sammeln (Feature Extraction)

Stell dir vor, du schreibst eine Bewertung für ein Restaurant.

  • Normale KI: Liest den ganzen Text und merkt sich: „Der Nutzer mag italienisches Essen."
  • RPM (Der Detektiv): Zerlegt deinen Text in kleine, wichtige Zutaten.
    • Zutat 1: „Die Pasta war al dente" (Das ist ein Detail).
    • Zutat 2: „Der Service war schnell" (Das ist ein anderer Aspekt).
    • RPM merkt sich nicht nur den Text, sondern diese spezifischen Bausteine.

Schritt B: Die „Werkzeuge" sortieren (Factor Construction)

Jetzt nimmt RPM diese vielen kleinen Zutaten und sortiert sie in Fächer (Faktoren), die deine Persönlichkeit ausmachen.

  • Aus „Pasta war al dente" und „Frische Zutaten" macht RPM ein Fach namens „Qualitätsbewusstsein".
  • Aus „Schneller Service" und „Gute Preise" macht er ein Fach namens „Praktikabilität".
  • Wichtig: RPM zählt auch, wie oft du diese Fächer benutzt hast. Vielleicht ist dir „Qualität" 10-mal wichtiger als „Preis". Das ist deine persönliche Statistik.

Schritt C: Der „Denkpfad" (Reasoning-Level Personalization)

Das ist der magische Teil. Wenn du eine neue Frage stellst (z. B. „Welches Restaurant soll ich heute besuchen?"), tut RPM folgendes:

  1. Es schaut sich deine neuen „Zutaten" an.
  2. Es greift in deine persönliche Statistik und sieht: „Aha, bei diesem Nutzer ist das Fach 'Qualitätsbewusstsein' sehr stark."
  3. Es sucht in deiner Vergangenheit nach Beispielen, wo du ähnliche „Qualitäts"-Zutaten hattest und wie du damals gedacht hast, um zu einer Entscheidung zu kommen.
  4. Es erstellt einen persönlichen Denkpfad für die KI: „Weil dieser Nutzer Wert auf Qualität legt und in der Vergangenheit bei ähnlichen Fragen immer die beste Option gewählt hat, sollte die Antwort jetzt auch die hochwertigste Option sein."

Warum ist das so cool? (Die Analogie)

  • Alte Methode (Response-Level): Wie ein Koch, der nur die Gerichte nachkocht, die du bestellt hast. Wenn du ein Steak bestellt hast, kocht er immer Steak. Er weiß nicht, dass du das Steak nur bestellt hast, weil du hungrig warst, nicht weil du Fleisch magst.
  • RPM (Reasoning-Level): Wie ein persönlicher Ernährungsberater, der deine Essgewohnheiten, deine Ziele und deine Vorlieben versteht. Er weiß: „Wenn du hungrig bist, magst du Fleisch. Wenn du aber auf deine Gesundheit achtest, wählst du Salat." Er passt nicht nur das Essen an, sondern versteht die Logik hinter deiner Wahl.

Das Ergebnis

Dank RPM versteht die KI nicht nur, was du willst, sondern warum du es willst.

  • Bessere Antworten: Sie treffen genau deinen Geschmack, weil sie deine Denkweise nachahmen.
  • Nachvollziehbarkeit: Die KI kann dir sogar erklären: „Ich habe dieses Restaurant gewählt, weil du in der Vergangenheit oft 'schnellen Service' erwähnt hast und das für dich sehr wichtig ist." Das ist wie ein offenes Buch, keine Blackbox mehr.

Zusammenfassend: RPM verwandelt eine generische KI in einen Assistenten, der deine innere Logik versteht, anstatt nur deine Worte zu kopieren. Es ist der Unterschied zwischen jemandem, der nur zuhört, und jemandem, der wirklich versteht.