From Correctness to Preference: A Framework for Personalized Agentic Reinforcement Learning

Dieser Artikel schlägt ein einheitliches Framework für personalisiertes agentic Reinforcement Learning vor, das Personalized Anchor Reward-Decoupled Policy Optimization (PARPO), ein von Präferenzen entkoppeltes Reward-Modell und einen Preference-Aligned Skill Evolution Graph Memory (PSGM) integriert, um heterogene Benutzerpräferenzen wirksam zu adressieren und die Leistung von Agenten in diversen Planungs- und Werkzeugnutzungsszenarien zu verbessern.

Ursprüngliche Autoren: Ranxu zhang, zeyang li, Jiacheng Huang, Rui Zhang, Xiaozhou Xu, sun zhe, Yanyong Zhang, Chao Wang

Veröffentlicht 2026-05-25✓ Author reviewed
📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Ranxu zhang, zeyang li, Jiacheng Huang, Rui Zhang, Xiaozhou Xu, sun zhe, Yanyong Zhang, Chao Wang

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie hätten einen persönlichen Assistenten-Roboter. In der Vergangenheit haben wir diese Roboter darauf trainiert, „korrekt" zu sein. Wenn Sie fragten: „Planen Sie eine Reise nach Tokio", würde der Roboter die einzige, mathematisch perfekte Reiseroute lernen, die für den Durchschnittsmenschen funktioniert. Sie wäre effizient, logisch und faktenbasiert.

Doch in der realen Welt reicht „korrekt" nicht aus. Wenn Nutzer A ein ruhiger Museumsfreund ist, der Wandern hasst, und Nutzer B ein energiegeladener Anime-Fan ist, der das Nachtleben liebt, ist die „perfekte" Tokio-Reise für sie völlig unterschiedlich. Dieselbe Frage erfordert zwei verschiedene Antworten.

Dieser Artikel schlägt eine neue Methode vor, um KI-Agenten so zu trainieren, dass sie aufhören, ein „Einheits-Experte" zu sein, und beginnen, ein wahrer persönlicher Begleiter zu werden. So haben sie es getan, einfach erklärt:

1. Das Problem: Die „Durchschnitts"-Falle

Das aktuelle KI-Training ist wie das Unterrichten eines Kochs, der ein einziges „durchschnittliches" Gericht kocht, das jeder mag. Wenn Sie ein scharfes Gericht bestellen, gibt Ihnen der Koch vielleicht etwas Mildes, weil er versucht, die Mehrheit zufriedenzustellen.

  • Das Problem: Echte Nutzer haben einzigartige Vorlieben, Gewohnheiten und Einschränkungen. Ein generisches Belohnungssystem (wie eine Punktzahl für „Haben Sie die Aufgabe abgeschlossen?") kann nicht unterscheiden zwischen einem Reiseplan, der faktenbasiert korrekt, aber für den Nutzer langweilig ist, und einem, der perfekt auf ihn zugeschnitten ist.
  • Das Rauschen: Manchmal verhalten sich Nutzer auf eine Weise, die nicht ihren wahren Wünschen entspricht (vielleicht haben sie etwas gekauft, nur weil ihre Freunde es taten). Die KI muss herausfinden, was der Nutzer wirklich will, nicht nur, was er getan hat.

2. Die Lösung: Ein Drei-Teile-Werkzeugkasten

Die Autoren entwickelten ein Framework namens PARPO (Personalized Anchor Reward-Decoupled Policy Optimization). Stellen Sie es sich als ein dreistufiges Upgrade für das Gehirn der KI vor:

Teil A: Der „Dual-Track"-Coach (PARPO)

Stellen Sie sich einen Sporttrainer vor, der zwei Athleten gleichzeitig trainiert.

  • Track 1 (Das Fundament): Der Trainer stellt sicher, dass beide Athleten eine perfekte, sichere Runde laufen. Dies ist die Belohnung für die Allgemeine Qualität. Haben sie das Rennen beendet? Haben sie sich an die Regeln gehalten?
  • Track 2 (Der persönliche Stil): Der Trainer gibt dann spezifisches Feedback basierend auf dem Stil des Athleten. Für den Sprinter heißt es: „Lauf schneller." Für den Marathonläufer: „Spare Energie." Dies ist die Belohnung für die Personalisierte Präferenz.
  • Der Anker: Um Stabilität zu gewährleisten, verwendet der Trainer einen „persönlichen Anker" für jeden Athleten. Anstatt den Sprinter mit dem Marathonläufer zu vergleichen (was unfair wäre), vergleicht der Trainer den Sprinter mit seiner eigenen vergangenen Leistung. Dies verhindert, dass die KI durch die unterschiedlichen „Skalen" verschiedener Nutzer verwirrt wird.

Teil B: Der „Wahre Interesse"-Detektor (Belohnungsmodell)

Wie weiß die KI, was ein Nutzer wirklich mag, im Gegensatz zu dem, was er nur wegen Gruppendruck getan hat?

  • Der Artikel stellt einen Zweistufigen Detektor vor.
    • Stufe 1: Es wird ein Profil des Nutzers aus vielen Perspektiven erstellt (wie das Lesen seiner Biografie, seiner Historie und seines sozialen Umfelds).
    • Stufe 2: Es agiert wie ein Detektiv, der „Wahres Interesse" von „Konformität" trennt. Es fragt: „Hat dieser Nutzer dies getan, weil er es liebt, oder nur, weil alle anderen es taten?" Es filtert das Rauschen heraus, um das Signal zu finden.

Teil C: Die „Lebende Bibliothek" (PSGM)

Das alte KI-Gedächtnis ist wie ein flacher Stapel Papiere. Sie stellen eine Frage, und es durchsucht den ganzen Stapel.

  • Dieser Artikel baut einen Fähigkeits-Evolutionsgraphen auf. Stellen Sie sich ein dynamisches, dreidimensionales Spinnennetz vor, in dem jeder Knoten verbunden ist.
    • Ein Knoten ist „Nutzer A".
    • Er verbindet sich mit „Fähigkeit: Museumsplanung".
    • Das verbindet sich mit „Szenario: Regentag".
    • Und „Werkzeug: Ticketbuchung".
  • Wenn ein Nutzer eine Frage stellt, sucht die KI nicht nur; sie reist durch dieses Netz, um genau die Fähigkeiten und Werkzeuge zu finden, die der Historie und den Vorlieben dieses spezifischen Nutzers entsprechen. Es ist wie ein Bibliothekar, der genau weiß, welches Buch Sie letztes Jahr mochten, und Ihnen ein ähnliches vorschlägt, anstatt Ihnen einfach das meistverkaufte Buch zu übergeben.

3. Die Ergebnisse: Besser als der Rest

Das Team testete dies an drei verschiedenen Herausforderungen:

  1. ETAPP: Ein Standardtest für persönliche Assistenten (Planung täglicher Aufgaben).
  2. ETAPP-Hard: Eine härtere Version mit komplexen, mehrstufigen Problemen.
  3. SJAgent: Ein realer industrieller Test unter Verwendung von Daten einer riesigen chinesischen E-Commerce-Plattform (Hilfe für Händler bei Entscheidungen).

Das Ergebnis:
Ihr neues Framework schlug konsistent die besten bestehenden Methoden.

  • Es bekam nicht nur die Fakten richtig, sondern auch die Stimmung.
  • Es lernte, proaktiv zu sein (Bedürfnisse vorherzusehen) und befolgte komplexe Abläufe besser.
  • Entscheidend war, dass es hohe Qualität beibehielt, während es sich an einzelne Nutzer anpasste, und bewies, dass man „Korrektheit" nicht opfern muss, um „persönlich" zu sein.

Zusammenfassende Analogie

Stellen Sie sich die alte KI als einen Reiseleiter vor, der ein perfektes Skript für Tokio auswendig gelernt hat und es jedem vorträgt.
Die neue KI ist ein lokaler Freund, der Sie persönlich kennt. Er weiß, dass Sie Wandern hassen, Anime lieben und ein begrenztes Budget haben. Er gibt Ihnen nicht nur eine Karte; er plant einen Tag, der sich anfühlt, als wäre er nur für Sie gemacht, unter Verwendung seiner Erinnerung daran, was Sie zuvor mochten, während er sicherstellt, dass Sie tatsächlich die Sehenswürdigkeiten sehen, die Sie sehen wollten.

Der Artikel behauptet, dies werde erreicht, indem „die Aufgabe richtig zu erledigen" von „die Aufgabe so zu erledigen, wie Sie es mögen" getrennt wird, und ein intelligentes Gedächtnissystem verwendet wird, um genau zu erinnern, wer Sie sind.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →