Ursprüngliche Autoren: Ranxu zhang, zeyang li, Jiacheng Huang, Rui Zhang, Xiaozhou Xu, sun zhe, Yanyong Zhang, Chao Wang

Veröffentlicht 2026-05-25✓ Author reviewed ⓘ

📖 5 Min. Lesezeit🧠 Tiefgang

CC BY 4.0

Ursprüngliche Autoren: Ranxu zhang, zeyang li, Jiacheng Huang, Rui Zhang, Xiaozhou Xu, sun zhe, Yanyong Zhang, Chao Wang

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie hätten einen persönlichen Assistenten-Roboter. In der Vergangenheit haben wir diese Roboter darauf trainiert, „korrekt" zu sein. Wenn Sie fragten: „Planen Sie eine Reise nach Tokio", würde der Roboter die einzige, mathematisch perfekte Reiseroute lernen, die für den Durchschnittsmenschen funktioniert. Sie wäre effizient, logisch und faktenbasiert.

Doch in der realen Welt reicht „korrekt" nicht aus. Wenn Nutzer A ein ruhiger Museumsfreund ist, der Wandern hasst, und Nutzer B ein energiegeladener Anime-Fan ist, der das Nachtleben liebt, ist die „perfekte" Tokio-Reise für sie völlig unterschiedlich. Dieselbe Frage erfordert zwei verschiedene Antworten.

Dieser Artikel schlägt eine neue Methode vor, um KI-Agenten so zu trainieren, dass sie aufhören, ein „Einheits-Experte" zu sein, und beginnen, ein wahrer persönlicher Begleiter zu werden. So haben sie es getan, einfach erklärt:

1. Das Problem: Die „Durchschnitts"-Falle

Das aktuelle KI-Training ist wie das Unterrichten eines Kochs, der ein einziges „durchschnittliches" Gericht kocht, das jeder mag. Wenn Sie ein scharfes Gericht bestellen, gibt Ihnen der Koch vielleicht etwas Mildes, weil er versucht, die Mehrheit zufriedenzustellen.

Das Problem: Echte Nutzer haben einzigartige Vorlieben, Gewohnheiten und Einschränkungen. Ein generisches Belohnungssystem (wie eine Punktzahl für „Haben Sie die Aufgabe abgeschlossen?") kann nicht unterscheiden zwischen einem Reiseplan, der faktenbasiert korrekt, aber für den Nutzer langweilig ist, und einem, der perfekt auf ihn zugeschnitten ist.
Das Rauschen: Manchmal verhalten sich Nutzer auf eine Weise, die nicht ihren wahren Wünschen entspricht (vielleicht haben sie etwas gekauft, nur weil ihre Freunde es taten). Die KI muss herausfinden, was der Nutzer wirklich will, nicht nur, was er getan hat.

2. Die Lösung: Ein Drei-Teile-Werkzeugkasten

Die Autoren entwickelten ein Framework namens PARPO (Personalized Anchor Reward-Decoupled Policy Optimization). Stellen Sie es sich als ein dreistufiges Upgrade für das Gehirn der KI vor:

Teil A: Der „Dual-Track"-Coach (PARPO)

Stellen Sie sich einen Sporttrainer vor, der zwei Athleten gleichzeitig trainiert.

Track 1 (Das Fundament): Der Trainer stellt sicher, dass beide Athleten eine perfekte, sichere Runde laufen. Dies ist die Belohnung für die Allgemeine Qualität. Haben sie das Rennen beendet? Haben sie sich an die Regeln gehalten?
Track 2 (Der persönliche Stil): Der Trainer gibt dann spezifisches Feedback basierend auf dem Stil des Athleten. Für den Sprinter heißt es: „Lauf schneller." Für den Marathonläufer: „Spare Energie." Dies ist die Belohnung für die Personalisierte Präferenz.
Der Anker: Um Stabilität zu gewährleisten, verwendet der Trainer einen „persönlichen Anker" für jeden Athleten. Anstatt den Sprinter mit dem Marathonläufer zu vergleichen (was unfair wäre), vergleicht der Trainer den Sprinter mit seiner eigenen vergangenen Leistung. Dies verhindert, dass die KI durch die unterschiedlichen „Skalen" verschiedener Nutzer verwirrt wird.

Teil B: Der „Wahre Interesse"-Detektor (Belohnungsmodell)

Wie weiß die KI, was ein Nutzer wirklich mag, im Gegensatz zu dem, was er nur wegen Gruppendruck getan hat?

Der Artikel stellt einen Zweistufigen Detektor vor.
- Stufe 1: Es wird ein Profil des Nutzers aus vielen Perspektiven erstellt (wie das Lesen seiner Biografie, seiner Historie und seines sozialen Umfelds).
- Stufe 2: Es agiert wie ein Detektiv, der „Wahres Interesse" von „Konformität" trennt. Es fragt: „Hat dieser Nutzer dies getan, weil er es liebt, oder nur, weil alle anderen es taten?" Es filtert das Rauschen heraus, um das Signal zu finden.

Teil C: Die „Lebende Bibliothek" (PSGM)

Das alte KI-Gedächtnis ist wie ein flacher Stapel Papiere. Sie stellen eine Frage, und es durchsucht den ganzen Stapel.

Dieser Artikel baut einen Fähigkeits-Evolutionsgraphen auf. Stellen Sie sich ein dynamisches, dreidimensionales Spinnennetz vor, in dem jeder Knoten verbunden ist.
- Ein Knoten ist „Nutzer A".
- Er verbindet sich mit „Fähigkeit: Museumsplanung".
- Das verbindet sich mit „Szenario: Regentag".
- Und „Werkzeug: Ticketbuchung".
Wenn ein Nutzer eine Frage stellt, sucht die KI nicht nur; sie reist durch dieses Netz, um genau die Fähigkeiten und Werkzeuge zu finden, die der Historie und den Vorlieben dieses spezifischen Nutzers entsprechen. Es ist wie ein Bibliothekar, der genau weiß, welches Buch Sie letztes Jahr mochten, und Ihnen ein ähnliches vorschlägt, anstatt Ihnen einfach das meistverkaufte Buch zu übergeben.

3. Die Ergebnisse: Besser als der Rest

Das Team testete dies an drei verschiedenen Herausforderungen:

ETAPP: Ein Standardtest für persönliche Assistenten (Planung täglicher Aufgaben).
ETAPP-Hard: Eine härtere Version mit komplexen, mehrstufigen Problemen.
SJAgent: Ein realer industrieller Test unter Verwendung von Daten einer riesigen chinesischen E-Commerce-Plattform (Hilfe für Händler bei Entscheidungen).

Das Ergebnis:
Ihr neues Framework schlug konsistent die besten bestehenden Methoden.

Es bekam nicht nur die Fakten richtig, sondern auch die Stimmung.
Es lernte, proaktiv zu sein (Bedürfnisse vorherzusehen) und befolgte komplexe Abläufe besser.
Entscheidend war, dass es hohe Qualität beibehielt, während es sich an einzelne Nutzer anpasste, und bewies, dass man „Korrektheit" nicht opfern muss, um „persönlich" zu sein.

Zusammenfassende Analogie

Stellen Sie sich die alte KI als einen Reiseleiter vor, der ein perfektes Skript für Tokio auswendig gelernt hat und es jedem vorträgt.
Die neue KI ist ein lokaler Freund, der Sie persönlich kennt. Er weiß, dass Sie Wandern hassen, Anime lieben und ein begrenztes Budget haben. Er gibt Ihnen nicht nur eine Karte; er plant einen Tag, der sich anfühlt, als wäre er nur für Sie gemacht, unter Verwendung seiner Erinnerung daran, was Sie zuvor mochten, während er sicherstellt, dass Sie tatsächlich die Sehenswürdigkeiten sehen, die Sie sehen wollten.

Der Artikel behauptet, dies werde erreicht, indem „die Aufgabe richtig zu erledigen" von „die Aufgabe so zu erledigen, wie Sie es mögen" getrennt wird, und ein intelligentes Gedächtnissystem verwendet wird, um genau zu erinnern, wer Sie sind.

Technische Zusammenfassung: Von der Korrektheit zur Präferenz: Ein Rahmenwerk für personalisiertes agentisches Reinforcement Learning

1. Problemdefinition

Während agentisches Reinforcement Learning (Agentic RL) bei verifizierbaren Aufgaben mit klaren Ground-Truth-Antworten (z. B. Code-Generierung, Web-Navigation) erhebliche Erfolge erzielt hat, sieht es sich in realen Anwendungen fundamentalen Herausforderungen gegenüber, bei denen das optimale Verhalten nutzerabhängig ist. In Domänen wie E-Commerce-Beratung, Reiseplanung und täglicher Terminplanung erlaubt eine einzelne Anfrage (z. B. „Plane eine eintägige Reise in Tokio") mehrere plausible Verläufe, wobei der bevorzugte Pfad durch individuelle Nutzerpräferenzen, Gewohnheiten und Einschränkungen bestimmt wird.

Bestehende Methoden optimieren typischerweise für generische Ziele (Gesamtqualität, Hilfsbereitschaft) oder führen Personalisierung nur zur Inferenzzeit über Prompting oder Abruf aus dem Gedächtnis durch. Ihnen fehlt ein natives Trainingszeit-Rahmenwerk, um Strategien für nutzerkontingente Verläufe zu optimieren. Dieses Setting führt zu drei Kernherausforderungen:

Personalisierte Reward-Ambiguität: Generische Rewards erfassen die Aufgabenkorrektheit, versagen jedoch darin, auszudrücken, wie spezifische Nutzer Verläufe bewerten oder wie sie mit heterogenen Reward-Skalen über verschiedene Nutzer hinweg umgehen.
Präferenz-Entwirrung: Beobachtetes Nutzerverhalten ist oft mit intrinsischen Interessen sowie externer Konformität oder kontextuellen Effekten verflochten, was Präferenzsignale verrauscht.
Nutzerbewusstes Gedächtnis: Bestehende Agentengedächtnisse sind oft flach und anfragenzentriert, wodurch sie die für personalisierten Abruf erforderlichen strukturierten Beziehungen zwischen Nutzern, Absichten, Fähigkeiten, Werkzeugen und Szenarien nicht modellieren können.

2. Methodik

Die Autoren schlagen ein einheitliches Framework für personalisiertes agentisches RL vor, das Personalisierung in den Optimierungsloop zur Trainingszeit integriert. Das Framework arbeitet als geschlossener Kreislauf aus Präferenzidentifikation, Strategieoptimierung und strukturierter Fähigkeitsakkumulation und besteht aus drei Kernkomponenten:

2.1 PARPO: Personalisierte Anker-Reward-Entkoppelte Strategieoptimierung

PARPO ist der Kernalgorithmus zur Strategieoptimierung, der entwickelt wurde, um heterogene Nutzerpräferenzen zu handhaben.

Reward-Entkoppelung: Er trennt die Optimierung in zwei Spuren: eine Basis-Spur für generische Aufgabenqualität (Korrektheit, logische Kohärenz) und eine Personalisierte Spur für die Verbesserung nutzerkontingenter Präferenzen.
Nutzerspezifische Anker: Um das Lernen unter heterogenen Reward-Skalen zu stabilisieren, führt PARPO einen persistenten, nutzerspezifischen Anker (laufender Mittelwert und Varianz) für personalisierte Rewards ein.
Vorteilsschätzung:
- Der Basis-Vorteil ( $A_{base}$ ) verwendet eine standardmäßige relative Normalisierung innerhalb der Gruppe.
- Der Personalisierte Vorteil ( $A_{pers}$ ) verwendet eine nutzerbewusste Basislinie: $b_{u,g} = \max(\bar{R}_{pers}^{(g)}, m_u - \gamma_p \sqrt{v_u})$ , wobei $m_u$ und $v_u$ die historischen Reward-Statistiken des Nutzers sind. Dies verhindert, dass die Basislinie zu weit über den historischen Mittelpunkt des Nutzers driftet.
- Der Gesamtvorteil ist eine gewichtete Summe: $A_{total} = w_{base}A_{base} + w_{pers}A_{pers}$ .
Theoretische Begründung: Die Autoren beweisen, dass unter heterogenen Präferenzen nutzerbewusste Optimierung niemals schlechter ist als nutzeragnostische Optimierung. Sie zeigen, dass Standard-GRPO aufgrund gepoolter Basislinien und Normalisierung eine strukturelle Verzerrung aufweist, wohingegen PARPO diese Verzerrung durch Reward-Zerlegung und Anker-Kalibrierung reduziert.

2.2 Zwei-Stufen-Präferenz-Entwirrender Reward-Modell

Um saubere personalisierte Supervision bereitzustellen, verwendet das Framework ein Reward-Modell, das intrinsische Interessen von Konformität trennt.

Stufe 1 (Multi-View-Profilrepräsentation): Erstellt Nutzer-Embeddings durch Fusion mehrerer semantischer Ansichten des Nutzerprofils unter Verwendung von Aufmerksamkeitsmechanismen und Rekonstruktionsverlusten, um ansichtsspezifische Informationen zu bewahren.
Stufe 2 (Kollaborative Entwirrung): Nutzt einen auf LightGCN basierenden Graphen, um kollaborative Signale zu propagieren. Es lernt zwei distincte Zweige:
- Interesse-Encoder: Gewichtet weniger populäre Items hoch, um intrinsische Präferenzen zu erfassen.
- Konformitäts-Encoder: Gewichtet populäre Items hoch, um Konformitätseffekte zu erfassen.
- Orthogonalitäts-Regularisierung: Stellt sicher, dass die beiden Zweige distinkt bleiben.
Der endgültige personalisierte Score ist eine fusionierte Repräsentation dieser Zweige, kalibriert und integriert mit einer LLM-basierten Evaluation.

2.3 Präferenz-Ausgerichteter Fähigkeits-Evolutions-Graph-Gedächtnis (PSGM)

Um personalisierte Rollout-Kontexte zu unterstützen, ersetzt PSGM den flachen Abruf durch ein heterogenes Graph-Gedächtnis.

Struktur: Die Graphknoten repräsentieren Nutzer, Fähigkeiten, Werkzeuge, Szenarien und Verläufe. Kanten kodieren Eigentum, Anwendbarkeit, Komplementarität, Konflikt und Ausführungshistorie.
Community-Erkennung: Hierarchische Community-Erkennung (Leiden/Louvain) organisiert Nutzer und Fähigkeiten in Communities, um Strukturen auf mehreren Granularitätsstufen zu erfassen.
Abrufmechanismus:
1. Semantische Initialisierung: Ruft die Top- $K$ -Fähigkeiten basierend auf Anfrageähnlichkeit ab.
2. 2-Hop-Erweiterung: Erweitert Kandidaten von der Fähigkeit zum Eigentümer-Nutzer und dann zu den Geschwisterfähigkeiten dieses Nutzers, wodurch personalisierte lokale Strukturen injiziert werden.
3. Graph-bewertete Bewertung: Rangiert Kandidaten basierend auf Anfrage-Fähigkeits-Ähnlichkeit, Nutzer-Fähigkeits-Ähnlichkeit, Community-Relevanz, Komplementarität und Konfliktstrafen.

3. Hauptbeiträge

Problemformulierung: Das Papier formuliert personalisiertes agentisches RL als nutzerkonditionierten Markov-Entscheidungsprozess (MDP), bei dem das optimale Verhalten von individuellen Präferenzen abhängt und nicht von einer einzigen Ground Truth.
PARPO-Algorithmus: Schlägt eine ankerstabilisierte, reward-entkoppelte Strategieoptimierungsmethode vor, die effektiv personalisierte Strategien unter heterogenen Nutzer-Reward-Skalen lernt.
Entwirrte Supervision & Gedächtnis: Führt ein zweistufiges, präferenz-entwirrendes Reward-Modell ein, um wahre Interessen von Konformität zu isolieren, sowie ein strukturiertes Fähigkeits-Evolutions-Graph-Gedächtnis (PSGM) für präferenz-ausgerichteten Fähigkeitsabruf.
Empirische Validierung: Zeigt konsistente Verbesserungen über mehrere Benchmarks hinweg und belegt, dass das Framework Personalisierung und prozedurale Qualität verbessert, während faktische und logische Integrität gewahrt bleiben.

4. Experimentelle Ergebnisse

Das Framework wurde auf ETAPP, ETAPP-Hard (eine anspruchsvollere Aufteilung, die Multi-Tool-Koordination und implizites Reasoning erfordert) und SJAgent (ein reales Industrieszenario von einer chinesischen E-Commerce-Plattform) evaluiert.

Leistung: Die vorgeschlagene Methode (PARPO + PSGM) übertraf signifikant starke Baselines, einschließlich Prompting-Methoden (ReAct), gedächtnisbasierter Agenten (Mem0) und verschiedener RL-Algorithmen (GRPO, DAPO, GSPO, GiGPO, SkillRL).
- Auf ETAPP-Hard erzielte sie die höchsten „Judge"-Scores und „Personal"-Scores, was Robustheit in komplexen personalisierten Szenarien anzeigt.
- Auf SJAgent führte sie in Schlüsseldimensionen wie Datenauthentizität, Geschäftslogik und Aufgabenabschluss, was Domänenübergreifende Generalisierung demonstriert.
Ablationsstudien:
- Das Entfernen des Fähigkeitsgedächtnisses verursachte den größten Leistungsabfall und bestätigte dessen Zentralität für personalisierte Entscheidungsfindung.
- Das Ersetzen von PARPO durch Standard-GRPO oder das Entfernen der Nutzer-Anker-Kalibrierung führte zu signifikanter Leistungsverschlechterung und validierte die Notwendigkeit des entkoppelten, ankerstabilisierten Ansatzes.
- Das Entwirren des Reward-Modells (Entfernen der Interessen/Konformitäts-Zweige) reduzierte ebenfalls die Leistung und unterstrich die Bedeutung der Trennung echter Präferenzen von Rauschen.
Human- und LLM-Evaluation: In einer verblindeten Studie zu 20 ETAPP-Aufgaben erzielte PARPO die höchsten Durchschnittswerte sowohl von menschlichen Experten als auch von LLM-Bewertern, insbesondere in „User Relevance", was bestätigt, dass die Verbesserungen auf genuine Personalisierung und nicht nur auf Flüssigkeit zurückzuführen waren.
Trainingsdynamik: PARPO zeigte überlegene Trainingsstabilität, höhere Erfolgsraten und besseren Tool-Aufruf-Erfolg im Vergleich zu anderen RL-Strategien, wobei eine stabile KL-Divergenz eine effiziente Strategieverbesserung ohne übermäßige Abweichung anzeigte.

5. Bedeutung und Einschränkungen

Bedeutung:
Das Papier argumentiert, dass Personalisierung das Optimierungsziel von agentischem RL fundamental verändert. Durch die Überwindung von „One-Size-Fits-All"-Strategien hin zur nutzerkontingenten Verlaufsoptimierung überbrückt das vorgeschlagene Framework die Lücke zwischen generischer Aufgabenkompetenz und nutzerspezifischer Ausrichtung. Es zeigt, dass Optimierungen zur Trainingszeit, unterstützt durch entwirrtes Reward-Modelling und strukturiertes Gedächtnis, für Agenten unerlässlich sind, die in realen, präferenzgetriebenen Umgebungen operieren.

Einschränkungen:
Die Autoren erkennen an, dass das Ausmaß der menschlichen Evaluation aufgrund von Annotationskosten begrenzt ist, wobei Urteile von nur 15 Experten zu 20 ausgewählten Beispielen abgegeben wurden. Obwohl diese Ergebnisse mit LLM-Evaluationen übereinstimmen, stellen die Autoren fest, dass zukünftige Arbeiten menschliche Studien auf größere und diversere Pools ausweiten sollten, um Robustheit und reale Validität besser zu bewerten. Darüber hinaus basiert die aktuelle Implementierung auf spezifischen Graphstrukturen und Ankermechanismen, die möglicherweise für verschiedene Anwendungsbereiche angepasst werden müssen.

From Correctness to Preference: A Framework for Personalized Agentic Reinforcement Learning