原作者： Ranxu zhang, zeyang li, Jiacheng Huang, Rui Zhang, Xiaozhou Xu, sun zhe, Yanyong Zhang, Chao Wang

发布于 2026-05-25✓ Author reviewed ⓘ

📖 1 分钟阅读☕ 轻松阅读

查看于 arXiv ↗PDF ↗

CC BY 4.0

原作者： Ranxu zhang, zeyang li, Jiacheng Huang, Rui Zhang, Xiaozhou Xu, sun zhe, Yanyong Zhang, Chao Wang

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象你拥有一个私人助理机器人。过去，我们教导这些机器人要“正确”。如果你问：“规划一次东京之旅”，机器人会学习出那条对普通人而言在数学上完美的单一行程。它会是高效、合乎逻辑且事实准确的。

但在现实世界中，“正确”远远不够。如果用户 A是一个讨厌走路的安静博物馆爱好者，而用户 B是一个热爱夜生活的精力充沛的动漫迷，那么对他们而言，“完美”的东京之旅截然不同。同一个问题需要两个不同的答案。

本文提出了一种训练 AI 智能体的新方法，使其不再试图成为“一刀切”的专家，而是开始成为真正的个人伴侣。以下是他们如何实现这一点的简单解释：

1. 问题：“平均”陷阱

当前的 AI 训练就像教一位厨师烹饪一道所有人都喜欢的“平均”菜肴。如果你要求一道辣菜，厨师可能会给你一道温和的菜，因为他们试图取悦大多数人。

问题所在：真实用户拥有独特的品味、习惯和限制。通用的奖励系统（例如针对“是否完成任务”的评分）无法区分一个在事实正确但对用户枯燥乏味的行程计划，与一个完美契合他们需求的计划。
噪声：有时用户的行为与其真实愿望不符（也许他们买东西仅仅是因为朋友也买了）。AI 需要弄清楚用户真正想要什么，而不仅仅是他们做了什么。

2. 解决方案：三位一体的工具箱

作者构建了一个名为PARPO（个性化锚点奖励解耦策略优化）的框架。将其视为对 AI 大脑的三步升级：

部分 A：“双轨”教练（PARPO）

想象一位体育教练同时训练两名运动员。

轨道 1（基础）：教练确保两名运动员都跑完完美、安全的一圈。这是通用质量奖励。他们是否完成了比赛？是否遵守了规则？
轨道 2（个人风格）：教练随后根据运动员的风格给予具体反馈。对于短跑运动员，是“跑得更快”；对于马拉松运动员，是“保存体力”。这是个性化偏好奖励。
锚点：为了保持稳定，教练为每位运动员使用一个“个人锚点”。教练不是将短跑运动员与马拉松运动员进行比较（这不公平），而是将短跑运动员与他们自己过去的表现进行比较。这防止了 AI 因不同用户的不同“尺度”而感到困惑。

部分 B：“真实兴趣”探测器（奖励模型）

AI 如何知道用户真正喜欢什么，而不是仅仅因为同伴压力而做了什么？

本文引入了一个两阶段探测器。
- 阶段 1：它从多个角度构建用户画像（例如阅读其简介、历史记录和社交圈）。
- 阶段 2：它像侦探一样将“真实兴趣”与“从众行为”区分开来。它会问：“这位用户这样做是因为他们热爱它，还是仅仅因为其他人都在做？”它过滤掉噪声以找到信号。

部分 C：“活体图书馆”（PSGM）

旧的 AI 记忆就像一堆平铺的文件。你问一个问题，它会搜索整堆文件。

本文构建了一个技能演化图。想象一个动态的三维蜘蛛网，每个节点都相互连接。
- 一个节点是“用户 A"。
- 它连接到“技能：博物馆规划”。
- 这连接到“场景：雨天”。
- 以及“工具：票务预订”。
当用户提问时，AI 不仅仅是搜索；它穿越这张网，寻找与该特定用户的历史和偏好完全匹配的技能与工具。这就像一位图书管理员，确切知道你去年喜欢哪本书，并推荐一本相似的，而不是仅仅递给你一本畅销书。

3. 结果：优于其他方法

该团队在三个不同的挑战上测试了这种方法：

ETAPP：针对个人助理（规划日常任务）的标准测试。
ETAPP-Hard：包含复杂多步骤问题的更困难版本。
SJAgent：使用来自大型中国电商平台数据的现实世界工业测试（帮助商家做出决策）。

结果：
他们的新框架 consistently 击败了现有的最佳方法。

它不仅仅在事实上是正确的，而且在氛围上也是正确的。
它学会了主动（预测需求）并更好地遵循复杂流程。
至关重要的是，它在适应个别用户的同时保持了高质量，证明了你不必为了“个性化”而牺牲“正确性”。

总结类比

将旧的 AI 想象成一位导游，他背诵了关于东京的一套完美剧本，并对着每个人复述。
新的 AI 则是一位本地朋友，他个人了解你。他知道你讨厌走路、热爱动漫且预算有限。他们不仅给你一张地图；他们设计的一天感觉是专门为你打造的，利用他们对你过去喜好的记忆，同时确保你确实看到了你想看的地方。

该论文声称，这是通过将“把工作做对”与“按你喜欢的方式工作”分离开来，并利用智能记忆系统来确切记住你是谁而实现的。

技术摘要：从正确性到偏好：个性化智能体强化学习框架

1. 问题定义

尽管智能体强化学习（Agentic RL）在具有明确真实答案的可验证任务（如代码生成、网页导航）中取得了显著成功，但在最优行为依赖于用户的现实世界应用中，它面临着根本性挑战。在电子商务辅助、旅行规划和日常日程安排等领域，单个查询（例如“规划东京一日游”）允许多个合理的轨迹，而首选路径由个体用户的偏好、习惯和约束决定。

现有方法通常针对通用目标（整体质量、有帮助性）进行优化，或者仅通过提示或记忆检索在推理阶段进行个性化。它们缺乏在训练时优化用户依赖型轨迹策略的原生框架。这种设定引入了三个核心挑战：

个性化奖励模糊性：通用奖励捕捉任务正确性，但无法表达特定用户如何评估轨迹，也无法处理跨用户的异构奖励尺度。
偏好解耦：观察到的用户行为通常与内在兴趣和外部从众或情境效应纠缠在一起，使得偏好信号充满噪声。
用户感知记忆：现有的智能体记忆通常是扁平且以查询为中心的，无法建模个性化检索所需的用户、意图、技能、工具和场景之间的结构化关系。

2. 方法论

作者提出了一个统一的个性化智能体强化学习框架，将个性化嵌入到训练时的优化循环中。该框架作为一个偏好识别、策略优化和结构化技能积累闭环运行，包含三个核心组件：

2.1 PARPO：个性化锚点奖励解耦策略优化

PARPO 是旨在处理异构用户偏好的核心策略优化算法。

奖励解耦：它将优化分为两条轨道：一条是用于通用任务质量（正确性、逻辑连贯性）的基础轨道，另一条是用于用户依赖型偏好改进的个性化轨道。
用户特定锚点：为了在异构奖励尺度下稳定学习，PARPO 为个性化奖励维护一个持久的、用户特定的锚点（运行均值和方差）。
优势估计：
- 基础优势（ $A_{base}$ ）使用标准的组内相对归一化。
- 个性化优势（ $A_{pers}$ ）使用用户感知基线： $b_{u,g} = \max(\bar{R}_{pers}^{(g)}, m_u - \gamma_p \sqrt{v_u})$ ，其中 $m_u$ 和 $v_u$ 是用户的历史奖励统计量。这防止基线偏离用户的历史中心过远。
- 总优势是加权和： $A_{total} = w_{base}A_{base} + w_{pers}A_{pers}$ 。
理论依据：作者证明，在异构偏好下，用户感知优化从不劣于用户无关优化。他们表明，标准的 GRPO 由于池化基线和归一化而产生结构性偏差，而 PARPO 通过奖励分解和锚点校准减少了这种偏差。

2.2 两阶段偏好解耦奖励模型

为了提供干净的个性化监督，该框架采用了一个将内在兴趣与从众效应分离的奖励模型。

阶段 1（多视图画像表示）：通过融合用户画像的多个语义视图来构建用户嵌入，利用注意力机制和重构损失来保留特定视图的信息。
阶段 2（协同解耦）：利用基于 LightGCN 的图来传播协同信号。它学习两个不同的分支：
- 兴趣编码器：增加不流行物品的权重以捕捉内在偏好。
- 从众编码器：增加流行物品的权重以捕捉从众效应。
- 正交正则化：确保两个分支保持 distinct。
最终的个性化分数是这些分支的融合表示，经过校准并与基于大语言模型（LLM）的评估相结合。

2.3 偏好对齐技能演化图记忆（PSGM）

为了支持个性化 rollout 上下文，PSGM 用异构图记忆取代了扁平检索。

结构：图节点代表用户、技能、工具、场景和轨迹。边编码所有权、适用性、互补性、冲突和执行历史。
社区检测：分层社区检测（Leiden/Louvain）将用户和技能组织成社区，以捕捉多粒度结构。
检索机制：
1. 语义初始化：基于查询相似度检索前 K 个技能。
2. 2 跳扩展：从技能扩展到所有者用户，再扩展到该用户的兄弟技能，注入个性化局部结构。
3. 图感知评分：基于查询 - 技能相似度、用户 - 技能相似度、社区相关性、互补性和冲突惩罚对候选项进行排名。

3. 主要贡献

问题表述：本文将个性化智能体强化学习表述为用户条件马尔可夫决策过程（MDP），其中最优行为取决于个体偏好而非单一真实答案。
PARPO 算法：提出了一种锚点稳定、奖励解耦的策略优化方法，能够在异构用户奖励尺度下有效学习个性化策略。
解耦监督与记忆：引入了一种两阶段偏好解耦奖励模型，以将真实兴趣与从众效应隔离，并引入结构化的技能演化图记忆（PSGM）用于偏好对齐的技能检索。
实证验证：在多个基准测试中展示了持续的提升，表明该框架在保持事实和逻辑完整性的同时，改善了个性化和程序质量。

4. 实验结果

该框架在 ETAPP、ETAPP-Hard（需要多工具协调和隐式推理的更具挑战性的划分）以及 SJAgent（来自中国电子商务平台的真实工业场景）上进行了评估。

性能：所提出的方法（PARPO + PSGM）显著优于强大的基线，包括提示方法（ReAct）、基于记忆的代理（Mem0）以及各种强化学习算法（GRPO, DAPO, GSPO, GiGPO, SkillRL）。
- 在 ETAPP-Hard 上，它获得了最高的“法官”分数和“个人”分数，表明在复杂个性化场景中的鲁棒性。
- 在 SJAgent 上，它在数据真实性、业务逻辑和任务完成等关键维度上领先，展示了跨领域泛化能力。
消融研究：
- 移除技能记忆导致性能下降最大，证实了其在个性化决策中的核心地位。
- 用标准 GRPO 替换 PARPO 或移除用户锚点校准会导致性能显著下降，验证了解耦和锚点稳定方法的必要性。
- 解耦奖励模型（移除兴趣/从众分支）也降低了性能，突显了将真实偏好与噪声分离的重要性。
人类与大语言模型评估：在 20 个 ETAPP 任务的盲测研究中，PARPO 在人类专家和大语言模型法官的平均得分中均最高，特别是在“用户相关性”方面，证实了改进源于真正的个性化而不仅仅是流畅性。
训练动态：与其他强化学习策略相比，PARPO 表现出更优越的训练稳定性、更高的成功率和更好的工具调用成功率，稳定的 KL 散度表明策略改进高效且无过度偏离。

5. 意义与局限性

意义：
本文认为，个性化从根本上改变了智能体强化学习的优化目标。通过从“一刀切”的策略转向用户依赖型轨迹优化，所提出的框架弥合了通用任务能力与用户特定对齐之间的差距。它表明，在解耦奖励建模和结构化记忆的支持下，训练时的优化对于在现实世界、偏好驱动的环境中运行的智能体至关重要。

局限性：
作者承认，由于标注成本，人类评估的规模有限，仅由 15 位专家对 20 个采样示例进行了判断。虽然这些结果与大语言模型评估一致，但作者指出，未来的工作应扩大人类研究范围至更大、更多样化的群体，以更好地评估鲁棒性和现实世界的有效性。此外，当前的实现依赖于特定的图结构和锚点机制，可能需要针对不同的应用领域进行调整。

From Correctness to Preference: A Framework for Personalized Agentic Reinforcement Learning