From Correctness to Preference: A Framework for Personalized Agentic Reinforcement Learning

本文提出了一种用于个性化智能体强化学习的统一框架,该框架整合了个性化锚点奖励解耦策略优化(PARPO)、偏好解耦奖励模型以及偏好对齐技能演化图记忆(PSGM),以有效应对异构用户偏好并提升智能体在多样化规划与工具使用场景中的性能。

原作者: Ranxu zhang, zeyang li, Jiacheng Huang, Rui Zhang, Xiaozhou Xu, sun zhe, Yanyong Zhang, Chao Wang

发布于 2026-05-25✓ Author reviewed
📖 1 分钟阅读☕ 轻松阅读

原作者: Ranxu zhang, zeyang li, Jiacheng Huang, Rui Zhang, Xiaozhou Xu, sun zhe, Yanyong Zhang, Chao Wang

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象你拥有一个私人助理机器人。过去,我们教导这些机器人要“正确”。如果你问:“规划一次东京之旅”,机器人会学习出那条对普通人而言在数学上完美的单一行程。它会是高效、合乎逻辑且事实准确的。

但在现实世界中,“正确”远远不够。如果用户 A是一个讨厌走路的安静博物馆爱好者,而用户 B是一个热爱夜生活的精力充沛的动漫迷,那么对他们而言,“完美”的东京之旅截然不同。同一个问题需要两个不同的答案。

本文提出了一种训练 AI 智能体的新方法,使其不再试图成为“一刀切”的专家,而是开始成为真正的个人伴侣。以下是他们如何实现这一点的简单解释:

1. 问题:“平均”陷阱

当前的 AI 训练就像教一位厨师烹饪一道所有人都喜欢的“平均”菜肴。如果你要求一道辣菜,厨师可能会给你一道温和的菜,因为他们试图取悦大多数人。

  • 问题所在:真实用户拥有独特的品味、习惯和限制。通用的奖励系统(例如针对“是否完成任务”的评分)无法区分一个在事实正确但对用户枯燥乏味的行程计划,与一个完美契合他们需求的计划。
  • 噪声:有时用户的行为与其真实愿望不符(也许他们买东西仅仅是因为朋友也买了)。AI 需要弄清楚用户真正想要什么,而不仅仅是他们做了什么

2. 解决方案:三位一体的工具箱

作者构建了一个名为PARPO(个性化锚点奖励解耦策略优化)的框架。将其视为对 AI 大脑的三步升级:

部分 A:“双轨”教练(PARPO)

想象一位体育教练同时训练两名运动员。

  • 轨道 1(基础):教练确保两名运动员都跑完完美、安全的一圈。这是通用质量奖励。他们是否完成了比赛?是否遵守了规则?
  • 轨道 2(个人风格):教练随后根据运动员的风格给予具体反馈。对于短跑运动员,是“跑得更快”;对于马拉松运动员,是“保存体力”。这是个性化偏好奖励。
  • 锚点:为了保持稳定,教练为每位运动员使用一个“个人锚点”。教练不是将短跑运动员与马拉松运动员进行比较(这不公平),而是将短跑运动员与他们自己过去的表现进行比较。这防止了 AI 因不同用户的不同“尺度”而感到困惑。

部分 B:“真实兴趣”探测器(奖励模型)

AI 如何知道用户真正喜欢什么,而不是仅仅因为同伴压力而做了什么?

  • 本文引入了一个两阶段探测器
    • 阶段 1:它从多个角度构建用户画像(例如阅读其简介、历史记录和社交圈)。
    • 阶段 2:它像侦探一样将“真实兴趣”与“从众行为”区分开来。它会问:“这位用户这样做是因为他们热爱它,还是仅仅因为其他人都在做?”它过滤掉噪声以找到信号。

部分 C:“活体图书馆”(PSGM)

旧的 AI 记忆就像一堆平铺的文件。你问一个问题,它会搜索整堆文件。

  • 本文构建了一个技能演化图。想象一个动态的三维蜘蛛网,每个节点都相互连接。
    • 一个节点是“用户 A"。
    • 它连接到“技能:博物馆规划”。
    • 这连接到“场景:雨天”。
    • 以及“工具:票务预订”。
  • 当用户提问时,AI 不仅仅是搜索;它穿越这张网,寻找与该特定用户的历史和偏好完全匹配的技能与工具。这就像一位图书管理员,确切知道你去年喜欢哪本书,并推荐一本相似的,而不是仅仅递给你一本畅销书。

3. 结果:优于其他方法

该团队在三个不同的挑战上测试了这种方法:

  1. ETAPP:针对个人助理(规划日常任务)的标准测试。
  2. ETAPP-Hard:包含复杂多步骤问题的更困难版本。
  3. SJAgent:使用来自大型中国电商平台数据的现实世界工业测试(帮助商家做出决策)。

结果
他们的新框架 consistently 击败了现有的最佳方法。

  • 它不仅仅在事实上是正确的,而且在氛围上也是正确的。
  • 它学会了主动(预测需求)并更好地遵循复杂流程。
  • 至关重要的是,它在适应个别用户的同时保持了高质量,证明了你不必为了“个性化”而牺牲“正确性”。

总结类比

将旧的 AI 想象成一位导游,他背诵了关于东京的一套完美剧本,并对着每个人复述。
新的 AI 则是一位本地朋友,他个人了解你。他知道你讨厌走路、热爱动漫且预算有限。他们不仅给你一张地图;他们设计的一天感觉是专门为你打造的,利用他们对你过去喜好的记忆,同时确保你确实看到了你想看的地方。

该论文声称,这是通过将“把工作做对”与“按喜欢的方式工作”分离开来,并利用智能记忆系统来确切记住你是谁而实现的。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →