Towards Personalized Deep Research: Benchmarks and Evaluations

本文提出了首个针对深度研究智能体个性化能力的基准测试 PDR-Bench,通过构建包含真实用户画像与多样化任务的评估集,并引入涵盖个性化对齐、内容质量及事实可靠性的 PQR 评估框架,填补了现有开放型个性化深度研究评估的空白。

Yuan Liang, Jiaxian Li, Yuqing Wang, Piaohong Wang, Motong Tian, Pai Liu, Shuofei Qiao, Runnan Fang, He Zhu, Ge Zhang, Minghao Liu, Yuchen Eleanor Jiang, Ningyu Zhang, Wangchunshu Zhou

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给未来的"AI 私人研究员”做一场严格的“入职体检”

想象一下,你有一个超级聪明的 AI 助手,它不仅能上网查资料,还能像人类专家一样写出一份厚厚的深度研究报告。以前,我们只关心它**“查得准不准”**(比如:波士顿的房租是多少钱?)。但这篇论文说,这还不够!

真正的智能助手,应该像一位**“懂你的老朋友”。它不仅知道答案,还知道“你是谁”“你缺什么”以及“你希望怎么听”**。

为了测试这些 AI 是否真的“懂你”,作者们搞了一套全新的“考试系统”,我们把它拆解成三个有趣的部分:

1. 考场设计:PDR-Bench(个性化深度研究考场)

以前的考试,题目是固定的,比如“请写一份关于新能源汽车的报告”,所有考生(AI)面对的是同一个问题,给出一样的标准答案。

但这篇论文设计的考场完全不同,它玩的是**“千人千面”**:

  • 50 个不同的任务:涵盖了教育、医疗、旅行、理财等 10 个生活领域。
  • 25 个真实的“人设”:作者们找了 25 个真实的人,记录了他们的年龄、职业、家庭、甚至手机里的聊天记录和日常习惯。
  • 250 道“定制考题”:把任务和人设配对。
    • 例子:同样是“制定健身计划”这个任务。
      • A 同学(大学生,预算少,喜欢瑜伽):AI 应该推荐免费的公园瑜伽课和低成本装备。
      • B 先生(34 岁高管,经常出差,有颈椎痛):AI 应该推荐酒店里的简易训练,并特别强调保护颈椎。

如果 AI 给 B 先生推荐了“每天去健身房跑 5 公里”,那它就算**“不懂事”**,考试不及格。

2. 评分标准:PQR 评分法(三位一体)

以前我们只给 AI 打“事实分”(答案对不对)。现在,作者引入了PQR 评分法,就像给一份报告打三份分:

  • P (Personalization) - 贴心度
    • 比喻:就像去餐厅吃饭。如果服务员给你端上一盘你过敏的花生,哪怕菜做得再好吃,你也会生气。
    • 考什么:报告是不是真的考虑了你的背景?语气是不是你喜欢的?建议是不是你执行得了的?
  • Q (Quality) - 质量分
    • 比喻:就像文章的“文笔”和“逻辑”。
    • 考什么:内容深不深?逻辑通不通?读起来顺不顺?不管你是谁,这份报告本身得写得漂亮。
  • R (Reliability) - 靠谱度
    • 比喻:就像新闻里的“引用来源”。
    • 考什么:里面的数据是不是瞎编的?有没有给出真实的网址来源?

最终得分 = 贴心度 + 质量分 + 靠谱度。只有三项都高,才是真正的好助手。

3. 考试结果:谁在“装懂”,谁在“真懂”?

作者把市面上各种 AI 系统(包括 OpenAI、Google 的,还有开源的)拉来考试,结果很有趣:

  • 商业大模型(如 Gemini, O3)
    • 表现:像个**“严谨的图书管理员”**。它们查资料非常准,报告写得也很规范,很少胡说八道。
    • 缺点:有点“死板”。给不同人写报告,内容大同小异,不够“贴心”。
  • 开源智能体(如 OAgents, MiroFlow)
    • 表现:像个**“热情的私人顾问”**。它们特别擅长“看人下菜碟”,能根据用户特点调整语气和侧重点,贴心度最高。
    • 缺点:偶尔会“翻车”,比如编造一些不存在的网站链接(事实性稍弱)。
  • 带搜索功能的普通大模型
    • 表现:像是**“刚学会查字典的小学生”。虽然能搜到东西,但很难把搜到的东西和用户的个人情况结合起来,“懂你”**的能力最弱。

4. 未来的启示:从“记忆”到“理解”

论文还做了一个实验:如果 AI 没有直接告诉你“我是谁”,而是让你看它之前的聊天记录(比如它昨天说想减肥,今天说在出差),它能猜出你的需求吗?

  • 现状:目前的 AI 有点“记性不好”或者“理解力不够”。它们能记住你说了什么,但很难把这些碎片信息拼凑成一个完整的“人设”,从而给出完美的建议。
  • 未来:我们需要 AI 不仅能**“存数据”,还能“懂人性”**。就像你的老朋友,不需要你每次都自我介绍,他就能知道你今天心情不好,不想听大道理,只想听点安慰的话。

总结

这篇论文的核心思想就是:未来的 AI 研究员,不能只是“百科全书”,更要是“贴心管家”。

作者们不仅造了一个**“测谎仪”(PDR-Bench)来检测 AI 是否真的懂用户,还发明了一套“体检表”**(PQR 框架)来量化这种“懂”。这标志着 AI 从“只会干活”向“会做人”迈出了重要的一步。