Rethinking Personalization in Large Language Models at the Token Level

该论文提出了名为 PerContrast 的自对比方法及 PerCE 损失函数,通过在训练中对依赖用户特定信息的 Token 进行自适应加权,显著提升了大语言模型在个性化任务中的表现及跨场景泛化能力。

Chenheng Zhang, Yijun Lu, Lizhe Fang, Chunyuan Zheng, Jiajun Chai, Xiaohan Wang, Guojun Yin, Wei Lin, Yisen Wang, Zhouchen Lin

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个大问题:如何让大语言模型(LLM)不仅“聪明”,还能真正“懂你”,并且这种“懂”是恰到好处的。

想象一下,你和一个新认识的朋友聊天。如果这个朋友对你说的每一句话都同等重视,那他会显得像个没有感情的复读机。但如果他能在你提到“喜欢咖啡”时,立刻记住你的口味,并在推荐餐厅时特意避开不喝咖啡的地方,这就叫个性化

目前的 AI 就像一个刚毕业的高材生,知识渊博但缺乏“人情味”。这篇论文提出了一种叫 PerCE 的新方法,让 AI 学会在说话时“抓重点”,把精力花在最能体现你个性的地方。

下面我用几个生动的比喻来拆解这篇论文的核心内容:

1. 核心问题:为什么现在的 AI 不够“懂”你?

比喻:大锅炖菜 vs. 精致摆盘

  • 现状: 现在的 AI 训练就像是在大锅炖菜。不管你是要写摘要、写评论还是聊天,AI 把生成的每一个字(Token)都当成平等的“菜叶”,一视同仁地给它们“加料”(训练权重)。
  • 问题: 其实,在一句话里,有些字是“灵魂”,有些字只是“配菜”。
    • 比如你说:“我喜欢深夜写代码。”
    • 对于普通任务,“写代码”是重点。
    • 但对于个性化任务,“喜欢”、“深夜”才是体现你个性的关键(灵魂),而“写代码”只是任务本身。
    • 如果 AI 对每个字都平均用力,那些体现你个性的“灵魂字眼”就会被淹没在大量的普通词汇中,导致 AI 虽然能回答问题,但回答得千篇一律,没有你的风格。

2. 解决方案一:PerContrast(像侦探一样找“个性词”)

比喻:侦探的“如果……会怎样?”

为了解决上面那个问题,作者首先发明了一个叫 PerContrast 的工具,用来找出哪些字是真正体现个性的。

  • 怎么做? 它像侦探一样玩“如果……会怎样”的游戏。
    • 场景 A(有你的档案): AI 看着你的档案(比如“我喜欢深夜写代码”),然后生成回答。
    • 场景 B(没你的档案): AI 把档案拿走,只看着问题,生成同样的回答。
  • 对比: 侦探会比较这两个回答。
    • 如果某个字(比如“深夜”)在有档案时出现概率很高,但没档案时概率很低,那说明这个字是完全依赖你的档案才出现的。
    • 这个字就是“高个性化词”,值得重点培养!
    • 如果某个字(比如“我”、“是”)在两种情况下都一样,那它就是普通的“配菜”,不需要特殊对待。

3. 解决方案二:PerCE 损失函数(像“因材施教”的老师)

比喻:给重点学生发“奖学金”

找到了“个性词”之后,怎么让 AI 学会重视它们呢?作者提出了 PerCE(个性化对比熵)损失函数。

  • 传统做法(CE): 就像老师给全班同学发一样的作业,不管谁学得好坏,大家都做一样的题,给一样的分数。
  • PerCE 做法: 就像一位因材施教的老师。
    • 在训练过程中,PerCE 会实时计算刚才那个“侦探”(PerContrast)找到的“个性词”有多重要。
    • 对于高个性化词(比如“深夜”、“咖啡”),老师会加倍奖励(增加权重),告诉模型:“这个字太重要了,一定要学好,下次还要这样用!”
    • 对于普通词,就按正常标准对待。
  • 循环机制(EM 算法): 这个过程是动态的。模型先猜哪些字重要(E 步),然后重点学习这些字(M 步),学完后再重新猜,再重点学。就像学生不断复习错题,越学越精。

4. 实验结果:效果如何?

作者用了很多大模型(像 Qwen, Llama 等)在各种任务上测试,结果非常亮眼:

  • 提分明显: 在个性化写作任务上,平均提升了 10% 以上,最高甚至提升了 68%!这相当于一个普通学生突然变成了优等生。
  • 举一反三: 即使是在没见过的任务或场景下(比如从写摘要转到聊天),这个模型也能把学到的“个性化能力”迁移过去,表现得比传统方法好很多。
  • 成本很低: 这个“侦探”游戏只需要多跑一次很短的计算,几乎不增加额外的时间成本,就像给汽车加了一点点高级燃油,动力却提升巨大。

总结

这篇论文的核心思想就是:不要对所有字一视同仁。

以前的 AI 训练是“大锅饭”,现在的 PerCE 方法是“精准营养餐”。它通过一种聪明的机制,自动识别出哪些话最能代表“你”,然后集中火力去优化这些部分。

一句话总结:
这就好比给 AI 装上了一副“个性眼镜”,让它不再只是机械地回答问题,而是能敏锐地捕捉到那些真正代表你风格的“关键词”,从而写出真正像“你”会说的话。