DeepInterestGR: Mining Deep Multi-Interest Using Multi-Modal LLMs for Generative Recommendation

DeepInterestGR 提出了一种利用多模态大语言模型通过思维链挖掘用户深层多兴趣,并结合奖励标注与两阶段训练(监督微调与强化学习)来优化语义 ID 生成的生成式推荐框架,从而在多个基准测试中显著提升了推荐性能。

Yangchen Zeng

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 DeepInterestGR 的新系统,它的目标是让推荐算法(比如抖音、淘宝或亚马逊的“猜你喜欢”)变得更聪明、更懂你。

为了让你轻松理解,我们可以把现在的推荐系统比作一个**“只会看标签的图书管理员”,而 DeepInterestGR 则是一个“懂你灵魂的资深阅读顾问”**。

以下是用大白话和生动比喻对这篇论文的解读:

1. 现在的痛点:为什么现在的推荐不够好?

比喻:只看封面的图书管理员
目前的推荐系统(包括很多最先进的 AI)就像是一个只盯着书封面和书名看的管理员。

  • 如果你买过“跑步鞋”,系统就知道你喜欢“运动”。
  • 但它不知道你为什么买跑步鞋。是因为你想减肥?是为了参加马拉松?还是因为最近压力大想发泄
  • 这就叫**“浅层兴趣” (Shallow Interest)** 问题。系统只看到了表面的“跑步鞋”这个标签,却错过了你内心深处的真实动机(比如“追求健康的生活方式”或“需要心理慰藉”)。
  • 结果就是:它只能给你推更多的鞋子,却推不出你可能需要的“运动耳机”或“健康食谱”,因为它不懂你真正的“灵魂”。

2. 核心创新:DeepInterestGR 是怎么做的?

DeepInterestGR 引入了三个“超能力”,让系统从“看封面”变成了“读心术”。

第一招:多模型“读心术” (MLIM)

  • 做法:系统不再只靠死板的算法,而是请来了一群顶尖的“超级侦探”(也就是多个最先进的大语言模型,如 GPT-5.1, Gemini 等)
  • 比喻:当你买了一个“降噪耳机”,这些侦探会联手分析:
    • 普通系统:哦,他买了耳机。
    • 侦探们:他买降噪耳机,说明他可能经常出差,或者在开放式办公室工作,或者是个对音质有洁癖的音乐发烧友
  • 关键点:它们通过“思维链”(Chain-of-Thought)推理,把表面的商品变成了深层的**“兴趣画像”**(比如“追求高效工作的通勤族”)。而且,它还会结合图片(多模态),比如看到一件衣服的图片,能分析出你喜欢“极简风”还是“复古风”。

第二招:给兴趣“贴标签并打分” (RLDI)

  • 做法:侦探们有时候也会“脑洞大开”乱猜。所以,系统里还有一个**“质检员”**(一个轻量级的分类器)。
  • 比喻:质检员会检查侦探们挖掘出的兴趣:“这个‘喜欢安静’的标签靠谱吗?还是太模糊了?”
    • 靠谱的标签(比如“喜欢户外露营”)会被打上**“奖励分”**。
    • 不靠谱的标签会被丢弃。
  • 作用:这确保了系统学到的都是高质量的“真心话”,而不是胡言乱语。

第三招:把兴趣变成“密码” (IEID)

  • 做法:系统把这些深层的兴趣,转化成了商品的一串**“数字密码” (Semantic ID)**。
  • 比喻:以前系统给商品编号是"1001 号跑步鞋”。现在,系统给商品编号是“健康生活方式 - 户外 - 专业级”。
  • 好处:这样,即使你之前没买过“登山杖”,但因为你被标记为“户外爱好者”,系统就能通过这串密码,精准地把“登山杖”推给你,因为它知道你们在“兴趣密码”上是匹配的。

3. 训练过程:先学知识,再练实战

系统训练分两步走:

  1. 上课 (SFT):先让 AI 大量阅读这些“兴趣密码”和商品数据,学会基本的推荐逻辑。
  2. 实战演练 (RL):这是最关键的一步。系统开始尝试推荐,如果它猜对了你的深层兴趣(比如推了登山杖),“质检员”就会给它发奖金(奖励信号);如果推错了,就扣分。
  • 比喻:就像教一个实习生,先给他看说明书(SFT),然后让他去接待客户。客户满意(符合深层兴趣),老板就发红包;客户不满意,就让他反思。久而久之,他就成了真正的“销售冠军”。

4. 效果如何?

作者在亚马逊的三大类商品(美妆、运动、乐器)上做了测试。

  • 结果:DeepInterestGR 的表现比目前市面上最好的系统都要好,准确率提升了 10% 到 15% 左右。
  • 跨领域能力:最神奇的是,它在“运动”领域学到的“追求健康”的兴趣,能直接迁移到“美妆”领域(比如推荐运动后的护肤品),因为它抓住了通用的兴趣逻辑,而不是死记硬背商品。

总结

DeepInterestGR 就像给推荐系统装上了**“同理心”
它不再只是机械地匹配“你买了 A,所以推 B",而是真正去理解“你买 A 是因为你想成为 C 样的人”,然后基于这个
深层的人格画像**,给你推最懂你的东西。

这就好比从**“只会看身份证的保安”升级成了“懂你喜好的老朋友”**。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →