LLM-Enhanced Multimodal Fusion for Cross-Domain Sequential Recommendation

本文提出了 LLM-EMF 模型,通过利用大语言模型增强文本信息并结合冻结 CLIP 模型融合视觉与文本数据,利用多注意力机制有效捕捉跨域用户偏好,从而在多个电商数据集上显著提升了跨域序列推荐的性能。

Wangyu Wu, Zhenhong Chen, Wenqiao Zhang, Xianglin Qiu, Siqi Song, Xiaowei Huang, Fei Ma, Jimin Xiao

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 LLM-EMF 的新方法,旨在让推荐系统变得更聪明、更懂你。为了让你轻松理解,我们可以把整个推荐过程想象成一位超级导购员在为你挑选礼物

1. 以前的导购员遇到了什么麻烦?(背景与问题)

想象一下,你以前常去一家书店(领域 A)买书,最近又常去一家厨具店(领域 B)买锅。

  • 传统推荐系统(旧导购):它就像个只会死记硬背的学徒。
    • 它只记得你买过“书”,所以只给你推“书”。
    • 它甚至不知道“书”和“锅”之间可能有关联(比如你买了《烹饪食谱》,它应该推你买“锅”,但它不懂)。
    • 如果某个店的数据太少(比如你只买过两次锅),它就完全懵了,不敢给你推东西(这就是数据稀疏问题)。
    • 它只看你买了什么(ID),不看东西长什么样(图片)或名字叫什么(文字)。

2. 我们的新方案:LLM-EMF 是什么?(核心创新)

这篇论文提出的 LLM-EMF,就像给这位导购员配上了三个超级助手,让他瞬间变成“全能专家”:

助手一:AI 大语言模型(LLM)—— “懂行情的文案大师”

  • 以前:导购员只知道商品叫“不粘锅”。
  • 现在:LLM 会主动思考:“哦,这个不粘锅适合做早餐,适合懒人,适合单身公寓。”
  • 作用:它给每个商品写了一段额外的“背景故事”和“关键词”。哪怕你在书店买书,在厨具店买锅,LLM 都能发现它们背后的共同点(比如“提升生活品质”)。这就像给商品贴上了通用的标签,打破了书店和厨具店之间的“语言障碍”。

助手二:CLIP 模型(视觉 + 文本)—— “火眼金睛的鉴赏家”

  • 以前:导购员只看商品编号。
  • 现在
    • 看图片:它能看懂图片里锅的颜色、形状。
    • 看文字:它能读懂商品标题里的深层含义。
  • 作用:它把图片、文字和商品编号三者结合起来。就像你不仅记得“那个红色的锅”,还能记住“那个红色的、看起来很有质感的、适合做意大利面的锅”。这种多模态融合让推荐更精准。

助手三:分层注意力机制 —— “聪明的调度员”

  • 问题:如果你去厨具店 100 次,去书店只有 2 次,以前的系统会疯狂给你推锅,完全忽略你偶尔看书的爱好(领域不平衡)。
  • 现在:这个“调度员”会平衡两边的权重。它知道:“虽然你去厨具店多,但书店那 2 次可能代表了你最近想学做菜(看食谱)。”
  • 作用:它不会让数据多的领域“霸占”推荐列表,而是巧妙地融合两个领域的兴趣,确保推荐既全面又公平。

3. 它是如何工作的?(流程比喻)

想象这个系统的工作流程是这样的:

  1. 收集情报:系统收集你在两个店的所有历史行为(买了什么、看了什么图、读了什么标题)。
  2. 大模型润色:LLM 给每个商品“加戏”,生成更丰富的描述(比如把“书”描述为“关于美食的灵感来源”)。
  3. 多维打包:系统把商品的ID(身份证)、图片(长相)、文字(描述)打包成一个超级详细的“用户画像包”。
  4. 智能匹配
    • 系统像侦探一样,把你最近的“行为序列”和所有候选商品进行比对。
    • 它利用注意力机制,既看你最近买了什么(短期兴趣),也看你长期喜欢什么(长期兴趣),同时平衡两个领域的权重。
  5. 最终推荐:系统计算出哪个商品最符合你当下的状态,然后把它推给你。

4. 效果怎么样?(实验结果)

研究人员在亚马逊的真实数据上做了测试(比如“食品 vs 厨具”、“电影 vs 书籍”)。

  • 结果:LLM-EMF 的表现吊打了现有的所有方法。
  • 比喻:如果以前的推荐系统只能猜对 8 成,LLM-EMF 能猜对 9 成以上。它不仅能猜到你下一个想买什么,还能猜到你可能会跨领域购买(比如看了电影《美食总动员》,它立刻给你推相关的厨具)。

总结

简单来说,这篇论文就是给推荐系统装上了大脑(LLM 理解语义)、眼睛(CLIP 看懂图片)和平衡感(注意力机制处理数据不均)。

它不再是一个死板的“记录员”,而是一个懂生活、能联想、会平衡的超级导购。无论你是在看书还是在看锅,它都能敏锐地捕捉到你兴趣的火花,把最合适的东西送到你面前。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →