LMMRec: LLM-driven Motivation-aware Multimodal Recommendation

该论文提出了 LMMRec 框架,利用大语言模型通过思维链提示从文本中提取细粒度动机,并结合双编码器架构与对比学习策略,有效融合了异构文本信息与交互数据以提升多模态推荐性能。

Yicheng Di, Zhanjie Zhang, Yun Wang, Jinren Liu, Jiaqi Yan, Jiyu Wei, Xiangyu Chen, Yuan Liu

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种全新的推荐系统,我们可以把它想象成从“猜谜游戏”升级到了“读心术”

为了让你更容易理解,我们把推荐系统比作一个超级导购员

1. 以前的导购员:只懂“看动作”(传统推荐)

想象一下,你走进一家书店。

  • 传统导购员只会看你买了什么书、在哪个书架前停留了多久、最后付了多少钱。
  • 如果你买了一本《烹饪指南》,他会觉得:“哦,这个人喜欢做饭,下次推荐他买《烘焙大全》。”
  • 局限性:他完全不知道为什么你买这本书。
    • 也许你是为了送人(因为书皮好看)?
    • 也许你是为了减肥(因为书里全是低脂食谱)?
    • 也许你只是随手乱翻了一下?
    • 因为不知道“动机”,他只能猜,猜错了你就觉得他不靠谱。

2. 现在的痛点:忽略了“心里话”

以前的系统就像个哑巴,它只记录你的“肢体动作”(点击、购买),却听不到你的“心里话”(评论、搜索词)。

  • 你在评论里写:“这本书的插图太美了,我要买回去装饰客厅。”
  • 以前的系统可能只看到“买了书”,却忽略了“为了装饰”这个关键动机。这就导致它无法真正理解你,推荐的东西总差点意思。

3. 这篇论文的解决方案:LMMRec(带“读心术”的超级导购)

这篇论文提出的 LMMRec 框架,就像给导购员装上了一个拥有“读心术”的大脑(大语言模型 LLM)

  • 它是怎么工作的?
    它不再只看你“做了什么”,而是同时听你“说了什么”。

    • 当你写评论说“为了送礼",或者搜索“适合户外用的”时,这个大脑能瞬间理解这些文字背后的深层动机
    • 它把“你买了什么”(行为)和“你为什么买”(文字动机)像拼图一样完美地拼在一起。
  • 核心比喻:翻译官
    以前的系统里,“行为数据”和“文字评论”像是两个讲不同语言的人,互相听不懂。
    LMMRec 就像一个超级翻译官,它能把你的“点击行为”翻译成“心理需求”,也能把你的“文字评论”翻译成“行为信号”,让两者在同一个频道上对话。

4. 它厉害在哪里?(实验结果)

论文里做了很多测试,发现这个新系统有两个绝招:

  1. 更懂你(更精准)
    在 Yelp(类似大众点评)和 Steam(游戏平台)的测试中,它的推荐准确率比以前的老方法提高了近 5%

    • 比喻:以前它猜中你的喜好是 95 分,现在能猜中 99 分。它不仅能推荐你喜欢的书,还能推荐“适合送礼”或“适合装饰”的书,真正做到了投其所好
  2. 更抗干扰(更稳健)
    现实世界很乱,数据里经常有噪音(比如误触、乱点)。

    • 比喻:如果有人在书店里故意乱按按钮(噪音),以前的导购员会晕头转向,推荐错东西。但 LMMRec 因为有“读心术”,它能透过混乱的动作,依然听清你真正的“心里话”,所以即使环境很乱,它也能稳住阵脚,给出正确的建议

总结

简单来说,这篇论文就是给推荐系统装了一个懂心理学、会读心、能听懂人话的“超级大脑”

它不再只是机械地记录你“买了什么”,而是真正去理解你“为什么买”。这样,它给你的推荐就不再是冷冰冰的列表,而是真正懂你内心需求的贴心建议。