MMQ: Multimodal Mixture-of-Quantization Tokenization for Semantic ID Generation and User Behavioral Adaptation

本文提出了 MMQ 框架,通过结合多专家架构的共享 - 特定混合量化分词器与行为感知微调机制,有效解决了多模态语义 ID 生成中跨模态协同与特异性平衡及语义 - 行为对齐的难题,显著提升了推荐系统的可扩展性与泛化能力。

Yi Xu, Moyu Zhang, Chenxuan Li, Zhihao Liao, Haibo Xing, Hao Deng, Jinxin Hu, Yu Zhang, Xiaoyi Zeng, Jing Zhang

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 MMQ 的新方法,旨在解决推荐系统(比如淘宝、抖音、Netflix 给你推东西)中的一个核心难题:如何给海量的商品打上“智能标签”,让系统既能理解商品的“内涵”,又能精准猜中你的“喜好”。

为了让你轻松理解,我们可以把推荐系统想象成一个超级巨大的图书馆,而 MMQ 就是这位图书馆里最聪明的图书管理员

1. 以前的痛点:死记硬背的“编号”

在传统的推荐系统里,每个商品(比如一件 T 恤、一双鞋)都有一个唯一的身份证号(ItemID)

  • 问题:这就好比图书馆给每本书编了一个毫无意义的数字编号(比如 001, 002)。
    • 如果新书上架了,系统得重新学它的编号,学得很慢。
    • 如果是一本冷门书(长尾商品),没人读过,系统就完全不知道它讲什么,只能把它扔在一边。
    • 系统只知道“这是 001 号书”,却不知道“这是一本关于夏天的冒险小说”。

2. 现在的尝试:给商品贴“语义标签”

为了解决这个问题,研究人员开始用语义 ID

  • 做法:不再用冷冰冰的数字,而是根据商品的文字描述图片,提取出像“夏天”、“海滩”、“时尚”这样的关键词作为标签。
  • 好处:即使是一本新书,只要它写着“海滩”,系统就能把它推荐给喜欢“海滩”的人。
  • 新问题
    1. 顾此失彼:有的方法把文字和图片强行揉在一起(像把咖啡和牛奶混在一起),结果既没尝出咖啡味也没尝出牛奶味,丢失了细节。
    2. 水土不服:有的标签虽然很“文艺”(语义上很准),但跟用户的实际购买行为对不上号。比如,用户看了一百次“性感泳衣”的图片(语义),但最后只买了“保守的沙滩裤”(行为)。系统如果只懂“语义”,就会推错东西。

3. MMQ 的解决方案:双管齐下的“超级管理员”

MMQ 就像给图书馆管理员配备了一套双核大脑实战演练机制。

第一阶段:双核大脑(多模态混合量化)

想象管理员有两个助手:

  • 助手 A(特定专家):专门负责看文字,只懂文字里的独特细节(比如这件衣服是“纯棉”的)。
  • 助手 B(特定专家):专门负责看图片,只懂图片里的独特细节(比如这件衣服是“亮黄色”的)。
  • 助手 C(共享专家):负责看文字和图片的结合,发现它们共同传达的信息(比如“这是一件适合度假的亮黄色纯棉 T 恤”)。

MMQ 的巧妙之处
它不让助手们互相打架或抢着说话,而是用一种特殊的“正交规则”(就像让三个助手分别站在房间的三个角落,互不干扰但又能协作),确保:

  • 文字的独特性被保留。
  • 图片的独特性被保留。
  • 两者的结合点(协同信息)被精准捕捉。
    这样生成的标签,既全面又精准。

第二阶段:实战演练(行为感知微调)

光有完美的标签还不够,还得看用户买不买账。

  • 以前的做法:管理员先给书贴好标签,然后就不管了,直接扔给推荐算法。
  • MMQ 的做法:管理员会盯着用户的实际购买记录进行“微调”。
    • 如果系统发现用户虽然看了“性感泳衣”(语义标签),但只买了“沙滩裤”,管理员就会立刻调整标签的权重,让“沙滩裤”这个标签在推荐时更重。
    • 这就像管理员在贴标签时,一边贴一边问:“嘿,用户真的喜欢这个吗?”如果答案是否定的,就马上修正。

4. 为什么这很厉害?(比喻总结)

  • 传统方法:像是一个死板的图书管理员,只认编号。新书来了他不知道,冷门书他直接忽略。
  • 普通语义方法:像是一个文艺的图书管理员,能写出优美的书评,但有时候太理想化,推给你的书你可能根本不想读(因为不懂你的真实口味)。
  • MMQ:像是一个既懂书又懂人性的金牌销售
    • 他既能通过文字和图片精准描述商品(懂内涵)。
    • 又能通过观察你的购买行为,动态调整推荐策略(懂人性)。
    • 他还能把海量商品分类得井井有条,哪怕是很冷门的商品,也能找到懂它的人。

5. 实际效果

论文在阿里巴巴的电商平台上进行了测试(就像在真实的淘宝上试运行):

  • 广告收入增加了 0.90%。
  • 转化率(用户看了就买)提升了 4.33%。
  • 订单量增加了 3.52%。

一句话总结
MMQ 就是给推荐系统装上了一双“慧眼”(看懂图文细节)和一颗“红心”(懂用户真实喜好),让推荐不再只是机械的匹配,而是真正懂你、懂商品的智能服务。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →