TSEmbed: Unlocking Task Scaling in Universal Multimodal Embeddings

本文提出了 TSEmbed 框架,通过结合混合专家(MoE)与低秩适应(LoRA)解决多模态大模型的任务冲突问题,并引入专家感知负采样(EANS)策略与两阶段训练范式,在 MMEB 基准及工业数据集上实现了最先进的通用多模态嵌入性能。

Yebo Wu, Feng Liu, Ziwei Xie, Zhiyuan Liu, Changwang Zhang, Jun Wang, Li Li

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 TSEmbed 的新模型,它的核心目标是解决多模态大模型(既能看懂图又能读懂文的 AI)在“万能化”过程中遇到的一个致命难题:“任务冲突”

为了让你轻松理解,我们可以把整个故事想象成**“开一家超级全能餐厅”**。

1. 核心问题:为什么“万能”很难?(任务冲突)

想象一下,你开了一家餐厅,想同时提供四种完全不同的服务:

  1. 精准定位菜(像“视觉定位”任务,比如指出图片里猫在哪)。
  2. 讲笑话(像"VQA 问答”任务,回答图片里的问题)。
  3. 找相似菜品(像“检索”任务,找跟这张图很像的图)。
  4. 分类菜单(像“分类”任务,判断这是中餐还是西餐)。

以前的做法(单体模型):
你雇佣了一位**“全能主厨”**(比如 VLM2VEC),让他一个人负责所有事。

  • 问题出现了: 当他在做“找相似菜品”时,需要非常宏观、模糊的味觉记忆;但当他做“精准定位菜”时,需要极其精细、关注细节的刀工。
  • 后果: 主厨的大脑(参数空间)被撕裂了。为了兼顾宏观,他忽略了细节;为了关注细节,他又忘了宏观。结果就是,他做每件事都比不过那些专门只干这一行的“单科冠军”。这就叫**“任务冲突”**。

2. TSEmbed 的解决方案:组建“专家天团”(MoE + LoRA)

TSEmbed 不想再让一个主厨累死,它换了一种管理模式:“混合专家系统”(MoE)+ “低秩适应”(LoRA)

  • 比喻:从“全能主厨”变成“专家后厨团队”
    • MoE(混合专家): 餐厅不再只有一个主厨,而是有一个**“调度员”(Router)和四位专家**(Experts)。
      • 专家 A 擅长宏观检索。
      • 专家 B 擅长精细定位。
      • 专家 C 擅长逻辑问答。
      • 专家 D 擅长分类。
    • LoRA(低秩适应): 这些专家不是从头招的,而是从原来的“全能主厨”身上快速培训出来的。他们只学习自己那部分最核心的技能(就像给主厨戴上一个只负责特定任务的“特制围裙”),这样既省钱(参数少)又高效。
    • 工作流程: 当顾客(输入数据)进来时,调度员会看一眼:“哦,这是个找相似图片的顾客”,于是立刻把任务派给专家 A。专家 A 全神贯注地干活,完全不受其他任务干扰。
    • 效果: 每个人都在自己最擅长的领域里发挥到极致,不再互相打架。

3. 进阶技巧:如何挑出“最难缠的顾客”?(EANS)

光有专家还不够,训练时还需要“练级”。在对比学习中,模型需要区分“正例”(对的)和“负例”(错的)。

  • 普通做法: 随便找一些完全不像的图当负例(比如拿一张猫的图片去对比狗的图),这太简单了,模型学不到真本事。
  • TSEmbed 的做法(EANS - 专家感知负采样):
    • 比喻: 调度员不仅派活,还**“看人下菜碟”**。
    • 当模型遇到一个很难分辨的“坏顾客”(硬负例,比如一只长得像狗的狼),调度员发现:“哎?这个狼和刚才那只狗,竟然都派给了同一个专家处理!”
    • 这说明它们非常相似,是真正的“硬骨头”。
    • 策略: 调度员立刻给这个“硬负例”打上**“高难度标签”**,告诉模型:“这个必须重点练!多罚它几次!”
    • 而那些一眼就能看出来的“假顾客”(简单负例),调度员就轻轻带过,不浪费精力。
    • 结果: 模型在“硬骨头”上练得更多,辨别能力突飞猛进。

4. 训练秘籍:先练基本功,再练绝招(两阶段学习)

如果一开始就让调度员去挑“硬骨头”,会发生什么?

  • 问题: 刚开业时,调度员还没认人,乱点鸳鸯谱。如果这时候就让他去惩罚“硬负例”,模型会被带偏,越练越乱。
  • TSEmbed 的策略:
    • 第一阶段(热身期): 先让专家们在没有“惩罚机制”的情况下,自由地根据数据特点,把自己分工练好。这时候大家先学会“各司其职”。
    • 第二阶段(精修期): 等调度员已经能准确识别谁擅长干什么了,再开启“高难度惩罚模式”(EANS),专门针对那些难分辨的案例进行强化训练。
    • 比喻: 就像教学生,先让他们分科学习(数学的学数学,语文的学语文),等大家都成了小专家,再让他们做那种“既像数学又像语文”的超级难题,这时候他们才能真的融会贯通。

5. 最终成果:为什么它这么强?

  • 全能且专精: TSEmbed 既保留了大模型的“万能”外壳,又在内部实现了“术业有专攻”。
  • 数据效率高: 它不需要像其他模型那样去外面找海量的额外数据来“洗脑”,仅靠现有的数据,通过更聪明的训练方法,就能达到甚至超越那些用了海量数据的模型。
  • 工业界验证: 在真实的商业场景(比如广告推荐、游戏搜索)中,它的表现比之前的“全能主厨”提升了20% 以上,而且只增加了极少的计算成本。

总结

TSEmbed 就像是一个聪明的餐厅经理

  1. 它不再强迫一个员工干所有活,而是组建专家团队(MoE),让每个人做最擅长的事。
  2. 它利用调度员的直觉(路由分布),自动识别出最难分辨的“坏顾客”,并重点训练(EANS)。
  3. 它懂得循序渐进,先让团队分工明确,再开始高强度特训(两阶段学习)。

最终,它打造出了一个既懂宏观又懂细节、既能快速检索又能精准推理的**“超级万能 AI"**。