TaoSR1: The Thinking Model for E-commerce Relevance Search

本文提出了 TaoSR1 框架,通过结合思维链监督微调、偏好优化及基于难度的动态采样策略,成功解决了大语言模型在电商搜索相关性任务中面临的推理错误累积、判别幻觉及部署可行性等挑战,显著提升了离线与在线评估表现。

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo Zheng

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 TaoSR1 的“超级智能搜索助手”,它是阿里巴巴淘宝团队为了让大家在淘宝上搜东西更准、更聪明而研发的一项新技术。

为了让你轻松理解,我们可以把电商搜索想象成在一家巨大的图书馆里找书,而TaoSR1就是那位博学的图书管理员

1. 以前的困境:只会“对号入座”的图书管理员

以前的搜索系统(基于 BERT 模型)就像一位死记硬背的图书管理员

  • 优点:如果你搜“红色苹果”,他能迅速找到所有红色的苹果。对于简单、直接的搜索,他表现很好。
  • 缺点:如果你搜“我想买一个像 Miu Miu 但便宜点的包”(这是典型的长尾复杂需求),这位管理员就懵了。他只会机械地匹配关键词,可能会给你一堆真的 Miu Miu 包(太贵了),或者完全不懂“替代品”是什么意思。
  • 问题:他缺乏推理能力,不懂人类的潜台词,遇到复杂问题就“掉链子”。

2. 新方案:引入“思考型”AI 图书管理员

为了解决这个问题,团队引入了大语言模型(LLM),并给这位管理员装上了一个**“思考大脑”**。

核心挑战:思考太慢,容易出错

虽然让管理员“先思考再回答”(Chain-of-Thought, CoT)能极大提升理解力,但也带来了三个新问题:

  1. 太慢了:思考过程太长,用户等不起(就像去图书馆还要先写一万字的读后感才能拿书)。
  2. 容易想歪:思考步骤越多,中间越容易犯一个错,导致最后结论全错(就像走迷宫,第一步走错,后面全错)。
  3. 幻觉:有时候管理员明明推理过程是对的,最后却给出了一个离谱的答案(比如推理出“苹果是水果”,最后却推荐给你“苹果牌手机”)。

3. TaoSR1 的三大“独门绝技”

为了既让管理员变聪明,又让他反应快、不犯错,团队设计了三个阶段的训练方案:

第一阶段:SFT(带思考的“岗前培训”)

  • 做法:他们给管理员看大量带有“推理过程”的教材。比如,面对“Miu Miu 替代品”,管理员不仅要给答案,还要写出:“用户想要大牌风格但预算低 -> 排除真 Miu Miu -> 寻找相似设计但价格低的品牌 -> 推荐 X 品牌”。
  • 创新点(Respond-then-think)
    • 以前是“先思考再回答”,容易想偏。
    • 现在改为**“先给答案,再解释原因”**。
    • 比喻:就像考试时,先圈出正确答案,再写解题步骤。这样既保证了答案的准确性,又保留了思考过程供后续优化。

第二阶段:DPO(“优中选优”的强化训练)

  • 做法:让管理员针对同一个问题,自己尝试回答 5 次(Pass@N)。
    • 如果 5 次里有对的,就把“对的”和“错的”配对,让他学习:“看,刚才那个是对的,那个是错的,以后选对的。”
    • 如果 5 次全错了(这是最难的问题),就请一位**“超级专家”**(另一个更强的模型)来示范正确答案,让管理员模仿。
  • 比喻:这就像教练让运动员反复练习,做对了就奖励,做错了就纠正;如果运动员怎么都练不会,教练就亲自上手示范一遍。

第三阶段:GRPO(“挑刺”式进阶训练)

  • 做法:专门挑那些**“有点难但又能做对”**的问题进行训练。
    • 太简单的题(全对)不用练,因为没提升空间。
    • 太难的题(全错)暂时放弃,因为练了也练不会,浪费时间。
    • 只练那些**“在及格线边缘徘徊”**的题,通过不断调整,让模型在这些难点上突破瓶颈。
  • 比喻:就像老师给学生补课,不教已经会做的题,也不教完全听不懂的天书,而是专门攻克那些“跳一跳够得着”的难点。

4. 上线部署:聪明的“分层策略”

在淘宝真实的搜索环境中,速度至关重要。

  • 传统做法:需要人工设定很多复杂的分数线(比如 0.3 分算好,0.5 分算中),调参非常麻烦,像走钢丝。
  • TaoSR1 的做法(CumPT):发明了一种**“累积概率”**方法。
    • 比喻:以前是定死几个门槛,现在像**“倒水”**一样。只要累积的水量(概率)超过一条线,就自动归类为“好”;再超过一条线,就是“中”。
    • 好处:只需要调整一个参数,就能自动平衡精准度和召回率,既简单又稳定。

5. 最终效果:更懂你,更聪明

经过这一套“组合拳”训练:

  • 离线测试:在复杂的难题上,准确率大幅提升。
  • 在线实测
    • 当用户搜"Miu Miu 替代品”时,系统不再傻乎乎地推真 Miu Miu,而是精准推荐了平替款。
    • 当用户搜“不掉头发的短袖”时,系统能理解“不掉”是修饰“头发”的,而不是“短袖不掉”。
  • 商业价值:用户的购物体验变好了,购买意愿没有下降,甚至因为找得更准,浏览量和交易量都提升了。

总结

TaoSR1 就像把一位只会死记硬背的图书管理员,培养成了一位既懂逻辑推理、又反应迅速、还能自我纠错的超级专家。它证明了:在电商搜索这种需要“既快又准”的领域,大模型只要训练得当,完全可以取代传统的旧模型,真正听懂用户的心声。