MBD: A Model-Based Debiasing Framework Across User, Content, and Model Dimensions

该论文提出了一种模型去偏(MBD)框架,通过分布建模将受异质性偏差影响的行为信号转化为可灵活定义、个性化且自适应的无偏表征,从而解决推荐系统中价值模型评分偏差及生态突变问题,并作为轻量级分支无缝集成至现有排序模型中。

Yuantong Li, Lei Yuan, Zhihao Zheng, Weimiao Wu, Songbin Liu, Jeong Min Lee, Ali Selman Aydin, Shaofeng Deng, Junbo Chen, Xinyi Zhang, Hongjing Xia, Sam Fieldman, Matthew Kosko, Wei Fu, Du Zhang, Peiyu Yang, Albert Jin Chung, Xianlei Qiu, Miao Yu, Zhongwei Teng, Hao Chen, Sunny Baek, Hui Tang, Yang Lv, Renze Wang, Qifan Wang, Zhan Li, Tiantian Xu, Peng Wu, Ji Liu

发布于 2026-03-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 MBD(基于模型的去偏框架) 的新技术,它被 Meta(Facebook/Instagram 的母公司)用来改进他们的推荐系统。

为了让你轻松理解,我们可以把推荐系统想象成一个超级挑剔的“选角导演”,而用户就是观众。导演的任务是给观众推荐最精彩的“电影片段”(视频、照片等)。

1. 以前的痛点:导演被“假象”迷惑了

在 MBD 出现之前,这位导演主要靠几个“硬指标”来打分:

  • 观看时长:谁看得久,谁就得分高。
  • 点赞率:谁被点赞多,谁就得分高。
  • 循环播放率:谁被反复看,谁就得分高。

问题出在哪里? 这些指标天生带有“偏见”,就像给不同体重的运动员用同一把尺子量身高:

  • 时长偏见:一个 10 分钟的视频,只要有人看,时长肯定比 5 秒的视频长。但这不代表 10 分钟的视频比 5 秒的更有趣!导演误以为“时间长=质量好”,结果总是推长视频,把精彩的短视频埋没了。
  • 格式偏见:视频天生比照片更容易让人“看很久”,但这不代表用户更喜欢视频。
  • 用户偏见:有些用户天生爱点赞(手滑党),有些用户很吝啬(高冷党)。如果只看点赞数,导演会误以为高冷用户喜欢的东西质量差。

后果:导演为了追求高分,开始疯狂推那些“容易刷时长”或“容易骗赞”的内容,而不是用户真正喜欢的内容。这就像餐厅为了翻台率,只给客人上那种“吃起来很慢但味道一般”的汤,而把真正美味的小菜藏起来了。

2. MBD 的解决方案:给每个选手发一把“定制尺子”

MBD 的核心思想是:不要只看绝对分数,要看“相对表现”。

想象一下,导演不再直接比较“谁跑得最快”,而是问:“在这个特定的赛道上,他跑得比平均水平快多少?”

MBD 做了三件聪明的事:

第一步:建立“参照系”(Contextual Baseline)

导演不再只盯着一个视频看,而是先问自己:

  • “对于一个喜欢长视频的用户,看一个10 分钟的视频,正常应该看多久?”
  • “对于一个高冷的用户,给一个搞笑视频点赞,正常的概率是多少?”

MBD 就像一个超级统计学家,它能实时计算出:在特定的用户、特定的视频长度、特定的地区下,大家通常的表现是怎样的(平均值 μ\mu)和波动有多大(方差 σ\sigma)。

第二步:计算“相对分”(Z-Score / 百分位)

有了参照系,导演就开始重新打分了:

  • 旧方法:视频 A 看了 45 秒。得分:45 分。
  • MBD 方法
    • 如果是 10 分钟的视频,大家平均看 30 秒。视频 A 看了 45 秒 -> 超出平均水平 50%(这是个大惊喜!)。
    • 如果是 1 分钟的短视频,大家平均看 50 秒。视频 A 看了 45 秒 -> 低于平均水平(这表现一般)。

MBD 把原始的“绝对分数”转化成了“相对排名”(比如:你是同类视频中的前 10%)。这就好比在奥运会,短跑选手和长跑选手不能直接比谁跑得快,而是要看谁在自己的项目里打破了世界纪录的幅度。

第三步:动态调整,拒绝“死板”

以前的去偏方法(比如“分桶法”)像是把视频按长度分成几个大箱子(0-5 秒,5-10 秒...),然后给每个箱子定一个标准。但这很笨:

  • 太粗糙:5.1 秒和 9.9 秒的视频被分在同一个箱子,标准一样,但实际差异很大。
  • 太滞后:箱子里的标准是上周算的,今天流行趋势变了,标准就过时了。
  • 冷启动难:新视频没人看,箱子里没数据,没法打分。

MBD 的魔法:它不像分箱子,而是像AI 画家,能根据视频的具体特征(长度、类型、用户习惯),实时画出一条完美的曲线来预测“正常值”。哪怕是一个刚上传的新视频,它也能根据相似特征推断出合理的标准。

3. 实际效果:生态系统的“大扫除”

论文中提到,Meta 把这个系统用在了拥有数十亿用户的平台上,效果惊人:

  • 去除了“虚胖”:那些靠“时长”凑分数的低质长视频被降权了。
  • 发现了“遗珠”:那些虽然短、但用户非常喜欢的精彩短视频被推上去了。
  • 用户更满意:因为推荐的内容更符合用户的真实兴趣,而不是系统的“作弊分”,用户愿意花更多时间在上面(Time SpentSessions 都提升了)。

总结:一个生动的比喻

想象你在一个巨大的游乐场里玩旋转木马。

  • 以前的系统:不管你是大人还是小孩,也不管木马转得快慢,只要你在上面坐得久,就给你发“最佳游客奖”。结果,大家都去坐那个转得慢但能坐很久的“老式木马”,而那种转得快、很刺激的“新式木马”没人玩,因为坐久了会晕。
  • MBD 系统:它给每个游客发了一张**“相对成就卡”**。
    • 如果你是个小孩,在“老式木马”上坐了 5 分钟,系统会说:“哇!对于小孩来说,这已经是很棒的体验了(前 10%)!”
    • 如果你是个大人,在“老式木马”上坐了 5 分钟,系统会说:“嗯,这很普通,大家都能做到。”
    • 如果你是个小孩,在“新式木马”上坐了 1 分钟(虽然时间短),系统会说:“太厉害了!对于小孩来说,这简直是极限挑战(前 1%)!”

最终结果:游乐场不再只奖励“坐得久”的人,而是奖励“玩得最开心、最投入”的人。MBD 就是那个让游乐场回归“快乐本质”的聪明管家。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →