Reproducibility and Artifact Consistency of the SIGIR 2022 Recommender Systems Papers Based on Message Passing

该论文通过复现分析 SIGIR 2022 年发表的 10 篇基于消息传递的推荐系统论文,揭示了其中普遍存在的数据泄露、实验复现不一致以及基线选择偏差等严重问题,导致大多数论文声称的改进成果无法被证实。

Maurizio Ferrari Dacrema, Michael Benigni, Nicola Ferro

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一次对推荐系统(比如抖音、淘宝、Netflix 的“猜你喜欢”)研究界的**“大体检”**。

作者们(来自意大利的三位学者)检查了 2022 年在顶级会议 SIGIR 上发表的一系列关于“基于消息传递的图神经网络推荐系统”的论文。他们想搞清楚两件事:

  1. 这些论文是真的吗?(别人能照着做出来一样的结果吗?)
  2. 这些新方法真的比老方法好吗?(还是只是看起来很美?)

为了让你更容易理解,我们可以把这项研究想象成**“美食评论家去检查新开的网红餐厅”**。

1. 核心发现:很多“网红菜”其实是“照骗”

作者检查了 10 篇论文(就像检查 10 家新开的网红餐厅),结果发现情况不太乐观:

  • 食材(数据)被“动过手脚”:
    很多论文声称他们的数据是随机切分的(就像随机挑选顾客来试菜),但作者发现,他们提供的数据切分方式其实是有问题的。

    • 比喻: 想象一家餐厅声称“我们随机邀请了 100 位顾客试菜”。但实际上,他们偷偷把“爱吃这道菜”的顾客都留给了“训练集”(厨师练习用),而把“不爱吃这道菜”的顾客放到了“测试集”(正式上菜给客人)。结果厨师在练习时觉得“哇,大家都爱吃!”,但真上菜时客人却觉得“难吃”。
    • 后果: 这叫做**“数据泄露”**。就像考试前把答案偷偷塞给了学生,学生考高分是理所当然的,但这不代表他真学会了。
  • 菜谱(代码)和说明书(论文)对不上:
    虽然 90% 的论文都提供了代码(菜谱),但作者发现代码和论文里写的步骤经常不一致。

    • 比喻: 论文里写着“这道菜要放 3 克盐”,但提供的代码里却放了 30 克盐,或者根本没放盐。更糟糕的是,有些代码里甚至直接用了“测试数据”来调整火候(决定什么时候停止训练),这就像厨师在试菜时,一边尝一边改菜谱,直到味道完美为止,然后声称这是“一次性做出来的完美味道”。
  • 结果不可复现:
    作者试图照着论文和代码重新做一遍实验。结果发现,只有一半多一点的论文能复现出原本声称的效果。有的论文甚至完全做不出那个结果。

    • 比喻: 你拿着网红餐厅的菜谱回家做,结果做出来的菜和照片完全不一样,甚至根本没法吃。

2. 最大的讽刺:新不如旧

这是这篇论文最扎心的发现。

  • 现象: 这些新推出的“高科技”图神经网络模型,在很多情况下,竟然打不过几十年前的“老古董”算法(比如简单的 ItemKNN,就像简单的“买了 A 的人通常也买 B"这种规则)。
  • 比喻: 就像一家餐厅花大价钱请了米其林大厨,用了最复杂的分子料理技术,结果做出来的牛排,口感还不如隔壁街角卖了几十年的“老张铁板烧”。
  • 特别案例(Amazon-Book 数据集): 在亚马逊图书这个数据集上,那些号称“最先进(State-of-the-Art)”的新模型,表现甚至比简单的老方法差了一半。这就像是用火箭去送快递,结果发现骑自行车反而更快、更准。

3. 为什么会出现这种情况?

作者分析认为,主要有三个原因:

  1. 作弊的“训练”: 很多模型在训练时偷偷看了“考题”(测试数据),导致成绩虚高。
  2. 没调好参数: 就像做菜没放对调料。很多论文没有认真调整模型的参数,只是随便设了几个值,就声称效果很好。作者自己重新认真调参后,发现有些模型的效果确实变好了,但依然打不过简单的老方法。
  3. 比较对象太弱: 为了显得自己厉害,有些论文故意找一些很弱的对手来比,或者没有把对手(基线模型)调到最强状态。这就像拳击手为了赢,只敢和刚学拳的小孩子打,却不敢和职业选手打。

4. 对未来的影响:恶性循环

作者还检查了 2023 年的论文,发现这些“问题论文”的影响还在延续:

  • 2023 年的新论文还在引用 2022 年那些有问题的模型作为“基准”(Baseline)。
  • 因为大家用的数据切分方式、预处理方法都不一样,导致大家根本没法互相比较
  • 比喻: 就像大家都在比谁跑得快,但有人穿跑鞋,有人穿拖鞋,有人还在跑道上跑,有人在泥地里跑。最后得出的结论是“穿跑鞋的赢了”,但这真的公平吗?

总结:这篇论文想告诉我们什么?

这篇论文就像是一记警钟,敲醒了推荐系统研究界:

  1. 别再搞“花架子”了: 不要只追求模型看起来复杂、高大上,如果连简单的老方法都打不过,那这个新模型可能没什么用。
  2. 诚实很重要: 数据怎么切的、代码怎么写的一定要写清楚,不能偷偷作弊(数据泄露)。
  3. 回归科学本质: 科学研究应该是可重复的、透明的。如果别人照着你的方法做不出来,或者你的方法打不过简单的老方法,那就应该承认并改进,而不是强行吹嘘。

一句话总结:
现在的推荐系统研究有点“虚火”,很多新模型像是“纸老虎”,经不起推敲,甚至不如几十年前的老方法实在。作者呼吁大家少一点套路,多一点真诚,把基础打牢,让研究真正对得起“科学”二字。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →